|
Øvelse: Parvis alignment
Øvelse skrevet af: Rasmus
Wernersson
I denne øvelse skal vi
arbejde med parvis alignment af protein-sekvenser. Som gennemgået
i teksten til i dag, samt forelæsningen, fungerer parvist
alignment vha. en algoritme kaldet dynamisk
programmering (DP). Vi skal ikke her kigge nærmere
på selve matematikken bag alignments, men blot huske på
følgende:
- Kvaliteten af et alignment bestemmes af dets alignment score.
- Alignment score beregnes ud fra match/mis-match ved brugt af en
alignment matrice (fx BLOSUM62 for proteinsekvenser).
- "Straffen" for at introducere gaps bestemmes efter to
parameterer: "Gap opening" (koster meget) og "gap elongation" (koster
lidt).
- To varianter af DP algoritmen:
- Globalt alignment (Needleman-Wunsch).
- Lokalt alignment (Smith-Waterman).
Bemærk: Der findes utallige programmer der kan udføre
parvist alignment (algoritmen er velbeskrevet og nem at implementere).
Vi skal i denne øvelse bruge nogle programmer af EMBOSS som er en samling af
Open Source bioinformatik programmer, til hvilket der også findes
et ganske udemærket web-interface hos EBI - European Bioinformatics Institute
(England).
Trin 1 - basalt brug
- Åbn align-siden hos EBI: http://www.ebi.ac.uk/emboss/align/
- Bemærk at der et en side med udførlig hjælp
til hvordan man bruger deres alignment service - klik på "Emboss
align help" ude til venstre (direkte link: http://www.ebi.ac.uk/emboss/align/help.html).
- Lad os i første omgang prøve at aligne et par
serin-proteaser (fra UniProt). Den første (P29600) er den termostabile protease som
Novozymes sælger til vaskepulver under navnet "Savinase". Sekvens nummer to er en
anden termostabil serin-protease fra en helt anden art af Bacillus.
>P29600|SUBS_BACLE
Subtilisin Savinase - Bacillus lentus
AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGN
GHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQGLEWAGNNGMHVA
NLSLGSPSPSATLEQAVNSATSRGVLVVAASGNSGAGSISYPARYANAMAVGATDQNNNR
ASFSQYGAGLDIVAPGVNVQSTYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQI
RNHLKNTATSLGSTNLYGSGLVNAEAATR
>P41363|ELYA_BACHD
Thermostable alkaline protease precursor - Bacillus halodurans
MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYDVDVIHEFEEI
PVIHAELTKKELKKLKKDPNVKAIEKNAEVTISQTVPWGISFINTQQAHNRGIFGNGARV
AVLDTGIASHPDLRIAGGASFISSEPSYHDNNGHGTHVAGTIAALNNSIGVLGVAPSADL
YAVKVLDRNGSGSLASVAQGIEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLV
GAAGNTGRQGVNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVNSTYTGNRY
VSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATYLGSPSLYGNGLVHAGRAT
Q
- Kopier en sekvens ind i hver sekvens-boks. Sørg for at der
er valgt "protein" som
sekvenstype, "BLOSOM62" som
alignment matrice og "needle (global)"
som metode. Tryk på "run" for at aligne sekvenserne.
- Læg mærke til at similariteten mellem aminosyrerne
vises med "|" ved perfect
match, med ":" med et
mis-match hvor de to aminosyrer deler nogle fysiokemiske egenskaber, og
"." hvor aminosyrerne slet
ikke minder om hinanden.
- Hvad er alignment score?
- Bemærk: Lige netop
EMBOSS version af "Needleman-Wunsch" algoritmen ignorer gaps i starten
of slutningen når der beregnes alignment score.
- Hvad er alignment længden?
- Hvad er Identity? (både i % og som fraktion).
- Hvad er Similarity? (både i % og som fraktion).
- Prøv at aligne sekvenserne igen, men denne gang med "water
(local)" algoritmen.
- Hvad er alignment score?
- Hvad er alignment længden nu?
- Hvad er Identity? (både i % og som fraktion).
- Hvad er Similarity? (både i % og som fraktion).
- Hvilken af de to metoder giver det bedste alignment? Hvorfor?
- Lad os undersøge hvorfor de to sekvenser er forskellige i
starten: Slå begge op i UniProt (http://www.uniprot.org).
Klik på extented view
for at få alle informationer (alternativt kan man klikke på
"flat file" og se det
"rå" entry).
- Hvordan er de sekventeret?
- Hvor i cellen / uden for cellen har enzymerne deres funktion?
- Feature tabellen
fortæller om de forskellige regioner af proteinet - prøv
at sammenligne og finde ud af hvad forskellen er (ignorer bare
information om sekundær-struktur - TURN, HELIX og STRAND).
- Ud fra kvaliteten af alignmentet og de informationer du har
gravet frem i UniProt, så svar på
følgende:
- Er det sandsynligt at man kan bruge P41363 som vaskepulverenzym?
Hvorfor, hvorfor ikke?
Trin 2 - om gaps og tvivlsomme
alignments
- Vi skal nu prøve at sammenligne vores Savinase protease (P29600) med en serin protease
fra mennesket. Den nedenstående sekvens er fundet gennem
GenBank entry'et "NM_002773"
- husk at man for alle GenBank entries med en CDS også kan
få fat i den oversatte protein-sekvens.
- Pedantisk detalje:
Teknisk set er det fra det humane genom, og ikke fra GenBank - men det
lige meget i denne sammenhæng. Hvis man søger på NM_002773 hos NCBI får
man fat på sekvensen med det samme. Link: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
- Opgave: Tjek sekvensen
hos GenBank. Kan vi stole på sekvensen, eller er det bare et
tilfældigt DNA fragment?
>gi|4506153|ref|NP_002764.1|
prostasin preproprotein [Homo sapiens]
MAQKGVLGPGQLGAVAILLYLGLLRSGTGAEGAEAPCGVAPQARITGGSSAVAGQWPWQVSITYEGVHVC
GGSLVSEQWVLSAAHCFPSEHHKEAYEVKLGAHQLDSYSEDAKVSTLKDIIPHPSYLQEGSQGDIALLQL
SRPITFSRYIRPICLPAANASFPNGLHCTVTGWGHVAPSVSLLTPKPLQQLEVPLISRETCNCLYNIDAK
PEEPHFVQEDMVCAGYVEGGKDACQGDSGGPLSCPVEGLWYLTGIVSWGDACGARNRPGVYTLASSYASW
IQSKVTELQPRVVPQTQESQPDSNLCGSHLAFSSAPAQGLLRPILFLPLGLALGLLSPWLSEH
- Prøv at aligne Savinase med den overstående
"Prostasin" sekvens - med globalt
alignment algoritmen.
- Hvad er alignment score?
- Hvad er Identity og Similarity?
- Hvor stor en del af det samlede alignment udgøres af
gaps?
- Prøv derefter at aligne sekvenserne med local alignment algoritmen.
- Hvad er alignment score? Hvorfor er den forskellig fra det
globale alignment?
- Hvad er Identity og Similarity?
- Hvor stor en del af det samlede alignment udgøres af
gaps?
- Var der stor forskel mellem de to alignments denne gang?
- Hvilken af de to typer alignment giver mest mening at bruge for
meget tæt beslægtede proteiner?
- ... for fjernt beslægtede proteiner?
- Vi skal nu finde ud af om vi overhovedet tror på
alignmentet mellem Savinase og Prostasin. Lad os derfor aligne Savinase
med et protein vi ved er noget helt andet - alpha globin.
Nedenstående er UniProt entry'et for alpha globin fra Sus scrofa - grisen.
>P01965|HBA_PIG
Hemoglobin subunit alpha - Sus scrofa
VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFNLSHGSDQVKAHGQ
KVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFNPS
VHASLDKFLANVSTVLTSKYR
- Prøv først at aligne Savinase og alpha globin
globalt.
- Hvordan ser det ud? (Alignment score, gaps osv.)
- Vil vi ud fra dette alignment tro at de to protein har noget
med hinanden at gøre?
- Prøv derefter at aligne Savinase og alpha globin lokalt.
- Hvordan ser det nu ud?
- Hvordan ser det ud med længden
af alignment i forhold til de to proteiner vi aligner?
- Vil vi ud fra dette alignment tro at de to protein har noget
med hinanden at gøre?
- Set i lyset af Savinase+alpha globin alignments'ne, hvordan vil
du så vurdere Savinase+Prostasin alignments'ne?
- Er de helt ud i skoven?
- Vi er så heldige at vi har ekstra information ang. deres
funktion (de er begge serin-proteaser). Hvordan vil der påvirke
din bedømmelse af alignments'ne?
- Som tommerfingerregel siger man at grænsen for at kunne
afgøre at to proteinsekvenser er beslægtede går ved 25-30%homologi over mindst 100 aminosyrere.
- Sæt Gaps'ne fri:
Lad os som det sidte inden vi går videre, prøve at
gøre det næsten "gratis" for algoritmen at indsætte
gaps.
- Sæt Gap opening penalty til 1.0 (det mindste man kan).
- Sæt Gap elongation penalty til 0.1 (det mindste man kan).
- Vælg globalt alignment.
- Prøv at aligne Savinase + Alpha globin igen.
- Hvordan ser det nu ud med alignmentet (score, gaps, similarity
osv).
- Giver dette alignment
overhovedet noget biologisk mening?
NB:
Hust at nulstille alignment parameterene inden du går videre
(tryk på "Reset" knappen).
Trin 3 - alignment matricer
Ang. alignment matricer:
EBI har en glimrende gennemgang af alignment matricer - se link'et
på deres align hjælpeside (direke link: http://www.ebi.ac.uk/help/matrix_frame.html).
Citat fra siden - med mine
fremhævelser:
"It is assumed that the sequences
being sought have an evolutionary ancestral
sequence in common with the
query sequence. The best guess at the actual path of evolution is the
path that requires the fewest evolutionary
events. All substitutions are not equally likely and should be weighted to account for
this. Insertions and deletions are less likely than substitutions and
should be weighted to account for this. It is necessary to consider
that the choice of search algorithm influences the sensitivity and
selectivity of the search. The choice of similarity matrix determines
both the pattern and the extent of substitutions in the sequences the
database search is most likely to discover."
Vi skal i det følgende afprøve nogle af de
forskellige alignment matricer. Bemærk at næsten alle
alignment algoritmer anvender BLOSUM62 som default til
protein-alignemnt. BLOSUM62 er et ganske udmærket kompromis, der
kan bruges til et bredt spektrum af sekvenser.
Tallet i BLOSUM matricerne fortæller om homologien af de
proteinsekvenser de er blevet estimeret ud fra. BLOSUM80 er
således afledt af sekvenser med 80% identitet, BLOSUM62 fra
sekvenser med 62% identitet osv.
PAM matricerne er konstrueret lidt anderledes and BLOSUM matricerne,
men det skal vi ikke gå yderligere ind i her (mere info på
den ovennævnte hjælpeside). Her skal vi blot bruge
følgende "konverteringstabel" mellem PAM og BLOSUM, da
webserveren ikke tilbyder nogen BLOSUM matricer højere end 62:
PAM100
==> Blosum90
PAM120 ==> Blosum80
PAM160 ==> Blosum60
PAM200 ==> Blosum52
PAM250 ==> Blosum45
- Lad os gå tilbage til de to prokaryote serin-protease
(Savinase + P41363). Vi
ved fra første del af øvelsen at de har stor similaritet,
så lad os her vælge "PAM100". Generer derefter et lokalt alignment.
- Hvad er alignment score?
- Hvad er alignment længden?
- Hvad er identity score?
- Hvad er similarity score?
- Hvilke scores er forskellige fra dem vi fik før (med
BLOSUM62) og hvorfor er de forskellige?
- Der var ikke de helt store forskelle at se med de to temmeligt
ens proteiner, så lad os istedet kigge på Savinase +
Prostasin igen. Vælg "BLOSUM40" som matrice, og generer igen et lokalt alignment.
- Hvad er alignment score?
- Hvad er alignment længden?
- Hvad er identity score?
- Hvad er similarity score?
- Hvilke scores er forskellige fra dem vi fik før (med
BLOSUM62) og hvorfor er de forskellige?
|