Øvelse: Parvis alignment
Øvelse skrevet af: Rasmus
Wernersson
I denne øvelse skal vi arbejde
med parvis alignment af protein-sekvenser. Som gennemgået i
teksten til i dag, samt forelæsningen, fungerer parvist alignment
vha. en algoritme kaldet dynamisk
programmering (DP). Vi skal ikke her kigge nærmere
på selve matematikken bag alignments, men blot huske på
følgende:
- Kvaliteten af et alignment bestemmes af dets alignment score.
- Alignment score beregnes ud fra match/mis-match ved brugt af en
alignment matrice (fx BLOSUM62 for proteinsekvenser).
- "Straffen" for at introducere gaps bestemmes efter to
parameterer: "Gap opening" (koster meget) og "gap elongation" (koster
lidt).
- To varianter af DP algoritmen:
- Globalt alignment (Needleman-Wunsch).
- Lokalt alignment (Smith-Waterman).
Bemærk: Der findes utallige programmer der kan udføre
parvist alignment (algoritmen er velbeskrevet og nem at implementere).
Vi skal i denne øvelse bruge nogle programmer fra EMBOSS som er en samling af
Open Source bioinformatik programmer, til hvilket der også findes
et ganske udemærket web-interface hos EBI - European Bioinformatics Institute
(England).
Trin 1 - basalt brug
- Åbn align-siden hos EBI: http://www.ebi.ac.uk/emboss/align/
- Bemærk at der et en side med udførlig hjælp
til hvordan man bruger deres alignment service - klik på "Emboss
align help" ude til venstre (direkte link: http://www.ebi.ac.uk/emboss/align/help.html).
- Lad os i første omgang prøve at aligne et par
serin-proteaser (fra UniProt). Den første (P29600) er den termostabile protease som
Novozymes sælger til vaskepulver under navnet "Savinase". Sekvens nummer to er en
anden termostabil serin-protease fra en helt anden art af Bacillus.
>P29600|SUBS_BACLE
Subtilisin Savinase - Bacillus lentus
AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGN
GHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQGLEWAGNNGMHVA
NLSLGSPSPSATLEQAVNSATSRGVLVVAASGNSGAGSISYPARYANAMAVGATDQNNNR
ASFSQYGAGLDIVAPGVNVQSTYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQI
RNHLKNTATSLGSTNLYGSGLVNAEAATR
>P41363|ELYA_BACHD
Thermostable alkaline protease precursor - Bacillus halodurans
MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYDVDVIHEFEEI
PVIHAELTKKELKKLKKDPNVKAIEKNAEVTISQTVPWGISFINTQQAHNRGIFGNGARV
AVLDTGIASHPDLRIAGGASFISSEPSYHDNNGHGTHVAGTIAALNNSIGVLGVAPSADL
YAVKVLDRNGSGSLASVAQGIEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLV
GAAGNTGRQGVNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVNSTYTGNRY
VSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATYLGSPSLYGNGLVHAGRAT
Q
- Kopier en sekvens ind i hver sekvens-boks. Sørg for at der
er valgt "protein" som
sekvenstype, "BLOSOM62" som
alignment matrice og "needle (global)"
som metode. Tryk på "run" for at aligne sekvenserne.
- Læg mærke til at similariteten mellem aminosyrerne
vises med "|" ved perfect
match, med ":" med et
mis-match hvor de to aminosyrer deler nogle fysiokemiske egenskaber, og
"." hvor aminosyrerne slet
ikke minder om hinanden.
- Hvad er alignment score? Svar: 916.0
- Bemærk: Lige netop
EMBOSS version af "Needleman-Wunsch" algoritmen ignorer gaps i starten
of slutningen når der beregnes alignment score.
- Hvad er alignment længden? Svar: 361
- Hvad er Identity? (både i % og som fraktion). Svar: 176/361
(48.8%)
- Hvad er Similarity? (både i % og som fraktion). Svar: 214/361
(59.3%)
Bemærk
at den ene sekvens er længere end den anden (det er derfor, der
er 25.5% gaps).
- Prøv at aligne sekvenserne igen, men denne gang med "water
(local)" algoritmen.
- Hvad er alignment score? Svar: 916.0
- Hvad er alignment længden nu? Svar: 269
- Hvad er Identity? (både i % og som fraktion). Svar: 176/269
(65.4%)
- Hvad er Similarity? (både i % og som fraktion). Svar: 214/269
(79.6%)
- Hvilken af de to metoder giver det bedste alignment? Hvorfor?
Svar: Da
de to sekvenser er af forskellig længde (se også svaret
på næste spørgsmål), giver det mest mening at
bruge Smith-Waterman algoritmen ("local alignment"), da dette vil give
en analyse af forskelle og ligheder for den del af sekvensen der faktisk er
sammenlignelig.
Bemærk: Ved local alignment skal man være opmærksom
på længden af
alignment'et. I dette tilfælde er det vigtigt at bemærke
forskellen i starten af sekvensen.
- Lad os undersøge hvorfor de to sekvenser er forskellige i
starten: Slå begge op i UniProt (http://www.uniprot.org).
Klik på extented view
for at få alle informationer (alternativt kan man klikke på
"flat
file" og se det
"rå" entry). NB: Er
ikke nødvendigt længere - det nye interface virser
automatisk denne information.
- Hvordan er de sekventeret?
Svar:
P29600 - sekvensen er afledt af 3D struktur. P41363 - oversat fra DNA +
information fra protein-sekventering.
- Hvor i cellen / uden for cellen har enzymerne deres funktion?
Svar:
SUBCELLULAR LOCATION: "Secreted protein" (for dem begge).
- Feature tabellen
fortæller om de forskellige regioner af proteinet - prøv
at sammenligne og finde ud af hvad forskellen er (ignorer bare
information om sekundær-struktur - TURN, HELIX og STRAND).
Svar:
P29600 starter direkte med sekvensen af det mature protein. P41363
starter med et signal-peptid (pos: 1-24), derefter pro-peptid (25-93),
og så først derefter kommer det mature protein.
Bemærk at både signal-peptid (funktion: signal til eksport
af proteinet) og pro-peptidet (funktion: hjælper protein med at
folde korrekt) klippes af inden protein er "modent".
Forskellen er her at P41363 er (primært) oversat fra DNA og
derfor indeholder information fra hele
den kodende sekvens, mens P29600 er afledt fra 3D struktur, som
indeholder den mature sekvens. Savinase indeholder faktisk både
signal- og pro-peptid (kan graves frem i databaserne).
- Ud fra kvaliteten af alignmentet og de informationer du har
gravet frem i UniProt, så svar på
følgende:
- Er det sandsynligt at man kan bruge P41363 som vaskepulverenzym?
Hvorfor, hvorfor ikke?
Taler
for: Samme type protease (serin-protease, S8 familie). Thermostabilt
(!). Minder meget som Savinase på sekvens-niveau.
Mulige problemer: Højt pH optimum - vil evt. kunne optimeres i
laboratoriet.
Trin 2 - om gaps og tvivlsomme
alignments
- Vi skal nu prøve at sammenligne vores Savinase protease (P29600) med en serin protease
fra mennesket. Den nedenstående sekvens er fundet gennem
GenBank entry'et "NM_002773"
- husk at man for alle GenBank entries med en CDS også kan
få fat i den oversatte protein-sekvens.
- Pedantisk detalje:
Teknisk set er det fra det humane genom, og ikke fra GenBank - men det
lige meget i denne sammenhæng. Hvis man søger på NM_002773 hos NCBI får
man fat på sekvensen med det samme. Link: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
- Opgave: Tjek sekvensen
hos GenBank. Kan vi stole på sekvensen, eller er det bare et
tilfældigt DNA fragment?
Svar:
Det vigtige er her, at det er et
gen man faktisk ved noget om. Det har et navn (PRSS8), en
beskrevet funktion, og der findes en række litteraturhenvisninger
om genet. Derudover er den en lang "COMMENT", der fortæller at
entry'et er inkluderet i REFSEQ (sættet af høj-kvalitet
reference-sekvenser - bemærk linien "This record has been curated by NCBI staff.").
Under COMMENT har NCBI også opsummeret genets funktion.
Det er altså ikke bare et tilfældigt DNA fragment.
>gi|4506153|ref|NP_002764.1|
prostasin preproprotein [Homo sapiens]
MAQKGVLGPGQLGAVAILLYLGLLRSGTGAEGAEAPCGVAPQARITGGSSAVAGQWPWQVSITYEGVHVC
GGSLVSEQWVLSAAHCFPSEHHKEAYEVKLGAHQLDSYSEDAKVSTLKDIIPHPSYLQEGSQGDIALLQL
SRPITFSRYIRPICLPAANASFPNGLHCTVTGWGHVAPSVSLLTPKPLQQLEVPLISRETCNCLYNIDAK
PEEPHFVQEDMVCAGYVEGGKDACQGDSGGPLSCPVEGLWYLTGIVSWGDACGARNRPGVYTLASSYASW
IQSKVTELQPRVVPQTQESQPDSNLCGSHLAFSSAPAQGLLRPILFLPLGLALGLLSPWLSEH
- Prøv at aligne Savinase med den overstående
"Prostasin" sekvens - med globalt
alignment algoritmen.
- Hvad er alignment score? Svar: 62.0
- Hvad er Identity og Similarity? Svar:
Identity: 67/411 (16.3%);
Similarity: 97/411 (23.6%)
- Hvor stor en del af det samlede alignment udgøres af
gaps? Svar:
51.1% - bemærk at det
humane protein er den hel del længede end Savinase.
- Prøv derefter at aligne sekvenserne med local alignment algoritmen.
- Hvad er alignment score? Hvorfor er den forskellig fra det
globale alignment? Svar: 82.5 - Ud
over at det lange område med gaps i slutningen er forsvundet,
så er områder af mere tvivlsom kvalitet i starten og
slutningen af det faktiske alignment også forsvundet.
- Hvad er Identity og Similarity? Svar:
Identity: 54/217 (24.9%);
Similarity: 79/217 (36.4%).
- Hvor stor en del af det samlede alignment udgøres af
gaps? Svar:
29.0%
- Var der stor forskel mellem de to alignments denne gang?
- Hvilken af de to typer alignment giver mest mening at bruge for
meget tæt beslægtede proteiner? Svar: Både
global og local alignment. Global er godt til at spotte forskelle som
fx. det med signal-peptidet. Hvis sekvenserne er af sammen længde
(sådan circa) og er meget ens, vil global og local alignment give
samme resultat.
- ... for fjernt beslægtede proteiner? Svar: Local
alignment
- Vi skal nu finde ud af om vi overhovedet tror på
alignmentet mellem Savinase og Prostasin. Lad os derfor aligne Savinase
med et protein vi ved er noget helt andet - alpha globin.
Nedenstående er UniProt entry'et for alpha globin fra Sus scrofa - grisen.
>P01965|HBA_PIG
Hemoglobin subunit alpha - Sus scrofa
VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFNLSHGSDQVKAHGQ
KVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFNPS
VHASLDKFLANVSTVLTSKYR
- Prøv først at aligne Savinase og alpha globin
globalt.
- Hvordan ser det ud? (Alignment score, gaps osv.) Svar: Det ser skidt
ud - 6.6% identity, 11.1% similarity og 77.2% gaps.
- Vil vi ud fra dette alignment tro at de to protein har noget
med hinanden at gøre? Svar: Nej.
- Prøv derefter at aligne Savinase og alpha globin lokalt.
- Hvordan ser det nu ud? Svar: Hvis man kun
kigger på procenterne ser det pludseligt helt godt ud - 28.3%
identity, 40.0% similarity og 28.3% gaps. Men dette dækker kun et
meget kort alignment (længde: 60).
SUBS_BACLE
39
PDLNIRGGASFVPGEPSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSA--
86
|..|:..|:..|
..||..||. ||..::|.|...|.|
HBA_PIG 44
PHFNLSHGSDQV---------KAHGQKVAD---ALTKAVGHLDDLPGALS
81
SUBS_BACLE 87
---ELYAVKV 93
:|:|.|:
HBA_PIG 82
ALSDLHAHKL 91
- Hvordan ser det ud med længden
af alignment i forhold til de to proteiner vi aligner? Svar: Skidt - se
ovenstående
- Vil vi ud fra dette alignment tro at de to protein har noget
med hinanden at gøre? Svar: Nej -
alignment'et er simpelthen for kort. Selv hvis man align'er to tilfældige sekvenser, vil der
af rent stokastiske årsager være en en smule der kan
align'es.
- Set i lyset af Savinase+alpha globin alignments'ne, hvordan vil
du så vurdere Savinase+Prostasin alignments'ne?
- Er de helt ud i skoven? Svar: Nej, de
virker mere plausible - selv ved local alignment kan en stor del af
sekvenserne align'es. Det skal dog siges at vi er nede i et
gråzone område (identity: ~25%, similarity: ~36%).
- Vi er så heldige at vi har ekstra information ang. deres
funktion (de er begge serin-proteaser). Hvordan vil der påvirke
din bedømmelse af alignments'ne?
Svar:
Som nævnt er vi i et gråzone område, så hvis vi
ikke har ekstra information, kan det være svært at
afgøre. Ud fra informationen om den fælles funktion og
virkemåde, er der muligvis tale om et fjernt slægtskab.
Hvis man for alvor skal afgøre det, må man sammenligne protein 3D struktur.
- Som tommerfingerregel siger man at grænsen for at kunne
afgøre at to proteinsekvenser er beslægtede går ved 25-30%homologi over mindst 100 aminosyrere.
- Sæt Gaps'ne fri:
Lad os som det sidste inden vi går videre, prøve at
gøre det næsten "gratis" for algoritmen at indsætte
gaps.
- Sæt Gap opening penalty til 1.0 (det mindste man kan).
- Sæt Gap elongation penalty til 0.1 (det mindste man kan).
- Vælg globalt alignment.
- Prøv at aligne Savinase + Alpha globin igen.
- Hvordan ser det nu ud med alignmentet (score, gaps, similarity
osv). Svar:
Ud fra tallene ser det jo ikke så ringe ud mere (Identity: 22.0%;
similarity: 29.3% - alignment score: 289.5.
- Giver dette alignment
overhovedet noget biologisk mening? Svar: Nej (!). Hvis
man gør det (næsten) gratis at sætte gaps ind kan
man aligne alle sekvenser. Se
for eksempel følgende linie fra alignment'et - her er
aminosyrerne bare blevet spredt ud med rund hånd:
SUBS_BACLE
134
EQAVNSATSRGVLVVAASGNSGAGSISYPARYANAMAVGATDQNNNRASF 183
|| | |
: :
:|:.:
|
HBA_PIG 81
-----SA-----L----S-D-----L-----HAHKL----------R---
92
NB:
Hust at nulstille alignment parameterene inden du går videre
(tryk på "Reset" knappen).
Trin 3 - alignment matricer
Ang. alignment matricer:
EBI har en glimrende gennemgang af alignment matricer - se link'et
på deres align hjælpeside (direke link: http://www.ebi.ac.uk/help/matrix_frame.html).
Citat fra siden - med mine
fremhævelser:
"It is assumed that the sequences
being sought have an evolutionary ancestral
sequence in common with the
query sequence. The best guess at the actual path of evolution is the
path that requires the fewest evolutionary
events. All substitutions are not equally likely and should be weighted to account for
this. Insertions and deletions are less likely than substitutions and
should be weighted to account for this. It is necessary to consider
that the choice of search algorithm influences the sensitivity and
selectivity of the search. The choice of similarity matrix determines
both the pattern and the extent of substitutions in the sequences the
database search is most likely to discover."
Vi skal i det følgende afprøve nogle af de
forskellige alignment matricer. Bemærk at næsten alle
alignment algoritmer anvender BLOSUM62 som default til
protein-alignemnt. BLOSUM62 er et ganske udmærket kompromis, der
kan bruges til et bredt spektrum af sekvenser.
Tallet i BLOSUM matricerne fortæller om homologien af de
proteinsekvenser de er blevet estimeret ud fra. BLOSUM80 er
således afledt af sekvenser med 80% identitet, BLOSUM62 fra
sekvenser med 62% identitet osv.
PAM matricerne er konstrueret lidt anderledes and BLOSUM matricerne,
men det skal vi ikke gå yderligere ind i her (mere info på
den ovennævnte hjælpeside). Her skal vi blot bruge
følgende "konverteringstabel" mellem PAM og BLOSUM, da
webserveren ikke tilbyder nogen BLOSUM matricer højere end 62:
PAM100
==> Blosum90
PAM120 ==> Blosum80
PAM160 ==> Blosum60
PAM200 ==> Blosum52
PAM250 ==> Blosum45
- Lad os gå tilbage til de to prokaryote serin-protease
(Savinase + P41363). Vi
ved fra første del af øvelsen at de har stor similaritet,
så lad os her vælge "PAM100". Generer derefter et lokalt alignment. 2008 - NB: EBI har desværre fjernet mulighed
for at vælge andet end BLOSOM62/50/40 - så dette
spørgsmål kan ikke besvaret.
- Hvad er alignment score? Svar: 942.0
- Hvad er alignment længden? Svar: 269
- Hvad er identity score? Svar: 65.4%
- Hvad er similarity score? Svar: 81.0%
- Hvilke scores er forskellige fra dem vi fik før (med
BLOSUM62) og hvorfor er de forskellige?
Svar:
Det vigtige er her at de forskellige scores i selve matricen er en
anelse anderledes, bla. vil der være en mindre forskel i hvilke
aminosyre-par der betragtes som "similar" -> alignment score: lidt
højere; similarity: en smule højere. Bemærk at
længden samt identity er det samme.
Men der er altså ikke den helt store forskel på de to
alignments.
- Der var ikke de helt store forskelle at se med de to temmeligt
ens proteiner, så lad os istedet kigge på Savinase +
Prostasin igen. Vælg "BLOSUM40" som matrice, og generer igen et lokalt alignment.
- Hvad er alignment score? Svar: 236.5
- Hvad er alignment længden? Svar: 368
- Hvad er identity score? Svar: 24.5%
- Hvad er similarity score? Svar: 42.4%
- Hvilke scores er forskellige fra dem vi fik før (med
BLOSUM62) og hvorfor er de forskellige?
Svar:
Den største forskel er nu at alignment'et er blevet
længere samt at "similarity" er gået en del op. Dette
skyldes igen ændringer i matricen (henunder hvilke aminosyrer der
tæller som "similar").
Bemærk: Forskellen i alignments'ne er meget større end det
vi så når man ændrer matricen for allerede "godt"
alignment.