Øvelse: Parvis alignment


Øvelse skrevet af: Rasmus Wernersson

I denne øvelse skal vi arbejde med parvis alignment af protein-sekvenser. Som gennemgået i teksten til i dag, samt forelæsningen, fungerer parvist alignment vha. en algoritme kaldet dynamisk programmering (DP). Vi skal ikke her kigge nærmere på selve matematikken bag alignments, men blot huske på følgende:
Bemærk: Der findes utallige programmer der kan udføre parvist alignment (algoritmen er velbeskrevet og nem at implementere). Vi skal i denne øvelse bruge nogle programmer fra EMBOSS som er en samling af Open Source bioinformatik programmer, til hvilket der også findes et ganske udemærket web-interface hos EBI - European Bioinformatics Institute (England).

Trin 1 - basalt brug


  1. Åbn align-siden hos EBI: http://www.ebi.ac.uk/emboss/align/

  2. Bemærk at der et en side med udførlig hjælp til hvordan man bruger deres alignment service - klik på "Emboss align help" ude til venstre (direkte link: http://www.ebi.ac.uk/emboss/align/help.html).
  3. Lad os i første omgang prøve at aligne et par serin-proteaser (fra UniProt). Den første (P29600) er den termostabile protease som Novozymes sælger til vaskepulver under navnet "Savinase". Sekvens nummer to er en anden termostabil serin-protease fra en helt anden art af Bacillus.
>P29600|SUBS_BACLE Subtilisin Savinase - Bacillus lentus
AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGN
GHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQGLEWAGNNGMHVA
NLSLGSPSPSATLEQAVNSATSRGVLVVAASGNSGAGSISYPARYANAMAVGATDQNNNR
ASFSQYGAGLDIVAPGVNVQSTYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQI
RNHLKNTATSLGSTNLYGSGLVNAEAATR

>P41363|ELYA_BACHD Thermostable alkaline protease precursor - Bacillus halodurans
MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYDVDVIHEFEEI
PVIHAELTKKELKKLKKDPNVKAIEKNAEVTISQTVPWGISFINTQQAHNRGIFGNGARV
AVLDTGIASHPDLRIAGGASFISSEPSYHDNNGHGTHVAGTIAALNNSIGVLGVAPSADL
YAVKVLDRNGSGSLASVAQGIEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLV
GAAGNTGRQGVNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVNSTYTGNRY
VSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATYLGSPSLYGNGLVHAGRAT
Q

  1. Kopier en sekvens ind i hver sekvens-boks. Sørg for at der er valgt "protein" som sekvenstype, "BLOSOM62" som alignment matrice og "needle (global)" som metode. Tryk på "run" for at aligne sekvenserne.
  2. Prøv at aligne sekvenserne igen, men denne gang med "water (local)" algoritmen.
  3. Lad os undersøge hvorfor de to sekvenser er forskellige i starten: Slå begge op i UniProt (http://www.uniprot.org). Klik på extented view for at få alle informationer (alternativt kan man klikke på "flat file" og se det "rå" entry). NB: Er ikke nødvendigt længere - det nye interface virser automatisk denne information.

Trin 2 - om gaps og tvivlsomme alignments

  1. Vi skal nu prøve at sammenligne vores Savinase protease (P29600) med en serin protease fra mennesket. Den nedenstående sekvens er fundet gennem GenBank  entry'et "NM_002773" - husk at man for alle GenBank entries med en CDS også kan få fat i den oversatte protein-sekvens.
>gi|4506153|ref|NP_002764.1| prostasin preproprotein [Homo sapiens]
MAQKGVLGPGQLGAVAILLYLGLLRSGTGAEGAEAPCGVAPQARITGGSSAVAGQWPWQVSITYEGVHVC
GGSLVSEQWVLSAAHCFPSEHHKEAYEVKLGAHQLDSYSEDAKVSTLKDIIPHPSYLQEGSQGDIALLQL
SRPITFSRYIRPICLPAANASFPNGLHCTVTGWGHVAPSVSLLTPKPLQQLEVPLISRETCNCLYNIDAK
PEEPHFVQEDMVCAGYVEGGKDACQGDSGGPLSCPVEGLWYLTGIVSWGDACGARNRPGVYTLASSYASW
IQSKVTELQPRVVPQTQESQPDSNLCGSHLAFSSAPAQGLLRPILFLPLGLALGLLSPWLSEH

  1. Prøv at aligne Savinase med den overstående "Prostasin" sekvens - med globalt alignment algoritmen.
  2. Prøv derefter at aligne sekvenserne med local alignment algoritmen.
  3. Var der stor forskel mellem de to alignments denne gang?
  4. Vi skal nu finde ud af om vi overhovedet tror på alignmentet mellem Savinase og Prostasin. Lad os derfor aligne Savinase med et protein vi ved er noget helt andet - alpha globin. Nedenstående er UniProt entry'et for alpha globin fra Sus scrofa - grisen.
>P01965|HBA_PIG Hemoglobin subunit alpha - Sus scrofa
VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFNLSHGSDQVKAHGQ
KVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFNPS
VHASLDKFLANVSTVLTSKYR
  1.  Prøv først at aligne Savinase og alpha globin globalt.
  2. Prøv derefter at aligne Savinase og alpha globin lokalt.
  3. Set i lyset af Savinase+alpha globin alignments'ne, hvordan vil du så vurdere Savinase+Prostasin alignments'ne?
  4. Sæt Gaps'ne fri: Lad os som det sidste inden vi går videre, prøve at gøre det næsten "gratis" for algoritmen at indsætte gaps.
  5. Prøv at aligne Savinase + Alpha globin igen.

NB: Hust at nulstille alignment parameterene inden du går videre (tryk på "Reset" knappen).

Trin 3 - alignment matricer

Ang. alignment matricer:

EBI har en glimrende gennemgang af alignment matricer - se link'et på deres align hjælpeside (direke link: http://www.ebi.ac.uk/help/matrix_frame.html).

Citat fra siden - med mine fremhævelser:
"It is assumed that the sequences being sought have an evolutionary ancestral sequence in common with the query sequence. The best guess at the actual path of evolution is the path that requires the fewest evolutionary events. All substitutions are not equally likely and should be weighted to account for this. Insertions and deletions are less likely than substitutions and should be weighted to account for this. It is necessary to consider that the choice of search algorithm influences the sensitivity and selectivity of the search. The choice of similarity matrix determines both the pattern and the extent of substitutions in the sequences the database search is most likely to discover."

Vi skal i det følgende afprøve nogle af de forskellige alignment matricer. Bemærk at næsten alle alignment algoritmer anvender BLOSUM62 som default til protein-alignemnt. BLOSUM62 er et ganske udmærket kompromis, der kan bruges til et bredt spektrum af sekvenser.

Tallet i BLOSUM matricerne fortæller om homologien af de proteinsekvenser de er blevet estimeret ud fra. BLOSUM80 er således afledt af sekvenser med 80% identitet, BLOSUM62 fra sekvenser med 62% identitet osv.

PAM matricerne er konstrueret lidt anderledes and BLOSUM matricerne, men det skal vi ikke gå yderligere ind i her (mere info på den ovennævnte hjælpeside). Her skal vi blot bruge følgende "konverteringstabel" mellem PAM og BLOSUM, da webserveren ikke tilbyder nogen BLOSUM matricer højere end 62:

PAM100 ==> Blosum90
PAM120 ==> Blosum80
PAM160 ==> Blosum60
PAM200 ==> Blosum52
PAM250 ==> Blosum45
  1.  Lad os gå tilbage til de to prokaryote serin-protease (Savinase + P41363). Vi ved fra første del af øvelsen at de har stor similaritet, så lad os her vælge "PAM100". Generer derefter et lokalt alignment. 2008 - NB: EBI har desværre fjernet mulighed for at vælge andet end BLOSOM62/50/40 - så dette spørgsmål kan ikke besvaret.
  2. Der var ikke de helt store forskelle at se med de to temmeligt ens proteiner, så lad os istedet kigge på Savinase + Prostasin igen. Vælg "BLOSUM40" som matrice, og generer igen et lokalt alignment.