|
Introduktion til sekvensalignment
Formålet med at lave et alignment er, groft sagt, at finde ud af hvilke
nukleotider eller aminosyrer der svarer til hinanden i to forskellige
sekvenser. (I dette projekt beskæftiger vi os kun med parvis alignment
- metoder til at aligne flere end to sekvenser bliver diskuteret i
projektet "Rekonstruktion
af fylogenetiske træer"). For at finde de dele, der svarer bedst
til hinanden, må man forskyde sekvenserne i forhold til hinanden og
eventuelt lave huller (gaps) i den ene eller begge sekvenser.
Det følgende er et eksempel på et alignment mellem to proteinsekvenser,
hvor der er indsat et gap i den nederste sekvens:
CPVQLWVNSTPPPGTRVRAMAIYKKLQYMT
||||||||||||| ||||||||||||||
CPVQLWVNSTPPP---VRAMAIYKKLQYMT
Et alignment kan betragtes som en hypotese om at de to sekvenser er
beslægtede med hinanden - der er derfor en nær sammenhæng mellem
alignment og evolutionsteori. På de positioner i alignmentet, hvor de
to sekvenser er ens, er nukleotiderne eller aminosyrerne bevarede
(konserverede) i evolutionen. På de andre positioner antager vi, at der
er sket en mutation: hvis der er forskellige nukleotider eller
aminosyrer, er der tale om en substitution; hvis der er et gap,
har der været en deletion i den ene sekvens eller en insertion
i den anden.
Det skal dog understreges, at de algoritmer, der bliver beskrevet her,
altid producerer et alignment, hvad enten sekvenserne er beslægtede
eller ej. Det er derfor nødvendigt at beskrive styrken af et alignment
ved hjælp af et pointsystem - den såkaldte alignmentscore. Et
par nært beslægtede sekvenser vil typisk give en meget højere
score end
et par ubeslægtede sekvenser. Det kan derimod godt være vanskeligt at
skelne mellem fjernt beslægtede og ubeslægtede sekvenser - til det
formål bruger man nogle statistiske signifikansberegninger, som vi ikke
vil komme nærmere ind på i dette projekt.
På de følgende sider vil vi gennemgå hvordan man konstruerer og scorer et alignment.
Men først skal vi lige have nogle begreber på plads.
Sekvens alignment definitioner
Copyright © 2007
Henrik Nielsen,
Center for Biologisk Sekvensanalyse
|