|
Øvelse: Multiple Alignments
Øvelse: Multiple Alignments
Af: Rasmus Wernersson
Aflevering: Vi skal idag
afprøve at afleveret en opgave via CampusNet. I skal derfor
skive en "log-bog" med jeres svar + de sekvenser I finder frem til.
Når I er færdige med øvelsen upload'er I den til
CampusNet under "Kursus 27611/Afleveringer".
I skal bruge en helt almindelig tekst-editor, og ikke bruge en masse
kræfter på fancy formatering. Det vigtige er at adskille de
enkelt svar, så det er let at læse. Et eksempel kunne
være:
Svar
på Multiple Alignment øvelse
---------------------------------
Af: Rasmus Wernersson (v18013)
Spørgsmål 1
------------
Fasta fil:
>goat_alpha_globin_II
ATGGTGCTGTCTGCCGCCGACAAGTCCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCAGCAACGCTGGAG
CTTATGGCGCAGAGGCTCTGGAGAGGATGTTCCTGAGCTTCCCCACCACCAAGACCTACTTCCCCCACTT
CGACCTGAGCCACGGCTCGGCCCAGGTCAAGGGCCACGGCGAGAAGGTGGCCGCCGCGCTGACCAAAGCG
GTGGGCCACCTGGACGACCTGCCCGGTACTCTGTCTGATCTGAGTGACCTGCACGCCCACAAGCTGCGTG
TGGACCCGGTCAACTTTAAGCTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTGCCACCACCCCAGTGA
TTTCACCCCCGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAACGTGAGCACCGTGCTGACCTCCAAA
TACCGTTAA
>xxx_yyy_qqq
ATAGATAGT ....
Spørgsmål 2
------------
2a): xxxx yyyy zzzz
2b): ddd jjj uuu
NB: Afleveringen her ikke
nogen inflydelse på jeres karakter - det er rent øvelse i
brug af det system vi også skal bruge til eksamen.
Del 1 - brug af ClustalW / ClustalX
En af de allermest brugte alignment programmer er "Clustal" pakken,
som er af den globalt optimerende type. Den findes i to varianter:
ClustalW (til kommandlinie brug) og ClustalX (som har et grafisk
interface). Typisk vil man bruge ClustalX til interaktivt brug, og
ClustalW, hvis man skal kunne automatisere brugen af det - det er
præcis den samme algoritme der bliver brugt, og resultatet er det
samme.
ClustalW/X er gratis at bruge og findes til stor set alle
computersystemer - herunder også Windows og Mac. I denne
øvelse vil vi dog bruge en online version som ligger hos EBI:
http://www.ebi.ac.uk/clustalw/
- Til første del af øvelsen, skal vi kigge på
et sæt af alpha-globin
gener fra en række forskellige dyr. Den første opgave er
at konstruere et brugbart datasæt. Nedenstående er en liste
af GenBank IDs der indeholder de sekvenser vi skal bruge (nogle
af dem indeholder flere gener).
GenBank: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
AB001981
X01831
J00923
J00043
J00044
X01086
X07053
AF098919
- Åbn en tekst-editor (fx. Notepad under Windows, NEdit
under UNIX, eller TextEdit på Mac'en) - efterhånden
som vi finder de sekvenser vi skal bruge, skal vi gemme dem i en samlet
FASTA fil med nogle fornuftige navne. For eksempel:
>goat_alpha_globin_II
ATGGTGCTGTCTGCCGCCGACAAGTCCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCAGCAACGCTGGAG
CTTATGGCGCAGAGGCTCTGGAGAGGATGTTCCTGAGCTTCCCCACCACCAAGACCTACTTCCCCCACTT
CGACCTGAGCCACGGCTCGGCCCAGGTCAAGGGCCACGGCGAGAAGGTGGCCGCCGCGCTGACCAAAGCG
GTGGGCCACCTGGACGACCTGCCCGGTACTCTGTCTGATCTGAGTGACCTGCACGCCCACAAGCTGCGTG
TGGACCCGGTCAACTTTAAGCTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTGCCACCACCCCAGTGA
TTTCACCCCCGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAACGTGAGCACCGTGCTGACCTCCAAA
TACCGTTAA
- For hvert GenBank entry find de gener (CDS'er) der koder for
alpha-globin. Vi skal bruge DNA sekvensen for selve CDS'erne - husk at
man kan klikke på "CDS" for kun at vise selve CDS'en - man kan
derefter skifte til at se sekvensen i FASTA format.
- Kopiér DNA sekvenserne ind i jeres tekst-editor
efterhånden som I finder dem. Giv dem et sigende navn, der
fortæller hvilken organisme de kommer fra, og hvilken type af
alpha-globin der er tale om. Huske at
gemme ofte (!).
- Gå til EBIs web-server med ClustalW (se ovenstående
link). Kopiér sekvenserne ind (eller upload hele filen) og start
programmet med default indstillinger (det finder selv ud af om det er
DNA- eller protein-sekvenser). Bemærk følgende i outputtet:
- Øverst er der en boks ("Results
of search") der giver et overblik over kørslen. Som
udgangspunkt giver ClustalW et rent-teksbaseret output, og alt hvad der
er af grafik og tabeller på siden, er lagt på af EBI's
webserver. Det "rå" alignment kan ses, hvis man klikker på "Alignment file" link'et.
- Sektionen "Scores Table"
giver en oversigt over de parvise alingment der er blevet brugt til at
konstruere et guide-tree (et groft estimat af hvordan sekvenserne er
beslægtet - brugt til vægtning af sekvenserne i alignment
processen).
- Sektionen "Alignment"
viser der faktiske alignment.
Hvad vil I gætte på, stjernerne ("*") under alignment'et betyder?
Hvor mange områder med perfekt bevaret sekvens (lad os sige
på mindst 12 baser) kan I finde?
- I sektionen "Guide Tree" vises en grafisk repræsentation
af sekvernes indbyders afstand (bemærk:
det er ikke et "rigtigt" fylogentisk træ - det er som nævnt
et estimat baseret på de parvise
alignments). Prøv at skifte mellem de to grafiske former:
Cladogram
(rækkefølgen af grenene er vigtig - længderne af
grenene er uden betydning) og phylogram
(længderne af grenene er baseret på afstanden).
- Hvor mange grupper (clusters) samler sekvenserne sig I (ses
nemmest med et phylogram)?
- Ligger sekvenserne "naturligt" placeret? Eller blander
arterne sig på kryds og tværs?
- Ser det ud til at alpha-A og alpha-D ligger tæt eller
fjernt sekvensmæssigt?
- Hvad med alpha-1 og alpha-2?
- Det kan være svært at få det store overblik
over DNA sekvenser ved at kigge på den rå tekst. EBI
tilbyder en grafisk viewer (der minder en del om ClustalX interfacet),
der farver sekvenserne og fremhæver steder hvor sekvensen er
konserveret.
- Start "JalView" programmet.
- Gå på opdagelse langs alignmentet - bemærk
farvningen af nucleotiderne og "consensus" linien for neden.
- Træk nu sekvenserne op på protein-niveau og konstruer
et nyt alignment.
Link: http://www.cbs.dtu.dk/services/VirtualRibosome/.
- Undersøg igen "Guide
tree" sektionen - får I samme resultater som sidst?
- Kig på alignment'et
- Hvor mange perfekt bevarede områder kan I finde nu (lad
os sige på mindst 5 aminosyrer).
- Brug igen "JalView" til at kigge på alignmentet.
- Bemærk at farvningen nu grupperer amino-syrerne ind i
grupper der er beslægtet kemisk.
- Bemærk at der nu også beregnes en "conservation"
og "quality" score for hver position.
- Nyt datasæt: Insulin. Nedenstående
FASTA fil indeholder genet for insulin for en række forskelling
organismer.
>U00659.CDS.1_UTR+spliced
ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
GAGAACTACTGTAACTAG
>AY044828.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242098.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242100.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242101.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242109.CDS.1_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTAGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>V00179.CDS.1_UTR+spliced
ATGGCCCTCTGGATGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCG
CCCACCCGAGCCTTCGTTAACCAGCACCTGTGTGGCTCCCACCTGGTAGAGGCTCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCTAAGGCCCGCAGGGAGGTGGAGGAC
CTGCAGGTGAGGGACGTGGAGCTGGCCGGGGCGCCTGGCGAGGGCGGCCTGCAGCCCCTG
GCCCTGGAGGGGGCCCTGCAGAAGCGAGGCATCGTGGAGCAGTGCTGCACCAGCATCTGC
TCCCTCTACCAGCTGGAGAATTACTGCAACTAG
>J02989.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCACCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCCGAG
CCAGCCCCGGCCTTTGTGAACCAGCACCTGTGCGGCCCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGTTTCTTCTACGCACCCAAGACCCGCCGGGAGGCGGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGTGGGGGCTCTATCACGGGCAGCCTGCCACCCTTG
GAGGGTCCCATGCAGAAGCGTGGCGTCGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGCAGAACTACTGCAACTAG
>AY138590.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>X61092.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCGGTCCCGGCCTTTGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGCTTCTTCTACACGCCCAAGACCCGCCGGGAGGCAGAGGAC
CCGCAGGTGGGGCAGGTAGAGCTGGGCGGGGGCCCTGGCGCAGGCAGCCTGCAGCCCTTG
GCGCTGGAGGGGTCCCTGCAGAAGCGCGGCATCGTGGAGCAGTGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>J00265.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>X61089.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGTGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCTCGGCCTTTGTGAACCAACACCTGTGCGGCTCCCACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGTATCGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>K02233.CDS.1_UTR+spliced
ATGGCTCTGTGGATGCATCTCCTCACCGTGCTGGCCCTGCTGGCCCTCTGGGGGCCCAAC
ACTAATCAGGCCTTTGTCAGCCGGCATCTGTGCGGCTCCAACTTAGTGGAGACATTGTAT
TCAGTGTGTCAGGATGATGGCTTCTTCTATATACCCAAGGACCGTCGGGAGCTAGAGGAC
CCACAGGTGGAGCAGACAGAACTGGGCATGGGCCTGGGGGCAGGTGGACTACAGCCCTTG
GCACTGGAGATGGCACTACAGAAGCGTGGCATTGTGGATCAGTGCTGTACTGGCACCTGC
ACACGCCACCAGCTGCAGAGCTACTGCAACTAG
>X04725.CDS.1_UTR+spliced
ATGGCCCTGTTGGTGCACTTCCTACCCCTGCTGGCCCTGCTTGCCCTCTGGGAGCCCAAA
CCCACCCAGGCTTTTGTCAAACAGCATCTTTGTGGTCCCCACCTGGTAGAGGCTCTCTAC
CTGGTGTGTGGGGAGCGTGGCTTCTTCTACACACCCAAGTCCCGCCGTGAAGTGGAGGAC
CCACAAGTGGAACAACTGGAGCTGGGAGGAAGCCCCGGGGACCTTCAGACCTTGGCGTTG
GAGGTGGCCCGGCAGAAGCGTGGCATTGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGGAGAACTACTGCAACTAA
>AY438372.CDS.1_UTR+spliced
ATGGCTCTCTGGATCCGATCACTGCCTCTTCTGGCTCTCCTTGTCTTTTCTGGCCCTGGA
ACCAGCTATGCAGCTGCCAACCAGCACCTCTGTGGCTCCCACTTGGTGGAGGCTCTCTAC
CTGGTGTGTGGAGAGCGTGGCTTCTTCTACTCCCCCAAAGCCCGACGGGATGTCGAGCAG
CCCCTAGTGAGCAGTCCCTTGCGTGGCGAGGCAGGAGTGCTGCCTTTCCAGCAGGAGGAA
TACGAGAAAGTCAAGCGAGGGATTGTTGAGCAATGCTGCCATAACACGTGTTCCCTCTAC
CAACTGGAGAACTACTGCAACTAG
- Fasta filen er genereret rent automatisk, og er ikke så
informativ mht. navne.
Første opgave er at find ud af hvilke organismer de kommer fra,
ved at
slå dem op i GenBank. Konstruer herfra en ny FASTA fil med navne,
der
fortæller hvor genet kommer fra, og samtidig bibeholder GenBank
ID'et. For eksempel kan det første entry (U00659) rettes til:
>Sheep_U00659
ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
GAGAACTACTGTAACTAG
- Bemærk: Som
I sikkert hurtigt lægger mærke til, indeholder filen
redundante sekvenser (næsten ens versioner af samme sekvens fra
samme organisme). Lad bare alle entries forblive i filen - et multiple
alignment er faktisk et godt tjek af hvor tæt sekvenser ligger
på hinanden, og er derfor en god rettesnor for at se om visse
sekvenser senere kan smides ud med god samvittighed.
- Generer et multiple alignment på DNA niveau.
- Kig alignmentet igennem (rå tekst + JalView) - er der sat
gaps ind som ikke er et multiplum af tre (og derfor ikke svarer til et
helt codon)?
- Hvilken sekvens ser ud til at være mest forskellig fra de
andre med det blotte øje (ses nemmest med farverne i JalView)?
Giver dette mening taxonomisk set? (hint: er alle sekvenserne fra
pattedyr?).
- Bemærk forskellen imellem cladogram og phylogram nu hvor vi har reduntane
sekvenser med. Ud fra phylogrammet, hvilke sekvenser kan vi luge ud af
vores datasæt (kun dem der er 100% ens - hvilket giver en
grenlængde på 0 mellem dem)?
- Hold vinduet med DNA alignment
åbent - vi skal bruge det igen om lidt.
- Generer et multiple alignment på Peptid niveau.
- Kig som før alignmentet igennem. Bemærk igen gaps
- denne gang er de (nartuligvis) i form af hele underliggende codons.
Prøv at sammenligne de steder, hvor der blev sat meget korte
gaps ind i DNA alignment'et med protein-alignmentet -> når
viden om brug af codon ignoreres, bliver der nogen gange indført
nogle uheldige optimering på DNA-niveau.
- Undersøg igen guide-tree'et som phylogram: Hvilke
sekvenser kan vi nu smide ud? Er der flere end før?
Del 2 - RevTrans
- Vi skal som det sidste i denne øvelse kigge på
hvordan man kan kombinere viden om DNA og proteiner i et multiple
alignemnt (se RevTrans artiklen - pensum til idag). Vi vil også
samtidig prøve at bruge et lokal
optimerende alignment-program: Dialign2 / DialignT.
Hvis I ikke har fået kigget
på RevTrans artiklen endnu - så skim den hurtigt igennem
(den er let læst). Den forklarer hele konceptet med at
trække DNA sekvenserne op på peptid-niveau, for derefter at
konstruere et DNA alignment ud fra et peptid alignment.
Bemærk at Dialign prøver at fortælle hvilke
positioner den betragter som align'et (UPPERCASE) og hvilke den har
måttet opgive at aligne og bare har "parkeret" et sted (lowercase). Clustal må også
sommetider opgive at finde det perfekte sted til visse sekvenser - den
fortæller bare ikke noget om det (!).
Som datasæt skal vi bruge insulin-sættet fra før -
her renset for redundans og med kortere navne:
>Sheep
ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
GAGAACTACTGTAACTAG
>Pig
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>Dog
ATGGCCCTCTGGATGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCG
CCCACCCGAGCCTTCGTTAACCAGCACCTGTGTGGCTCCCACCTGGTAGAGGCTCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCTAAGGCCCGCAGGGAGGTGGAGGAC
CTGCAGGTGAGGGACGTGGAGCTGGCCGGGGCGCCTGGCGAGGGCGGCCTGCAGCCCCTG
GCCCTGGAGGGGGCCCTGCAGAAGCGAGGCATCGTGGAGCAGTGCTGCACCAGCATCTGC
TCCCTCTACCAGCTGGAGAATTACTGCAACTAG
>OwlMonkey
ATGGCCCTGTGGATGCACCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCCGAG
CCAGCCCCGGCCTTTGTGAACCAGCACCTGTGCGGCCCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGTTTCTTCTACGCACCCAAGACCCGCCGGGAGGCGGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGTGGGGGCTCTATCACGGGCAGCCTGCCACCCTTG
GAGGGTCCCATGCAGAAGCGTGGCGTCGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGCAGAACTACTGCAACTAG
>Human
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>GreenMonkey
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCGGTCCCGGCCTTTGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGCTTCTTCTACACGCCCAAGACCCGCCGGGAGGCAGAGGAC
CCGCAGGTGGGGCAGGTAGAGCTGGGCGGGGGCCCTGGCGCAGGCAGCCTGCAGCCCTTG
GCGCTGGAGGGGTCCCTGCAGAAGCGCGGCATCGTGGAGCAGTGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>Chimp
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGTGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCTCGGCCTTTGTGAACCAACACCTGTGCGGCTCCCACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGTATCGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>GuineaPig
ATGGCTCTGTGGATGCATCTCCTCACCGTGCTGGCCCTGCTGGCCCTCTGGGGGCCCAAC
ACTAATCAGGCCTTTGTCAGCCGGCATCTGTGCGGCTCCAACTTAGTGGAGACATTGTAT
TCAGTGTGTCAGGATGATGGCTTCTTCTATATACCCAAGGACCGTCGGGAGCTAGAGGAC
CCACAGGTGGAGCAGACAGAACTGGGCATGGGCCTGGGGGCAGGTGGACTACAGCCCTTG
GCACTGGAGATGGCACTACAGAAGCGTGGCATTGTGGATCAGTGCTGTACTGGCACCTGC
ACACGCCACCAGCTGCAGAGCTACTGCAACTAG
>Mouse
ATGGCCCTGTTGGTGCACTTCCTACCCCTGCTGGCCCTGCTTGCCCTCTGGGAGCCCAAA
CCCACCCAGGCTTTTGTCAAACAGCATCTTTGTGGTCCCCACCTGGTAGAGGCTCTCTAC
CTGGTGTGTGGGGAGCGTGGCTTCTTCTACACACCCAAGTCCCGCCGTGAAGTGGAGGAC
CCACAAGTGGAACAACTGGAGCTGGGAGGAAGCCCCGGGGACCTTCAGACCTTGGCGTTG
GAGGTGGCCCGGCAGAAGCGTGGCATTGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGGAGAACTACTGCAACTAA
>Chicken
ATGGCTCTCTGGATCCGATCACTGCCTCTTCTGGCTCTCCTTGTCTTTTCTGGCCCTGGA
ACCAGCTATGCAGCTGCCAACCAGCACCTCTGTGGCTCCCACTTGGTGGAGGCTCTCTAC
CTGGTGTGTGGAGAGCGTGGCTTCTTCTACTCCCCCAAAGCCCGACGGGATGTCGAGCAG
CCCCTAGTGAGCAGTCCCTTGCGTGGCGAGGCAGGAGTGCTGCCTTTCCAGCAGGAGGAA
TACGAGAAAGTCAAGCGAGGGATTGTTGAGCAATGCTGCCATAACACGTGTTCCCTCTAC
CAACTGGAGAACTACTGCAACTAG
- Gå til RevTrans serveren: http://www.cbs.dtu.dk/services/RevTrans/
Bemærk muligheden for at vælge mellem alternative
translationsmatricer. Det er ikke noget tilfælde at det til
forveksling ligner VirtualRibosome - begge servere bruge samme
bagvedliggende programstump til at oversætte fra DNA til protein.
- Submit sekvenserne med default settings.
- Kig på alignmentet:
- Hvordan er det nu med længden af gaps - går de op
i tre?
- Vil codons altid være align'et? (altså at 1.
positioner står over andre 1. positioner osv.).
- Er der nogen steder Dialign har indikeret at kvaliteten af
alignment'et ikke er i top?
- Bemærk: RevTrans
serveren tilbyder (endnu) ikke det store i analysen af alignment'et -
men det kan bruges som input til en videre phylogentisk analyse, og fx.
statitisk analyse af mutationer der ikke betyder en ændring i
aminosyre ("silent mutations") versus mutationer der fører til
ændringer ("non-silent mutation").
|