Events News Research CBS CBS Publications Bioinformatics
Staff Contact About Internal CBS CBS Other

Øvelse: Multiple Alignments


Af: Rasmus Wernersson


Aflevering: Vi skal idag afprøve at afleveret en opgave via CampusNet. I skal derfor skive en "log-bog" med jeres svar + de sekvenser I finder frem til. Når I er færdige med øvelsen upload'er I den til CampusNet under "Kursus 27611/Afleveringer".

I skal bruge en helt almindelig tekst-editor (fx. JEdit som vi tidligere har anvendt - ligger på CampusNet), og ikke bruge en masse kræfter på fancy formatering. Det vigtige er at adskille de enkelt svar, så det er let at læse. Et eksempel kunne være:

Svar på Multiple Alignment øvelse
---------------------------------
Af: Rasmus Wernersson (v18013)

Spørgsmål 1
------------
Fasta fil:

>goat_alpha_globin_II
ATGGTGCTGTCTGCCGCCGACAAGTCCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCAGCAACGCTGGAG
CTTATGGCGCAGAGGCTCTGGAGAGGATGTTCCTGAGCTTCCCCACCACCAAGACCTACTTCCCCCACTT
CGACCTGAGCCACGGCTCGGCCCAGGTCAAGGGCCACGGCGAGAAGGTGGCCGCCGCGCTGACCAAAGCG
GTGGGCCACCTGGACGACCTGCCCGGTACTCTGTCTGATCTGAGTGACCTGCACGCCCACAAGCTGCGTG
TGGACCCGGTCAACTTTAAGCTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTGCCACCACCCCAGTGA
TTTCACCCCCGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAACGTGAGCACCGTGCTGACCTCCAAA
TACCGTTAA
>xxx_yyy_qqq
ATAGATAGT ....


Spørgsmål 2
------------
2a): xxxx yyyy zzzz
2b): ddd jjj uuu

NB: Afleveringen her ikke nogen inflydelse på jeres karakter - det er rent øvelse i brug af det system vi også skal bruge til eksamen.


Del 1 - brug af ClustalW / ClustalX

En af de allermest brugte alignment programmer er "Clustal" pakken, som er af den globalt optimerende type. Den findes i to varianter: ClustalW (til kommandlinie brug) og ClustalX (som har et grafisk interface). Typisk vil man bruge ClustalX til interaktivt brug, og ClustalW, hvis man skal kunne automatisere brugen af det - det er præcis den samme algoritme der bliver brugt, og resultatet er det samme.

ClustalW/X er gratis at bruge og findes til stor set alle computersystemer - herunder også Windows og Mac. I denne øvelse vil vi dog bruge en online version som ligger hos EBI:

http://www.ebi.ac.uk/clustalw/

  1. Til første del af øvelsen, skal vi kigge på et sæt af alpha-globin gener fra en række forskellige dyr. Den første opgave er at konstruere et brugbart datasæt. Nedenstående er en liste af GenBank IDs  der indeholder de sekvenser vi skal bruge (nogle af dem indeholder flere gener).

    GenBank: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide

    AB001981
    X01831
    J00923
    J00043
    J00044
    X01086
    X07053
    AF098919


    • Åbn en tekst-editor (fx. JEdit) - efterhånden som vi finder de sekvenser vi skal bruge, skal vi gemme dem i en samlet FASTA fil med nogle fornuftige navne. For eksempel:

      >goat_alpha_globin_II
      ATGGTGCTGTCTGCCGCCGACAAGTCCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCAGCAACGCTGGAG
      CTTATGGCGCAGAGGCTCTGGAGAGGATGTTCCTGAGCTTCCCCACCACCAAGACCTACTTCCCCCACTT
      CGACCTGAGCCACGGCTCGGCCCAGGTCAAGGGCCACGGCGAGAAGGTGGCCGCCGCGCTGACCAAAGCG
      GTGGGCCACCTGGACGACCTGCCCGGTACTCTGTCTGATCTGAGTGACCTGCACGCCCACAAGCTGCGTG
      TGGACCCGGTCAACTTTAAGCTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTGCCACCACCCCAGTGA
      TTTCACCCCCGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAACGTGAGCACCGTGCTGACCTCCAAA
      TACCGTTAA

    • For hvert GenBank entry find de gener (CDS'er) der koder for alpha-globin. Vi skal bruge DNA sekvensen for selve CDS'erne - husk at man kan klikke på "CDS" for kun at vise selve CDS'en - man kan derefter skifte til at se sekvensen i FASTA format.

    • Kopiér DNA sekvenserne ind i jeres tekst-editor efterhånden som I finder dem. Giv dem et sigende navn, der fortæller hvilken organisme de kommer fra, og hvilken type af alpha-globin der er tale om. Huske at gemme ofte (!).

  2. Gå til EBIs web-server med ClustalW (se ovenstående link). Kopiér sekvenserne ind (eller upload hele filen) og start programmet med default indstillinger (det finder selv ud af om det er DNA- eller protein-sekvenser). Bemærk følgende i outputtet:

    • Øverst er der en boks ("Results of search") der giver et overblik over kørslen. Som udgangspunkt giver ClustalW et rent-teksbaseret output, og alt hvad der er af grafik og tabeller på siden, er lagt på af EBI's webserver. Det "rå" alignment kan ses, hvis man klikker på "Alignment file" link'et.

    • Sektionen "Scores Table" giver en oversigt over de parvise alingment der er blevet brugt til at konstruere et guide-tree (et groft estimat af hvordan sekvenserne er beslægtet - brugt til vægtning af sekvenserne i alignment processen).

    • Sektionen "Alignment" viser der faktiske alignment.
      Hvad vil I gætte på, stjernerne ("*") under alignment'et betyder?
      Hvor mange områder med perfekt bevaret sekvens (lad os sige på mindst 12 baser) kan I finde?

    • I sektionen "Guide Tree" vises en grafisk repræsentation af sekvernes indbyders afstand (bemærk: det er ikke et "rigtigt" fylogentisk træ - det er som nævnt et estimat baseret på de parvise alignments). Prøv at skifte mellem de to grafiske former: Cladogram (rækkefølgen af grenene er vigtig - længderne af grenene er uden betydning) og phylogram (længderne af grenene er baseret på afstanden).
      1. Hvor mange grupper (clusters) samler sekvenserne sig I (ses nemmest med et phylogram)?
      2. Ligger sekvenserne "naturligt" placeret? Eller blander arterne sig på kryds og tværs?
      3. Ser det ud til at alpha-A og alpha-D ligger tæt eller fjernt sekvensmæssigt?
      4. Hvad med alpha-1 og alpha-2?

    • Det kan være svært at få det store overblik over DNA sekvenser ved at kigge på den rå tekst. EBI tilbyder en grafisk viewer (der minder en del om ClustalX interfacet), der farver sekvenserne og fremhæver steder hvor sekvensen er konserveret.
      • Start "JalView" programmet.
      • Gå på opdagelse langs alignmentet - bemærk farvningen af nucleotiderne og "consensus" linien for neden.

  3. Træk nu sekvenserne op på protein-niveau og konstruer et nyt alignment.
    Link: http://www.cbs.dtu.dk/services/VirtualRibosome/.

    • Undersøg igen "Guide tree" sektionen - får I samme resultater som sidst?
    • Kig på alignment'et
      • Hvor mange perfekt bevarede områder kan I finde nu (lad os sige på mindst 5 aminosyrer).
    • Brug igen "JalView" til at kigge på alignmentet.
      • Bemærk at farvningen nu grupperer amino-syrerne ind i grupper der er beslægtet kemisk.
      • Bemærk at der nu også beregnes en "conservation" og "quality" score for hver position.

  4. Nyt datasæt: Insulin. Nedenstående FASTA fil indeholder genet for insulin for en række forskelling organismer.

    >U00659.CDS.1_UTR+spliced
    ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
    CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
    CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
    CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
    GAGAACTACTGTAACTAG
    >AY044828.CDS.2_UTR+spliced
    ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
    CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
    CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
    GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAG
    >AY242098.CDS.2_UTR+spliced
    ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
    CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
    CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
    GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAG
    >AY242100.CDS.2_UTR+spliced
    ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
    CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
    CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
    GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAG
    >AY242101.CDS.2_UTR+spliced
    ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
    CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
    CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
    GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAG
    >AY242109.CDS.1_UTR+spliced
    ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
    CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
    CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
    GAGGGGCCCCCGCAGAAGCGTGGCATCGTAGAGCAGTGCTGCACCAGCATCTGTTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAG
    >V00179.CDS.1_UTR+spliced
    ATGGCCCTCTGGATGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCG
    CCCACCCGAGCCTTCGTTAACCAGCACCTGTGTGGCTCCCACCTGGTAGAGGCTCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCTAAGGCCCGCAGGGAGGTGGAGGAC
    CTGCAGGTGAGGGACGTGGAGCTGGCCGGGGCGCCTGGCGAGGGCGGCCTGCAGCCCCTG
    GCCCTGGAGGGGGCCCTGCAGAAGCGAGGCATCGTGGAGCAGTGCTGCACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAATTACTGCAACTAG
    >J02989.CDS.1_UTR+spliced
    ATGGCCCTGTGGATGCACCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCCGAG
    CCAGCCCCGGCCTTTGTGAACCAGCACCTGTGCGGCCCCCACCTGGTGGAAGCCCTCTAC
    CTGGTGTGCGGGGAGCGAGGTTTCTTCTACGCACCCAAGACCCGCCGGGAGGCGGAGGAC
    CTGCAGGTGGGGCAGGTGGAGCTGGGTGGGGGCTCTATCACGGGCAGCCTGCCACCCTTG
    GAGGGTCCCATGCAGAAGCGTGGCGTCGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
    TACCAGCTGCAGAACTACTGCAACTAG
    >AY138590.CDS.1_UTR+spliced
    ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
    CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
    CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
    CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
    GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
    >X61092.CDS.1_UTR+spliced
    ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
    CCGGTCCCGGCCTTTGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAAGCCCTCTAC
    CTGGTGTGCGGGGAGCGAGGCTTCTTCTACACGCCCAAGACCCGCCGGGAGGCAGAGGAC
    CCGCAGGTGGGGCAGGTAGAGCTGGGCGGGGGCCCTGGCGCAGGCAGCCTGCAGCCCTTG
    GCGCTGGAGGGGTCCCTGCAGAAGCGCGGCATCGTGGAGCAGTGCTGTACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
    >J00265.CDS.1_UTR+spliced
    ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
    CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
    CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
    CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
    GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
    >X61089.CDS.1_UTR+spliced
    ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGTGCTGCTGGCCCTCTGGGGACCTGAC
    CCAGCCTCGGCCTTTGTGAACCAACACCTGTGCGGCTCCCACCTGGTGGAAGCTCTCTAC
    CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
    CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
    GCCCTGGAGGGGTCCCTGCAGAAGCGTGGTATCGTGGAACAATGCTGTACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
    >K02233.CDS.1_UTR+spliced
    ATGGCTCTGTGGATGCATCTCCTCACCGTGCTGGCCCTGCTGGCCCTCTGGGGGCCCAAC
    ACTAATCAGGCCTTTGTCAGCCGGCATCTGTGCGGCTCCAACTTAGTGGAGACATTGTAT
    TCAGTGTGTCAGGATGATGGCTTCTTCTATATACCCAAGGACCGTCGGGAGCTAGAGGAC
    CCACAGGTGGAGCAGACAGAACTGGGCATGGGCCTGGGGGCAGGTGGACTACAGCCCTTG
    GCACTGGAGATGGCACTACAGAAGCGTGGCATTGTGGATCAGTGCTGTACTGGCACCTGC
    ACACGCCACCAGCTGCAGAGCTACTGCAACTAG
    >X04725.CDS.1_UTR+spliced
    ATGGCCCTGTTGGTGCACTTCCTACCCCTGCTGGCCCTGCTTGCCCTCTGGGAGCCCAAA
    CCCACCCAGGCTTTTGTCAAACAGCATCTTTGTGGTCCCCACCTGGTAGAGGCTCTCTAC
    CTGGTGTGTGGGGAGCGTGGCTTCTTCTACACACCCAAGTCCCGCCGTGAAGTGGAGGAC
    CCACAAGTGGAACAACTGGAGCTGGGAGGAAGCCCCGGGGACCTTCAGACCTTGGCGTTG
    GAGGTGGCCCGGCAGAAGCGTGGCATTGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAA
    >AY438372.CDS.1_UTR+spliced
    ATGGCTCTCTGGATCCGATCACTGCCTCTTCTGGCTCTCCTTGTCTTTTCTGGCCCTGGA
    ACCAGCTATGCAGCTGCCAACCAGCACCTCTGTGGCTCCCACTTGGTGGAGGCTCTCTAC
    CTGGTGTGTGGAGAGCGTGGCTTCTTCTACTCCCCCAAAGCCCGACGGGATGTCGAGCAG
    CCCCTAGTGAGCAGTCCCTTGCGTGGCGAGGCAGGAGTGCTGCCTTTCCAGCAGGAGGAA
    TACGAGAAAGTCAAGCGAGGGATTGTTGAGCAATGCTGCCATAACACGTGTTCCCTCTAC
    CAACTGGAGAACTACTGCAACTAG

    • Fasta filen er genereret rent automatisk, og er ikke så informativ mht. navne. Første opgave er at find ud af hvilke organismer de kommer fra, ved at slå dem op i GenBank. Konstruer herfra en ny FASTA fil med navne, der fortæller hvor genet kommer fra, og samtidig bibeholder GenBank ID'et. For eksempel kan det første entry  (U00659) rettes til:

      >Sheep_U00659
      ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
      CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
      CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
      CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
      CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
      GAGAACTACTGTAACTAG

    • Bemærk: Som I sikkert hurtigt lægger mærke til, indeholder filen redundante sekvenser (næsten ens versioner af samme sekvens fra samme organisme). Lad bare alle entries forblive i filen - et multiple alignment er faktisk et godt tjek af hvor tæt sekvenser ligger på hinanden, og er derfor en god rettesnor for at se om visse sekvenser senere kan smides ud med god samvittighed.

  5. Generer et multiple alignment på DNA niveau.
    • Kig alignmentet igennem (rå tekst + JalView) - er der sat gaps ind som ikke er et multiplum af tre (og derfor ikke svarer til et helt codon)?

    • Hvilken sekvens ser ud til at være mest forskellig fra de andre med det blotte øje (ses nemmest med farverne i JalView)? Giver dette mening taxonomisk set? (hint: er alle sekvenserne fra pattedyr?).

    • Bemærk forskellen imellem cladogram og phylogram nu hvor vi har reduntane sekvenser med. Ud fra phylogrammet, hvilke sekvenser kan vi luge ud af vores datasæt (kun dem der er 100% ens - hvilket giver en grenlængde på 0 mellem dem)?

    • Hold vinduet med DNA alignment åbent - vi skal bruge det igen om lidt.

  6. Generer et multiple alignment på Peptid niveau.
    • Kig som før alignmentet igennem. Bemærk igen gaps - denne gang er de (naturligvis) i form af hele underliggende codons. Prøv at sammenligne de steder, hvor der blev sat meget korte gaps ind i DNA alignment'et med protein-alignmentet -> når viden om brug af codon ignoreres, bliver der nogen gange indført nogle uheldige optimering på DNA-niveau.

    • Undersøg igen guide-tree'et som phylogram: Hvilke sekvenser kan vi nu smide ud? Er der flere end før?

Intermezzo - globalt vs. lokalt multiple alignment

  1. ClustalW/ClustalX er et globalt optimerende alignment-program, hvilket vil sige, at det i hvert alignment (sekvens til sekvens, sekvens til profil eller profil til profil) forsøger at matche begge sekvenser eller profiler i hele deres længde. Dette går kun godt, hvis det er nogenlunde den samme region af alle sekvenser, der udviser evolutionært slægtskab. Hvis man har et datasæt bestående af domæner i forskellige kombinationer, sådan at én del af sekvens A er beslægtet med sekvens B, mens en anden del af sekvens A er beslægtet med sekvens C, kan det give besynderlige resultater. En simpel illustration af dette kan I få ved at prøve at aligne flg. (kunstige) datasæt:
    >seq1
    LASDFEWRYPNMYTFRECDSALKNLPRTKI
    >seq2
    KNDEWQRNMSDERTYCVNHKLIKTRESDFQW
    >combi
    LASDFEWRYPNMYTFRECDSALKNLPRTKI
    KNDEWQRNMSDERTYCVNHKLIKTRESDFQW
    
    Det skulle være let at se, at combi svarer til seq1 + seq2. Men hvad siger ClustalW?
  2. Der findes andre alignment-programmer, som i større eller mindre grad gør brug af lokale alignments undervejs i processen, dvs. at de kun lader den bedst matchende region i hver parvis sammenligning have indflydelse på den totale alignment-score. Prøv ovenstående eksempel med følgende fire metoder, der også findes på EBI's server: Hvilke(n) af disse var i stand til at aligne vores "legetøjseksempel" korrekt?

Del 2 - RevTrans

  1. Vi skal som det sidste i denne øvelse kigge på hvordan man kan kombinere viden om DNA og proteiner i et multiple alignemnt (se RevTrans artiklen - pensum til idag). RevTrans benytter et lokalt optimerende alignment-program: Dialign2 / DialignT (ikke tilgængeligt på EBI's server).

    Hvis I ikke har fået kigget på RevTrans artiklen endnu - så skim den hurtigt igennem (den er let læst). Den forklarer hele konceptet med at trække DNA sekvenserne op på peptid-niveau, for derefter at konstruere et DNA alignment ud fra et peptid alignment.

    Bemærk at Dialign prøver at fortælle hvilke positioner den betragter som align'et (UPPERCASE) og hvilke den har måttet opgive at aligne og bare har "parkeret" et sted (lowercase). Clustal må også sommetider opgive at finde det perfekte sted til visse sekvenser - den fortæller bare ikke noget om det (!).

    Som datasæt skal vi bruge insulin-sættet fra før - her renset for redundans og med kortere navne:

    >Sheep
    ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
    CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
    CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
    CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
    GAGAACTACTGTAACTAG
    >Pig
    ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
    CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
    CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
    GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAG
    >Dog
    ATGGCCCTCTGGATGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCG
    CCCACCCGAGCCTTCGTTAACCAGCACCTGTGTGGCTCCCACCTGGTAGAGGCTCTGTAC
    CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCTAAGGCCCGCAGGGAGGTGGAGGAC
    CTGCAGGTGAGGGACGTGGAGCTGGCCGGGGCGCCTGGCGAGGGCGGCCTGCAGCCCCTG
    GCCCTGGAGGGGGCCCTGCAGAAGCGAGGCATCGTGGAGCAGTGCTGCACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAATTACTGCAACTAG
    >OwlMonkey
    ATGGCCCTGTGGATGCACCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCCGAG
    CCAGCCCCGGCCTTTGTGAACCAGCACCTGTGCGGCCCCCACCTGGTGGAAGCCCTCTAC
    CTGGTGTGCGGGGAGCGAGGTTTCTTCTACGCACCCAAGACCCGCCGGGAGGCGGAGGAC
    CTGCAGGTGGGGCAGGTGGAGCTGGGTGGGGGCTCTATCACGGGCAGCCTGCCACCCTTG
    GAGGGTCCCATGCAGAAGCGTGGCGTCGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
    TACCAGCTGCAGAACTACTGCAACTAG
    >Human
    ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
    CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
    CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
    CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
    GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
    >GreenMonkey
    ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
    CCGGTCCCGGCCTTTGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAAGCCCTCTAC
    CTGGTGTGCGGGGAGCGAGGCTTCTTCTACACGCCCAAGACCCGCCGGGAGGCAGAGGAC
    CCGCAGGTGGGGCAGGTAGAGCTGGGCGGGGGCCCTGGCGCAGGCAGCCTGCAGCCCTTG
    GCGCTGGAGGGGTCCCTGCAGAAGCGCGGCATCGTGGAGCAGTGCTGTACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
    >Chimp
    ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGTGCTGCTGGCCCTCTGGGGACCTGAC
    CCAGCCTCGGCCTTTGTGAACCAACACCTGTGCGGCTCCCACCTGGTGGAAGCTCTCTAC
    CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
    CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
    GCCCTGGAGGGGTCCCTGCAGAAGCGTGGTATCGTGGAACAATGCTGTACCAGCATCTGC
    TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
    >GuineaPig
    ATGGCTCTGTGGATGCATCTCCTCACCGTGCTGGCCCTGCTGGCCCTCTGGGGGCCCAAC
    ACTAATCAGGCCTTTGTCAGCCGGCATCTGTGCGGCTCCAACTTAGTGGAGACATTGTAT
    TCAGTGTGTCAGGATGATGGCTTCTTCTATATACCCAAGGACCGTCGGGAGCTAGAGGAC
    CCACAGGTGGAGCAGACAGAACTGGGCATGGGCCTGGGGGCAGGTGGACTACAGCCCTTG
    GCACTGGAGATGGCACTACAGAAGCGTGGCATTGTGGATCAGTGCTGTACTGGCACCTGC
    ACACGCCACCAGCTGCAGAGCTACTGCAACTAG
    >Mouse
    ATGGCCCTGTTGGTGCACTTCCTACCCCTGCTGGCCCTGCTTGCCCTCTGGGAGCCCAAA
    CCCACCCAGGCTTTTGTCAAACAGCATCTTTGTGGTCCCCACCTGGTAGAGGCTCTCTAC
    CTGGTGTGTGGGGAGCGTGGCTTCTTCTACACACCCAAGTCCCGCCGTGAAGTGGAGGAC
    CCACAAGTGGAACAACTGGAGCTGGGAGGAAGCCCCGGGGACCTTCAGACCTTGGCGTTG
    GAGGTGGCCCGGCAGAAGCGTGGCATTGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
    TACCAGCTGGAGAACTACTGCAACTAA
    >Chicken
    ATGGCTCTCTGGATCCGATCACTGCCTCTTCTGGCTCTCCTTGTCTTTTCTGGCCCTGGA
    ACCAGCTATGCAGCTGCCAACCAGCACCTCTGTGGCTCCCACTTGGTGGAGGCTCTCTAC
    CTGGTGTGTGGAGAGCGTGGCTTCTTCTACTCCCCCAAAGCCCGACGGGATGTCGAGCAG
    CCCCTAGTGAGCAGTCCCTTGCGTGGCGAGGCAGGAGTGCTGCCTTTCCAGCAGGAGGAA
    TACGAGAAAGTCAAGCGAGGGATTGTTGAGCAATGCTGCCATAACACGTGTTCCCTCTAC
    CAACTGGAGAACTACTGCAACTAG

  2. Gå til RevTrans serveren: http://www.cbs.dtu.dk/services/RevTrans/

    Bemærk muligheden for at vælge mellem alternative translationsmatricer. Det er ikke noget tilfælde at det til forveksling ligner VirtualRibosome - begge servere bruge samme bagvedliggende programstump til at oversætte fra DNA til protein.
    • Submit sekvenserne med default settings.
    • Kig på alignmentet:
      • Hvordan er det nu med længden af gaps - går de op i tre?
      • Vil codons altid være align'et? (altså at 1. positioner står over andre 1. positioner osv.).
      • Er der nogen steder Dialign har indikeret at kvaliteten af alignment'et ikke er i top?

    • Bemærk: RevTrans serveren tilbyder (endnu) ikke det store i analysen af alignment'et - men det kan bruges som input til en videre phylogentisk analyse, og fx. statitisk analyse af mutationer der ikke betyder en ændring i aminosyre ("silent mutations") versus mutationer der fører til ændringer ("non-silent mutation").