Events News Research CBS CBS Publications Bioinformatics
Staff Contact About Internal CBS CBS Other

Translation og protein struktur

Øvelse skrevet af: Rasmus Wernersson


Introduktion

Denne øvelse vil gennemgå følgende emner:

1) Computer baseret translation af DNA til protein.

2) Arbejde med protein data. Forhold mellem primær, sekundær, tertiær og kvartenær struktur.

3) Arbejde med filer med sekvens annotering.


Overblik over øvelsen.

I denne øvelse skal vi gå hele vejen fra DNA sekvens fra et GenBank entry, over proteinsekvens til visning af proteinets 3D struktur. Workflow'et er som følger:

GenBank entry -> DNA (TAB format med annotering) -> Peptid (TAB format med annotering) -> 3D struktur.

DNA

Start med at åbne FeatureExtract serveren (som vi snakkede om sidste gang): Feature Extract 1.2

Vi skal nu arbejde med sekvensen af Alpha-D globin fra Muskusand, fra GenBank entry: X01831 (det er den samme fil som er brugt til jeres GenBank format hand-out).

  1. Skriv X01831 i "Paste in list of GenBank accession IDs" feltet.
  2. Tryk på "Submit query".
  3. Vent et øjeblik - når computeren er færdig med at tænke, kommer resultat siden op: "FeatureExtract - query result".
  4. Bemærk at der på resultatsiden udover et opsummering af antal sekvenser mm, er en række "download" options.
  5. Start med at kigge på det opringelige GenBank entry ("Download GenBank entries" - i de fleste browsere vises tekst direkte i browseren).Er det det rigtige entry? (Alpha-D fra Cairina moschata)
  6. Gem TAB filen til den lokale computer. Kald den fx. alpha-d.tab
  7. Bemærk at man også kan hente data i FASTA format. Kig en gang på de to FASTA filer. Hvad inderholder de i forhold til TAB filen?

Translation

I denne del af øvelsen, skal vi arbejde med computergenereret translation af vores DNA sekvens. Der findes rigtig mange servere til dette formål på nettet, men her vælger vi at bruge en af vores egne servere - Virtual Ribosome. Der er to grunde til dette 1) det er en lokal DTU ressource der er god at kende 2) serveren har understøtter brug af DNA sekvenser hvor Intron/Exon strukturen er annoteret i TAB format.

Start med at åbne Virtual Ribosome: Virtual Ribosome 1.0

Vi arbejder her videre med alpha-d genet.

  1. Start med at oversætte TAB filen, ved enten at kopiere den ind i sekvens-boksen (eller uploade filen direkte) og trykke "Submit query". Hermed køres Virtual Ribosome med default parametre.
  2. Inspicer de to FASTA filer samt TAB filen. Bemærk at den underliggende exon-struktur er annoteret.
  3. Gem både FASTA (sekvens) og TAB filen (fx som alpha-d.prot.fsa og alpha-d.prot.tab)

Bemærk at den oversatte protein sekvens repræsenterer alpha-D proteinets primære struktur

3D struktur

I denne del af øvelsen skal vi bruge FeatureMap3D serveren. Denne server bruges til at søge i PDB databasen efter 3D strukturer der i sekvens ligner den man bruger som input. Efterfølgende vises det hvor god kvaliteten af match'et er direkte i 3D strukturen. Alternativt kan man få vist en evt. sekvens annotering direkte i 3D stukturen. Vi vil her prøve begge dele.

Start med at åbne FeatureMap3D serveren: FeatureMap3D 1.0

  1. Vi starter med at arbejde med FASTA filen, som altså repræsenterer proteinet som ren sekvens (ingen annotering).
  2. Brug FASTA filen (alpha-d.prot.fsa) som input (copy+paste eller upload), og tryk submit.
  3. VÆR TÅLMODIG. Søgningen og visualiseringen kan godt tage et minut eller to.
  4. Serveren skulle nu gerne havde fundet en god struktur i PDB databasen, og visualiseret 3D strukturen i forhold til vores input sekvens.

    Det er vigtigt et I nu bruger noget tid på at prøve at forstå og fortolke resultatet.

    Øverst er der en 3D figur, der med farvekoder viser det område vores input sekvens er blevet matchet op imod. Nederst se et "alignment" (mere om dette næste gang) hvor den PRIMÆRE protein sekvens er sammenlignet. Den nederste linie i alignment'et viser i bogstavkode den SEKUNDÆRE struktur (helix, sheet osv.).

    3D billedet er farvelagt som følger: FARVEDE områder - den proteinkæde vores input sekvens er blevet matchet mod. GRÅ områder andre protein kæder i strukturen. Farverne viser hvor ens de to protein sekvenser er (vores input i forhold til den i sekvensen): GRØN - helt ens områder. BRUN og VIOLET - her er der forskelle.

    Tænk over følgende:

    1. Hvorfor er de to protein sekvenser ikke 100% ens? (Gallus gallus = høne).
    2. Indentificer elementer af sekundær struktur.
    3. Alle niveauer af protein struktur er repræsenteret her. Find eksempler på alle 4 niveauer.
  5. Åben FeatureMap serveren i et nyt browser-vindue, så vi kan sammenligne resultaterne af de forskellige søgninger.
  6. Brug denne gang TAB filen som input til søgning (vent lidt med at trykke submit).
  7. Gå ned til "Advanced options" og vælg hvid baggrund.
  8. Tryk submit.
  9. Inspicer resultatet - både 3D plot og alignment.

    Tænk over følgende:

    1. Hvad er forskellen mellem de to input filer?
    2. Hvordan er sekvens annoteringen blevet vist?
    3. Hvad kan man aflede om den underliggende exon struktur? (Tilfældig fordelt?)
    4. Læg mærke til at vores exon annotering også er vist i alignment'et.
    5. Hvordan ligger exon grænserne i forhold til den sekundære stuktur (HHHHHHH = helix).