27611 Eksamen Sommer 2007

 

 

Dette s¾t indeholder 4 opgaver.

 

En online version af opgaves¾ttet vil v¾re tilg¾ngeligt fra kursets lektionsplan, under selve eksamen (25. Maj 2007 klokken 9:00 – 13:00). DNA/Protein sekvenser kan kopieres direkte herfra – det er ikke meningen at sekvenserne skal tastes ind i hŒnden.

 

Lektionsplan:

http://www.cbs.dtu.dk/dtucourse/27611spring2007/lektionsplan.php

 

Svar til opgaves¾ttes skal skrives enten i rŒ tekst (fx i Notepad/Wordpad/Nedit) eller i Microsoft Word (.doc) format.

 

Dit studienummer skal fremgŒ af filnavnet (fx. s022717.doc eller s022717.txt) og skal stŒ i starten af dokumentet (fx: ÓStudienummer: s022717Ó)

 

Svaret skal oploades pŒ CampusNet under kursus 27611 (under ÓAfleveringer -> Eksamen 2007Ó). Husk at gemme seneste version af dokumentet inden du oploader svaret.

 

Underskriv desuden denne forside med studienummer og navn og aflever den til eksamensvagten. Lokalenummer og computernummer skal udfyldes med henblik pŒ kontrol af netv¾rkstrafikken.

 

Navn: ______________________________________________________________

 

 

Studienummer: _______________________________________________________

 

 

Lokalenummer: _______________________________________________________

 

 

Computernummer: _____________________________________________________

 

 

 

(For eksaminander i lokale 062, byg. 208 – skriv nummeret pŒ lŒget af den b¾rb¾re computer. For eksaminander i lokale 052 og 152 i byg. 210, brug oversigten pŒ n¾ste side).


Oversigt over computernummerering i lokale 052 og 152 i bygning 210.

 

 

Hvad g¿r man hvis en web-server ikke virker:

 

1)    Verificer at input-data er i korrekt format. Forkert inputdata er i n¾sten alle tilf¾lde Œrsagen til problemet.

2)    Rapporter fejlen til eksamensvagten – den kursusansvarlige vil sŒ blive tilkaldt.


Opgave 1: Identifikation af ukendt DNA

Denne opgave t¾ller 25% af s¾ttet.

 

NedenstŒende sekvens er sekventeret direkte fra DNA som stammer fra en ukendt ikke-kultivŽrbar mikroorganisme. Det vides ikke hvorfra i genomet sekvensen stammer. Det er nu din opgave et finde ud af sŒ meget som mulig om denne sekvens.

 

Du skal i dit svar argumentere for valg af v¾rkt¿jer og databaser, samt dokumentere dine svar med referencer til relevante sekvenser (fx. data i FASTA format, hvis du arbejder videre med sekvensen, eller referencer til GenBank/UniProt entries).

 

1.     Bestem funktionen af sekvensen.

                                     a.     Er det en sekvens der i forvejen er kendt?

                                    b.     Er det muligt at finde besl¾gtede sekvenser med kendt funktion, der g¿r det muligt at bestemme funktionen?

                                     c.     Beskriv den sandsynlige funktion.

 

2.      

                                     a.     Er sekvensen proteinkodende?

                                    b.     Kan man forvente at sekvensen indeholder en komplet CDS?

 

3.     Er det mulig at afg¿re om sekvensen stammer fra en eukaryot eller prokaryot organisme?

 

4.     Sekvensen indeholder enkelte bogstaver, der ikke er A,C, G eller T.

                                     a.     Hvorfor kan dette forekomme?

                                    b.     Hvad betyder det nŒr der stŒr ÓSÓ eller ÓKÓ?

 

>unknown_fragment

AATGGGCACGGGACGCATGTGGCAGGCACCATCGGGSCCGTCGGCAACAACGGTACGGGC

GCAACTGGAATCAATTGGAACGTCCGCATCATGAGCCTGAAGTTCATGAGTTCCAGCGGC

AGCGGCTACACCAGCGCCGCCGTGCAGGCGATCAACTACGCGGTGCGCATGGGCGCTAAG

GTCATCAATAACAGTTGGGGTGGCGGCAGTTACGATCAGGCGCTGGCATCAACGATCCAG

TTCGCTCAAAGCCGTGGTGTTATCGTGGTCAACGCGGCAGGAAACGACGGCGTTAACGTC

GACGCTTCGCCATCGTACCCGGCGAGTCTGAATGGCGCCAACGTGCTGACGGTTGCCGCC

ACCGATCAGAACAACAATCTCGCATCGTTCTCGAACTACGGTGCCGGCACGGTTGACATT

GCCGCTCCGGGTGTGACCATTCTCAGCACTTACACCAGCGKCCGTTATGCATACATGAGC

GGCACATCAATGGCCACTCCGAACGTCGCCGGCGTCGCC

 

 


Opgave 2:

Denne opgave t¾ller 30% af s¾ttet.

 

2A): Psi-Blast

 

1)    Hvis du k¿rer en BLAST s¿gning med en protein sekvens mod NR og finder f¿lgende tre hits, hvilket hit ville du v¾lge?

 

a.      70% id, E v¾rdi = 1.2

b.     25% id, E v¾rdi = 10

c.     25%id, Ev¾rdi = 0.001

 

2)    Hvad er protein sekvens (i FASTA format) for SwissProt entrien P11302?

 

Brug Psi-Blast til at finde en homolog PDB struktur (med homolog forstŒs her en sekvens med en signifikant E v¾rdi)

 

3)    Hvor mange BLAST iterationer skal du k¿re for at finde en PDB struktur med en signifikant E v¾rdi?

 

4)    Hvad er navnet pŒ den homologe PDB struktur, og hvad er E v¾rdien for hittet?

 

 

2B): Sp¿rgsmŒl LogoÕer og v¾gt matricer

 

1)    Logo plottet nedenfor er genereret pŒ baggrund af sekvenser, der vides at have en god binding til MHC. Hvilke er de to mest informative positioner?
 

2)    Hvilke aminosyrer pŒ position P2 vil give god binding?

3)    Nedenfor er angivet en multiple alignment af et s¾t peptider, der binder MHC.

 

KPSEPGGVL

SPALPGLKL

SPKLPVSSL

KPSLPFTSL

SPYQNIKIL

 

Benyt relationen for udregning af aminosyre frekvenser ud fra de observerede frekvenser og pseudo frekvenser til at udregne v¾gt matrice (log-odds) v¾rdierne for E og K pŒ position P1. S¾t b=4, og se bort fra sekvens v¾gtning.

 


Opgave 3:

Denne opgave t¾ller 5% af s¾ttet.

 

Hvilke af f¿lgende sekvenser er i korrekt FASTA format. (V¾lg en eller flere).

 

(a):

<Seq47

ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG

CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT

TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA

GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC

CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA

 

(b):

>(gi|64141:754-928, 1216-1358) Oncorhynchus insulin gene for preproinsulin

ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG

CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT

TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA

GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC

CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA

 

(c):

>(gi|64141:754-928, 1216-1358)

Oncorhynchus insulin gene for preproinsulin

Notice: Introns removed!

ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG

CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT

TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA

GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC

CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA

 

(d):

>seq47

ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG

CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT

TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA

GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC

CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA

 

(e):

>Seq47

  1 ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG

 81 CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT

161 TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA

241 GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC

321 CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA

 

(f):

>seq47_2

ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGT

GTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG

CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGAC

GCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT

TTACACCCCAAAGAGAGATGTGGATCCCCTTATAG

GGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA

GAGTACCCCTTCAAAGACCAGACGGAGATGATGGT

AAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC

CCTGCAACATCTTCGACCTGCAAAACTACTGCAAC

TGA

 

(g):

LOCUS Seq47

ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG

CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT

TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA

GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC

CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA


Opgave 4:  Sammenligning af insulin fra forskellige organismer

Denne opgave t¾ller 40% af s¾ttet.

 

Som du mŒske husker fra ¿velsen "Translation og proteindatabaser", bliver proteinhormonet insulin syntetiseret som et forstadium (precursor), hvorefter et signalpeptid og et propeptid spaltes fra f¿r det nŒr sin f¾rdige (mature) form, som bestŒr af en A-k¾de og en B-k¾de. (Et tip som du fŒr brug for senere: signalpeptider og  propeptider findes i UniProt annoteret i feature-tabellen med betegnelsen (FtKey) henholdsvis "signal" og "propep"). Din opgave er nu at sammenligne insulin fra nogle forskellige organismer og finde ud af om signalpeptidet og propeptidet er mere eller mindre konserverede end A- og B-k¾derne.

 

4A: SRS-s¿gning

F¿rst skal du ved hj¾lp af SRS fremstille et brugbart datas¾t af aminosyresekvenser fra insulin. Vigtigt: Brug kun Swiss-Prot delen af UniProt.

 

1)

Hvor mange entries i Swiss-Prot indeholder ordet "insulin" i beskrivelsen (altsŒ ikke medregnet sammens¾tninger som "Insulin-activated" eller "Insulin-like")?

 

Som du kan se, giver denne s¿gning en del resultater som ikke er insulin, men bare har noget at g¿re med insulin. Nu skal du pr¿ve at indsn¾vre denne s¿gning pŒ forskellige mŒder.

 

2)

Blad ned i resultatlisten til du kommer til hits med navnene "Insulin" og "Insulin precursor". Kig n¾rmere pŒ nogle af dem. Hvad er helt pr¾cist forskellen mellem dem der hedder "Insulin" og dem der hedder "Insulin precursor"?

 

Det g¾lder nu om at begr¾nse s¿gningen til insulin-forstadier. Det ville naturligvis v¾re nemmest hvis man kunne s¿ge efter selve sammens¾tningen "Insulin precursor", men det virker ikke i SRS, idet SRS kun indekserer enkeltord, ikke hele s¾tninger/linier. Besvar i stedet f¿lgende:

 

3)

 

Hvor mange entries indeholder begge ordene "insulin" og "precursor" i beskrivelsen?

 

Som du kan se, er der stadig andre proteiner end insulin med i s¾ttet. ForeslŒ et eller flere ord, som kan tilf¿jes til s¿gningen for at begr¾nse s¾ttet til insulin-forstadier.

 


4)

Hvilke(t) ord valgte du, og hvor mange er der nu tilbage?

 

5)

UndgŒ sŒ de entries der ikke indeholder fuld l¾ngde sekvens (fragmenter). Hvor mange er der nu tilbage, og hvordan gennemf¿rte du denne s¿gning? (NB: opgaven skal l¿ses i SRS, det er ikke nok at t¾lle manuelt hvor mange der er!)

 

6)

Som sagt skal du analysere signalpeptider og propeptider. Det er derfor n¿dvendigt at begr¾nse s¾ttet til de entries der bŒde har et signalpeptid og et propeptid annoteret. Hvor mange entries med begge disse features findes der i hele Swiss-Prot (altsŒ ikke kun blandt insulin-forstadier)?

7)

Kombiner dine to sidste s¿gninger for at besvare sp¿rgsmŒlet: Hvor mange insulin-forstadier med annoteret signalpeptid og propeptid er der? (NB: hvis du ikke kunne l¿se sp¿rgsmŒl 5, sŒ kombiner resultaterne fra 4 og 6 i stedet).

 

Resultatet af sp¿rgsmŒl 7 er det ene af de to datas¾t du skal bruge i anden halvdel af opgaven. Gem dette datas¾t i FASTA format pŒ den computer du arbejder pŒ (Tip: i SRS skal du trykke "Save" og derefter s¾tte "Use view" til "FastaSeqs").

 

For at fŒ et mere overskueligt datas¾t at arbejde videre med, skal du ogsŒ lave en udgave der er begr¾nset til primater (se f¿lgende punkter):

 

8)

Hvor mange entries fra primater findes der i hele Swiss-Prot? (Tip: hvis du ikke ved hvad primater hedder pŒ latin, sŒ kig n¾rmere pŒ det humane entry fra dit tidligere datas¾t og check feltet "Taxonomy").

 

9)

Kombiner dine to sidste s¿gninger for at lave det lille datas¾t af  insulin-forstadier med annoteret signalpeptid og propeptid fra primater. Hvor mange sekvenser indeholder det? Skriv alle entry-navnene (ID'erne) i dit svar!

 

10)

Kig n¾rmere pŒ featuretabellerne i primat-datas¾ttet. Angiv

a. sidste position i signalpeptidet,

b. f¿rste position i propeptidet, og

c. sidste position i propeptidet.

 

Hvis positionen varierer mellem de forskellige entries, sΠangiv et interval!

Gem ogsŒ primat-datas¾ttet fra sp¿rgsmŒl 9 i FASTA format.

 

4B: Multiple alignment

(Hj¾lp til dem der ikke klarede 4A: Hvis du ikke har fŒet to datas¾t i FASTA format ud af sp¿rgsmŒl 7 og 9, kan du alligevel godt besvare 4B. Vi har lagt to erstatnings-datas¾t pŒ kursus-hjemmesiden, som du kan downloade:

 

http://www.cbs.dtu.dk/dtucourse/27611spring2007/eksamen/

 

 Erstatningen for datas¾ttet fra sp¿rgsmŒl 9 hedder Òinsulin-primater-udennavn.fastaÓ, og vi har ¾ndret navnene pŒ sekvenserne, sŒ du kan ikke bruge det til at besvare sp¿rgsmŒl 9. Erstatningen for datas¾ttet fra sp¿rgsmŒl 7 hedder Òinsulin-25-udennavn.fastaÓ, og her har vi bŒde ¾ndret navne og fjernet et antal sekvenser, sŒ du kan ikke bruge det til at besvare sp¿rgsmŒl 7. Du fŒr ogsŒ brug for at se pŒ annoteringen af Swiss-Prot entry INS_HUMAN for at besvare 4B, hvis du ikke har besvaret sp¿rgsmŒl 10).

 

Brug ClustalW til at lave et multiple alignment af det lille primat-datas¾t fra sp¿rgsmŒl 9. Det er OK at lade alle parametre v¾re default v¾rdier. Du vil observere at insulin fra forskellige primater er temmelig ens. Besvar nu f¿lgende sp¿rgsmŒl:

 

11)

Hvor mange positioner i dette alignment er ikke 100% konserverede?

12)

Der er et enkelt gap i en af sekvenserne. Forekommer dette i signalpeptidet, A-k¾den, propeptidet eller B-k¾den?

 

Lav et tilsvarende alignment af det st¿rre insulin-datas¾t fra sp¿rgsmŒl 7. Du skulle nu meget gerne se en st¿rre variation i sekvenserne. For at fŒ et overblik over graden af konservering pŒ hver position skal du bruge alignment-editoren Jalview: tryk pŒ knappen "Start Jalview" pŒ resultatsiden.

 

Bem¾rk at det samlede alignment pŒ grund af gaps er l¾ngere end de enkelte sekvenser der indgŒr i det. Pr¿v nu at finde hvor gr¾nserne gŒr mellem signalpeptidet, A-k¾den, propeptidet og B-k¾den i dette alignment. Tip: positionen i alignmentet fremgŒr af  aksen ¿verst i vinduet, mens positionen i den enkelte sekvens vises nederst, nŒr du peger pŒ en aminosyre med musen.

 

13)

Find en af primatsekvenserne, hvor du jo kender positionerne fra sp¿rgsmŒl 10, og brug den til at finde, i forhold til det samlede alignment :

a. sidste position i signalpeptidet,

b. f¿rste position i propeptidet, og

c. sidste position i propeptidet.

(op til to positioners un¿jagtighed bliver regnet som korrekt svar)

 

Nederst i Jalview-vinduet ser du blokdiagrammer over tre mŒl for konservering: "Conservation", "Quality" og "Consensus" (% identitet). (Tip: Hvis du ikke kan se dem, skal du gŒ til menuen "View" og s¾tte markering ved "Show Annotations"). T¾nk ikke pŒ forskellen mellem disse tre mŒl, du skal bare kvalitativt bed¿mme graden af konservering i de forskellige regioner.

14)

Sammenlign nu signalpeptidet, A-k¾den, propeptidet og B-k¾den.

a. Er signalpeptidet mere eller mindre konserveret end A- og B-k¾derne, eller er der ingen forskel?

b. Er propeptidet mere eller mindre konserveret end A- og B-k¾derne, eller er der ingen forskel?