Dette s¾t indeholder 4 opgaver.
En online version
af opgaves¾ttet vil v¾re tilg¾ngeligt fra kursets lektionsplan, under selve
eksamen (25. Maj 2007 klokken 9:00 – 13:00). DNA/Protein sekvenser kan
kopieres direkte herfra – det er ikke meningen at sekvenserne skal
tastes ind i hŒnden.
Lektionsplan:
http://www.cbs.dtu.dk/dtucourse/27611spring2007/lektionsplan.php
Svar til
opgaves¾ttes skal skrives enten i rŒ tekst (fx i Notepad/Wordpad/Nedit) eller i
Microsoft Word (.doc) format.
Dit
studienummer skal fremgŒ af filnavnet (fx. s022717.doc eller s022717.txt) og skal stŒ i starten af dokumentet (fx:
ÓStudienummer: s022717Ó)
Svaret skal
oploades pŒ CampusNet under kursus 27611 (under ÓAfleveringer -> Eksamen 2007Ó). Husk at gemme seneste version af
dokumentet inden du oploader svaret.
Underskriv
desuden denne forside med studienummer og navn og aflever den til
eksamensvagten. Lokalenummer og computernummer skal udfyldes med henblik pŒ kontrol af
netv¾rkstrafikken.
Navn:
______________________________________________________________
Studienummer:
_______________________________________________________
Lokalenummer:
_______________________________________________________
Computernummer:
_____________________________________________________
(For eksaminander
i lokale 062, byg. 208 – skriv nummeret pŒ lŒget af den b¾rb¾re computer.
For eksaminander i lokale 052 og 152 i byg. 210, brug oversigten pŒ n¾ste
side).

Oversigt over
computernummerering i lokale 052 og 152 i bygning 210.
1) Verificer at input-data er i korrekt
format. Forkert inputdata er i n¾sten alle tilf¾lde Œrsagen til problemet.
2) Rapporter fejlen til eksamensvagten
– den kursusansvarlige vil sŒ blive tilkaldt.
Denne opgave
t¾ller 25% af s¾ttet.
NedenstŒende
sekvens er sekventeret direkte fra DNA som stammer fra en ukendt
ikke-kultivŽrbar mikroorganisme. Det vides ikke hvorfra i genomet sekvensen
stammer. Det er nu din opgave et finde ud af sŒ meget som mulig om denne
sekvens.
Du skal i dit
svar argumentere for valg af v¾rkt¿jer og databaser, samt dokumentere dine
svar med referencer til relevante sekvenser (fx. data i FASTA format, hvis
du arbejder videre med sekvensen, eller referencer til GenBank/UniProt
entries).
1. Bestem funktionen af sekvensen.
a. Er det en sekvens der i forvejen er kendt?
b. Er det muligt at finde besl¾gtede
sekvenser med kendt funktion, der g¿r det muligt at bestemme funktionen?
c. Beskriv den sandsynlige funktion.
2.
a. Er sekvensen proteinkodende?
b. Kan man forvente at sekvensen indeholder
en komplet CDS?
3. Er det mulig at afg¿re om sekvensen
stammer fra en eukaryot eller prokaryot organisme?
4. Sekvensen indeholder enkelte bogstaver,
der ikke er A,C, G eller T.
a. Hvorfor kan dette forekomme?
b. Hvad betyder det nŒr der stŒr ÓSÓ eller ÓKÓ?
>unknown_fragment
AATGGGCACGGGACGCATGTGGCAGGCACCATCGGGSCCGTCGGCAACAACGGTACGGGC
GCAACTGGAATCAATTGGAACGTCCGCATCATGAGCCTGAAGTTCATGAGTTCCAGCGGC
AGCGGCTACACCAGCGCCGCCGTGCAGGCGATCAACTACGCGGTGCGCATGGGCGCTAAG
GTCATCAATAACAGTTGGGGTGGCGGCAGTTACGATCAGGCGCTGGCATCAACGATCCAG
TTCGCTCAAAGCCGTGGTGTTATCGTGGTCAACGCGGCAGGAAACGACGGCGTTAACGTC
GACGCTTCGCCATCGTACCCGGCGAGTCTGAATGGCGCCAACGTGCTGACGGTTGCCGCC
ACCGATCAGAACAACAATCTCGCATCGTTCTCGAACTACGGTGCCGGCACGGTTGACATT
GCCGCTCCGGGTGTGACCATTCTCAGCACTTACACCAGCGKCCGTTATGCATACATGAGC
GGCACATCAATGGCCACTCCGAACGTCGCCGGCGTCGCC
Denne opgave
t¾ller 30% af s¾ttet.
2A): Psi-Blast
1) Hvis du k¿rer en BLAST s¿gning med en
protein sekvens mod NR og finder f¿lgende tre hits, hvilket hit ville du v¾lge?
a. 70% id, E v¾rdi = 1.2
b. 25% id, E v¾rdi = 10
c. 25%id, Ev¾rdi = 0.001
2) Hvad er protein sekvens (i FASTA format)
for SwissProt entrien P11302?
Brug Psi-Blast til at finde en homolog PDB struktur (med homolog forstŒs
her en sekvens med en signifikant E v¾rdi)
3) Hvor mange BLAST iterationer skal du k¿re
for at finde en PDB struktur med en signifikant E v¾rdi?
4) Hvad er navnet pŒ den homologe PDB struktur,
og hvad er E v¾rdien for hittet?
2B): Sp¿rgsmŒl
LogoÕer og v¾gt matricer
1) Logo plottet nedenfor er genereret pŒ
baggrund af sekvenser, der vides at have en god binding til MHC. Hvilke er de
to mest informative positioner?

2) Hvilke aminosyrer pŒ position P2 vil give
god binding?
3) Nedenfor er angivet en multiple alignment
af et s¾t peptider, der binder MHC.
KPSEPGGVL
SPALPGLKL
SPKLPVSSL
KPSLPFTSL
SPYQNIKIL
Benyt relationen
for udregning af aminosyre frekvenser ud fra de observerede frekvenser og pseudo
frekvenser til at udregne v¾gt matrice (log-odds) v¾rdierne for E og K pŒ
position P1. S¾t b=4, og se bort fra
sekvens v¾gtning.
Denne opgave
t¾ller 5% af s¾ttet.
Hvilke af
f¿lgende sekvenser er i korrekt FASTA format. (V¾lg en eller flere).
(a):
<Seq47
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(b):
>(gi|64141:754-928,
1216-1358) Oncorhynchus insulin gene for preproinsulin
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(c):
>(gi|64141:754-928,
1216-1358)
Oncorhynchus
insulin gene for preproinsulin
Notice:
Introns removed!
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(d):
>seq47
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(e):
>Seq47
1 ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
81
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
161
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
241
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
321 CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(f):
>seq47_2
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGT
GTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGAC
GCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAG
GGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGT
AAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAAC
TGA
(g):
LOCUS
Seq47
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
Denne
opgave t¾ller 40% af s¾ttet.
Som
du mŒske husker fra ¿velsen "Translation og proteindatabaser", bliver
proteinhormonet insulin syntetiseret som et forstadium (precursor), hvorefter et signalpeptid og et
propeptid spaltes fra f¿r det nŒr sin f¾rdige (mature)
form, som bestŒr af en A-k¾de og en B-k¾de. (Et tip som
du fŒr brug for senere: signalpeptider og
propeptider findes i UniProt annoteret i feature-tabellen med
betegnelsen (FtKey) henholdsvis "signal" og "propep"). Din
opgave er nu at sammenligne insulin fra nogle forskellige organismer og finde
ud af om signalpeptidet og propeptidet er mere eller mindre konserverede end A-
og B-k¾derne.
F¿rst
skal du ved hj¾lp af SRS fremstille et brugbart datas¾t af aminosyresekvenser
fra insulin. Vigtigt:
Brug kun Swiss-Prot
delen af UniProt.
1)
Hvor
mange entries i Swiss-Prot indeholder ordet "insulin" i beskrivelsen
(altsŒ ikke medregnet sammens¾tninger som
"Insulin-activated" eller "Insulin-like")?
Som
du kan se, giver denne s¿gning en del resultater som ikke er insulin, men bare har noget at g¿re med
insulin. Nu skal du pr¿ve at indsn¾vre denne s¿gning pŒ forskellige mŒder.
2)
Blad
ned i resultatlisten til du kommer til hits med navnene "Insulin" og
"Insulin precursor". Kig n¾rmere pŒ nogle af dem. Hvad er helt
pr¾cist forskellen mellem dem der hedder "Insulin" og dem der hedder
"Insulin precursor"?
Det
g¾lder nu om at begr¾nse s¿gningen til insulin-forstadier. Det ville naturligvis
v¾re nemmest hvis man kunne s¿ge efter selve sammens¾tningen "Insulin
precursor", men det virker
ikke i SRS, idet SRS kun
indekserer enkeltord, ikke hele s¾tninger/linier. Besvar i stedet f¿lgende:
3)
Hvor mange
entries indeholder begge ordene "insulin" og "precursor" i
beskrivelsen?
Som
du kan se, er der stadig andre proteiner end insulin med i s¾ttet. ForeslŒ et
eller flere ord, som kan tilf¿jes til s¿gningen for at begr¾nse s¾ttet til
insulin-forstadier.
4)
Hvilke(t)
ord valgte du, og hvor mange er der nu tilbage?
5)
UndgŒ
sŒ de entries der ikke indeholder fuld l¾ngde sekvens (fragmenter). Hvor mange
er der nu tilbage, og hvordan gennemf¿rte du denne s¿gning? (NB: opgaven skal
l¿ses i SRS, det er ikke nok at t¾lle manuelt hvor mange der er!)
6)
Som
sagt skal du analysere signalpeptider og propeptider. Det er derfor n¿dvendigt
at begr¾nse s¾ttet til de entries der bŒde har et signalpeptid og et propeptid
annoteret. Hvor mange entries med begge disse features findes der i hele Swiss-Prot (altsŒ ikke kun blandt
insulin-forstadier)?
7)
Kombiner
dine to sidste s¿gninger for at besvare sp¿rgsmŒlet: Hvor mange
insulin-forstadier med annoteret signalpeptid og propeptid er der? (NB: hvis du ikke kunne l¿se sp¿rgsmŒl 5, sŒ
kombiner resultaterne fra 4 og 6 i stedet).
Resultatet
af sp¿rgsmŒl 7 er det ene af de to datas¾t du skal bruge i anden halvdel af
opgaven. Gem dette datas¾t i FASTA format pŒ den computer du arbejder pŒ (Tip: i SRS skal du trykke "Save" og
derefter s¾tte "Use view" til "FastaSeqs").
For
at fŒ et mere overskueligt datas¾t at arbejde videre med, skal du ogsŒ lave en
udgave der er begr¾nset til primater (se f¿lgende punkter):
8)
Hvor
mange entries fra primater findes der i hele Swiss-Prot? (Tip: hvis du ikke ved hvad primater hedder pŒ
latin, sŒ kig n¾rmere pŒ det humane entry fra dit tidligere datas¾t og check
feltet "Taxonomy").
9)
Kombiner
dine to sidste s¿gninger for at lave det lille datas¾t af insulin-forstadier med annoteret
signalpeptid og propeptid fra primater. Hvor mange sekvenser indeholder det?
Skriv alle entry-navnene (ID'erne) i dit svar!
10)
Kig
n¾rmere pŒ featuretabellerne i primat-datas¾ttet. Angiv
a.
sidste position i signalpeptidet,
b.
f¿rste position i propeptidet, og
c.
sidste position i propeptidet.
Hvis
positionen varierer mellem de forskellige entries, sŒ angiv et interval!
Gem
ogsŒ primat-datas¾ttet fra sp¿rgsmŒl 9 i FASTA format.
(Hj¾lp til dem der ikke klarede 4A: Hvis du ikke har fŒet to datas¾t i FASTA format
ud af sp¿rgsmŒl 7 og 9, kan du alligevel godt besvare 4B. Vi har lagt to erstatnings-datas¾t pŒ
kursus-hjemmesiden, som du kan downloade:
http://www.cbs.dtu.dk/dtucourse/27611spring2007/eksamen/
Erstatningen for datas¾ttet fra sp¿rgsmŒl 9 hedder Òinsulin-primater-udennavn.fastaÓ,
og vi har ¾ndret navnene pŒ sekvenserne, sŒ du kan ikke bruge det til at
besvare sp¿rgsmŒl 9. Erstatningen for datas¾ttet fra sp¿rgsmŒl 7 hedder Òinsulin-25-udennavn.fastaÓ,
og her har vi bŒde ¾ndret navne og fjernet et antal sekvenser, sŒ du kan ikke
bruge det til at besvare sp¿rgsmŒl 7. Du fŒr ogsŒ brug for at se pŒ
annoteringen af Swiss-Prot entry INS_HUMAN for at besvare 4B, hvis du ikke har besvaret sp¿rgsmŒl 10).
Brug
ClustalW til at lave et multiple alignment af det lille primat-datas¾t fra
sp¿rgsmŒl 9. Det er OK at lade alle parametre v¾re default v¾rdier. Du vil
observere at insulin fra forskellige primater er temmelig ens. Besvar nu
f¿lgende sp¿rgsmŒl:
11)
Hvor
mange positioner i dette alignment er ikke 100% konserverede?
12)
Der
er et enkelt gap i en af sekvenserne. Forekommer dette i signalpeptidet,
A-k¾den, propeptidet eller B-k¾den?
Lav
et tilsvarende alignment af det st¿rre insulin-datas¾t fra sp¿rgsmŒl 7. Du
skulle nu meget gerne se en st¿rre variation i sekvenserne. For at fŒ et
overblik over graden af konservering pŒ hver position skal du bruge
alignment-editoren Jalview: tryk pŒ knappen "Start
Jalview" pŒ resultatsiden.
Bem¾rk
at det samlede alignment pŒ grund af gaps er l¾ngere end de enkelte sekvenser
der indgŒr i det. Pr¿v nu at finde hvor gr¾nserne gŒr mellem signalpeptidet,
A-k¾den, propeptidet og B-k¾den i dette alignment. Tip: positionen i alignmentet fremgŒr af aksen ¿verst i vinduet, mens positionen i den enkelte sekvens vises nederst, nŒr du peger pŒ en
aminosyre med musen.
13)
Find
en af primatsekvenserne, hvor du jo kender positionerne fra sp¿rgsmŒl 10, og
brug den til at finde, i forhold til det samlede alignment :
a.
sidste position i signalpeptidet,
b.
f¿rste position i propeptidet, og
c.
sidste position i propeptidet.
(op
til to positioners un¿jagtighed bliver regnet som korrekt svar)
Nederst
i Jalview-vinduet ser du blokdiagrammer over tre mŒl for konservering:
"Conservation", "Quality" og "Consensus" (%
identitet). (Tip: Hvis du ikke kan se dem, skal du gŒ til
menuen "View" og s¾tte markering ved "Show Annotations").
T¾nk ikke pŒ forskellen mellem disse tre mŒl, du skal bare kvalitativt bed¿mme
graden af konservering i de forskellige regioner.
14)
Sammenlign
nu signalpeptidet, A-k¾den, propeptidet og B-k¾den.
a.
Er signalpeptidet mere eller mindre konserveret end A- og B-k¾derne, eller er
der ingen forskel?
b. Er propeptidet mere eller mindre konserveret end A- og B-k¾derne, eller er der ingen forskel?