Dette s¾t indeholder 4 opgaver.
En online version
af opgaves¾ttet vil v¾re tilg¾ngeligt fra kursets lektionsplan, under selve
eksamen (25. Maj 2007 klokken 9:00 – 13:00). DNA/Protein sekvenser kan
kopieres direkte herfra – det er ikke meningen at sekvenserne skal
tastes ind i hnden.
Lektionsplan:
http://www.cbs.dtu.dk/dtucourse/27611spring2007/lektionsplan.php
Svar til
opgaves¾ttes skal skrives enten i r tekst (fx i Notepad/Wordpad/Nedit) eller i
Microsoft Word (.doc) format.
Dit
studienummer skal fremg af filnavnet (fx. s022717.doc eller s022717.txt) og skal st i starten af dokumentet (fx:
ÓStudienummer: s022717Ó)
Svaret skal
oploades p CampusNet under kursus 27611 (under ÓAfleveringer -> Eksamen 2007Ó). Husk at gemme seneste version af
dokumentet inden du oploader svaret.
Underskriv
desuden denne forside med studienummer og navn og aflever den til
eksamensvagten. Lokalenummer og computernummer skal udfyldes med henblik p kontrol af
netv¾rkstrafikken.
Navn:
______________________________________________________________
Studienummer:
_______________________________________________________
Lokalenummer:
_______________________________________________________
Computernummer:
_____________________________________________________
(For eksaminander
i lokale 062, byg. 208 – skriv nummeret p lget af den b¾rb¾re computer.
For eksaminander i lokale 052 og 152 i byg. 210, brug oversigten p n¾ste
side).

Oversigt over
computernummerering i lokale 052 og 152 i bygning 210.
1) Verificer at input-data er i korrekt
format. Forkert inputdata er i n¾sten alle tilf¾lde rsagen til problemet.
2) Rapporter fejlen til eksamensvagten
– den kursusansvarlige vil s blive tilkaldt.
Denne opgave
t¾ller 25% af s¾ttet.
Nedenstende
sekvens er sekventeret direkte fra DNA som stammer fra en ukendt
ikke-kultivrbar mikroorganisme. Det vides ikke hvorfra i genomet sekvensen
stammer. Det er nu din opgave et finde ud af s meget som mulig om denne
sekvens.
Du skal i dit
svar argumentere for valg af v¾rkt¿jer og databaser, samt dokumentere dine
svar med referencer til relevante sekvenser (fx. data i FASTA format, hvis
du arbejder videre med sekvensen, eller referencer til GenBank/UniProt
entries).
1. Bestem funktionen af sekvensen.
a. Er det en sekvens der i forvejen er kendt?
b. Er det muligt at finde besl¾gtede
sekvenser med kendt funktion, der g¿r det muligt at bestemme funktionen?
c. Beskriv den sandsynlige funktion.
2.
a. Er sekvensen proteinkodende?
b. Kan man forvente at sekvensen indeholder
en komplet CDS?
3. Er det mulig at afg¿re om sekvensen
stammer fra en eukaryot eller prokaryot organisme?
4. Sekvensen indeholder enkelte bogstaver,
der ikke er A,C, G eller T.
a. Hvorfor kan dette forekomme?
b. Hvad betyder det nr der str ÓSÓ eller ÓKÓ?
>unknown_fragment
AATGGGCACGGGACGCATGTGGCAGGCACCATCGGGSCCGTCGGCAACAACGGTACGGGC
GCAACTGGAATCAATTGGAACGTCCGCATCATGAGCCTGAAGTTCATGAGTTCCAGCGGC
AGCGGCTACACCAGCGCCGCCGTGCAGGCGATCAACTACGCGGTGCGCATGGGCGCTAAG
GTCATCAATAACAGTTGGGGTGGCGGCAGTTACGATCAGGCGCTGGCATCAACGATCCAG
TTCGCTCAAAGCCGTGGTGTTATCGTGGTCAACGCGGCAGGAAACGACGGCGTTAACGTC
GACGCTTCGCCATCGTACCCGGCGAGTCTGAATGGCGCCAACGTGCTGACGGTTGCCGCC
ACCGATCAGAACAACAATCTCGCATCGTTCTCGAACTACGGTGCCGGCACGGTTGACATT
GCCGCTCCGGGTGTGACCATTCTCAGCACTTACACCAGCGKCCGTTATGCATACATGAGC
GGCACATCAATGGCCACTCCGAACGTCGCCGGCGTCGCC
Denne opgave
t¾ller 30% af s¾ttet.
2A): Psi-Blast
1) Hvis du k¿rer en BLAST s¿gning med en
protein sekvens mod NR og finder f¿lgende tre hits, hvilket hit ville du v¾lge?
a. 70% id, E v¾rdi = 1.2
b. 25% id, E v¾rdi = 10
c. 25%id, Ev¾rdi = 0.001
2) Hvad er protein sekvens (i FASTA format)
for SwissProt entrien P11302?
Brug Psi-Blast til at finde en homolog PDB struktur (med homolog forsts
her en sekvens med en signifikant E v¾rdi)
3) Hvor mange BLAST iterationer skal du k¿re
for at finde en PDB struktur med en signifikant E v¾rdi?
4) Hvad er navnet p den homologe PDB struktur,
og hvad er E v¾rdien for hittet?
2B): Sp¿rgsml
LogoÕer og v¾gt matricer
1) Logo plottet nedenfor er genereret p
baggrund af sekvenser, der vides at have en god binding til MHC. Hvilke er de
to mest informative positioner?

2) Hvilke aminosyrer p position P2 vil give
god binding?
3) Nedenfor er angivet en multiple alignment
af et s¾t peptider, der binder MHC.
KPSEPGGVL
SPALPGLKL
SPKLPVSSL
KPSLPFTSL
SPYQNIKIL
Benyt relationen
for udregning af aminosyre frekvenser ud fra de observerede frekvenser og pseudo
frekvenser til at udregne v¾gt matrice (log-odds) v¾rdierne for E og K p
position P1. S¾t b=4, og se bort fra
sekvens v¾gtning.
Denne opgave
t¾ller 5% af s¾ttet.
Hvilke af
f¿lgende sekvenser er i korrekt FASTA format. (V¾lg en eller flere).
(a):
<Seq47
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(b):
>(gi|64141:754-928,
1216-1358) Oncorhynchus insulin gene for preproinsulin
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(c):
>(gi|64141:754-928,
1216-1358)
Oncorhynchus
insulin gene for preproinsulin
Notice:
Introns removed!
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(d):
>seq47
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(e):
>Seq47
1 ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
81
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
161
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
241
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
321 CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
(f):
>seq47_2
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGT
GTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGAC
GCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAG
GGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGT
AAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAAC
TGA
(g):
LOCUS
Seq47
ATGGCCTTCTGGCTCCAAGCTGCATCTCTGCTGGTGTTGCTGGCGCTCTCCCCCGGGGTAGATGCTGCAG
CTGCCCAGCACCTGTGTGGCTCTCACCTGGTGGACGCCCTCTATCTGGTGTGTGGAGAGAAAGGATTCTT
TTACACCCCAAAGAGAGATGTGGATCCCCTTATAGGGTTCCTCTCTCCAAAATCAGCAAAGGAGAACGAA
GAGTACCCCTTCAAAGACCAGACGGAGATGATGGTAAAGAGAGGTATTGTAGAGCAGTGCTGTCACAAGC
CCTGCAACATCTTCGACCTGCAAAACTACTGCAACTGA
Denne
opgave t¾ller 40% af s¾ttet.
Som
du mske husker fra ¿velsen "Translation og proteindatabaser", bliver
proteinhormonet insulin syntetiseret som et forstadium (precursor), hvorefter et signalpeptid og et
propeptid spaltes fra f¿r det nr sin f¾rdige (mature)
form, som bestr af en A-k¾de og en B-k¾de. (Et tip som
du fr brug for senere: signalpeptider og
propeptider findes i UniProt annoteret i feature-tabellen med
betegnelsen (FtKey) henholdsvis "signal" og "propep"). Din
opgave er nu at sammenligne insulin fra nogle forskellige organismer og finde
ud af om signalpeptidet og propeptidet er mere eller mindre konserverede end A-
og B-k¾derne.
F¿rst
skal du ved hj¾lp af SRS fremstille et brugbart datas¾t af aminosyresekvenser
fra insulin. Vigtigt:
Brug kun Swiss-Prot
delen af UniProt.
1)
Hvor
mange entries i Swiss-Prot indeholder ordet "insulin" i beskrivelsen
(alts ikke medregnet sammens¾tninger som
"Insulin-activated" eller "Insulin-like")?
Som
du kan se, giver denne s¿gning en del resultater som ikke er insulin, men bare har noget at g¿re med
insulin. Nu skal du pr¿ve at indsn¾vre denne s¿gning p forskellige mder.
2)
Blad
ned i resultatlisten til du kommer til hits med navnene "Insulin" og
"Insulin precursor". Kig n¾rmere p nogle af dem. Hvad er helt
pr¾cist forskellen mellem dem der hedder "Insulin" og dem der hedder
"Insulin precursor"?
Det
g¾lder nu om at begr¾nse s¿gningen til insulin-forstadier. Det ville naturligvis
v¾re nemmest hvis man kunne s¿ge efter selve sammens¾tningen "Insulin
precursor", men det virker
ikke i SRS, idet SRS kun
indekserer enkeltord, ikke hele s¾tninger/linier. Besvar i stedet f¿lgende:
3)
Hvor mange
entries indeholder begge ordene "insulin" og "precursor" i
beskrivelsen?
Som
du kan se, er der stadig andre proteiner end insulin med i s¾ttet. Foresl et
eller flere ord, som kan tilf¿jes til s¿gningen for at begr¾nse s¾ttet til
insulin-forstadier.
4)
Hvilke(t)
ord valgte du, og hvor mange er der nu tilbage?
5)
Undg
s de entries der ikke indeholder fuld l¾ngde sekvens (fragmenter). Hvor mange
er der nu tilbage, og hvordan gennemf¿rte du denne s¿gning? (NB: opgaven skal
l¿ses i SRS, det er ikke nok at t¾lle manuelt hvor mange der er!)
6)
Som
sagt skal du analysere signalpeptider og propeptider. Det er derfor n¿dvendigt
at begr¾nse s¾ttet til de entries der bde har et signalpeptid og et propeptid
annoteret. Hvor mange entries med begge disse features findes der i hele Swiss-Prot (alts ikke kun blandt
insulin-forstadier)?
7)
Kombiner
dine to sidste s¿gninger for at besvare sp¿rgsmlet: Hvor mange
insulin-forstadier med annoteret signalpeptid og propeptid er der? (NB: hvis du ikke kunne l¿se sp¿rgsml 5, s
kombiner resultaterne fra 4 og 6 i stedet).
Resultatet
af sp¿rgsml 7 er det ene af de to datas¾t du skal bruge i anden halvdel af
opgaven. Gem dette datas¾t i FASTA format p den computer du arbejder p (Tip: i SRS skal du trykke "Save" og
derefter s¾tte "Use view" til "FastaSeqs").
For
at f et mere overskueligt datas¾t at arbejde videre med, skal du ogs lave en
udgave der er begr¾nset til primater (se f¿lgende punkter):
8)
Hvor
mange entries fra primater findes der i hele Swiss-Prot? (Tip: hvis du ikke ved hvad primater hedder p
latin, s kig n¾rmere p det humane entry fra dit tidligere datas¾t og check
feltet "Taxonomy").
9)
Kombiner
dine to sidste s¿gninger for at lave det lille datas¾t af insulin-forstadier med annoteret
signalpeptid og propeptid fra primater. Hvor mange sekvenser indeholder det?
Skriv alle entry-navnene (ID'erne) i dit svar!
10)
Kig
n¾rmere p featuretabellerne i primat-datas¾ttet. Angiv
a.
sidste position i signalpeptidet,
b.
f¿rste position i propeptidet, og
c.
sidste position i propeptidet.
Hvis
positionen varierer mellem de forskellige entries, s angiv et interval!
Gem
ogs primat-datas¾ttet fra sp¿rgsml 9 i FASTA format.
(Hj¾lp til dem der ikke klarede 4A: Hvis du ikke har fet to datas¾t i FASTA format
ud af sp¿rgsml 7 og 9, kan du alligevel godt besvare 4B. Vi har lagt to erstatnings-datas¾t p
kursus-hjemmesiden, som du kan downloade:
http://www.cbs.dtu.dk/dtucourse/27611spring2007/eksamen/
Erstatningen for datas¾ttet fra sp¿rgsml 9 hedder Òinsulin-primater-udennavn.fastaÓ,
og vi har ¾ndret navnene p sekvenserne, s du kan ikke bruge det til at
besvare sp¿rgsml 9. Erstatningen for datas¾ttet fra sp¿rgsml 7 hedder Òinsulin-25-udennavn.fastaÓ,
og her har vi bde ¾ndret navne og fjernet et antal sekvenser, s du kan ikke
bruge det til at besvare sp¿rgsml 7. Du fr ogs brug for at se p
annoteringen af Swiss-Prot entry INS_HUMAN for at besvare 4B, hvis du ikke har besvaret sp¿rgsml 10).
Brug
ClustalW til at lave et multiple alignment af det lille primat-datas¾t fra
sp¿rgsml 9. Det er OK at lade alle parametre v¾re default v¾rdier. Du vil
observere at insulin fra forskellige primater er temmelig ens. Besvar nu
f¿lgende sp¿rgsml:
11)
Hvor
mange positioner i dette alignment er ikke 100% konserverede?
12)
Der
er et enkelt gap i en af sekvenserne. Forekommer dette i signalpeptidet,
A-k¾den, propeptidet eller B-k¾den?
Lav
et tilsvarende alignment af det st¿rre insulin-datas¾t fra sp¿rgsml 7. Du
skulle nu meget gerne se en st¿rre variation i sekvenserne. For at f et
overblik over graden af konservering p hver position skal du bruge
alignment-editoren Jalview: tryk p knappen "Start
Jalview" p resultatsiden.
Bem¾rk
at det samlede alignment p grund af gaps er l¾ngere end de enkelte sekvenser
der indgr i det. Pr¿v nu at finde hvor gr¾nserne gr mellem signalpeptidet,
A-k¾den, propeptidet og B-k¾den i dette alignment. Tip: positionen i alignmentet fremgr af aksen ¿verst i vinduet, mens positionen i den enkelte sekvens vises nederst, nr du peger p en
aminosyre med musen.
13)
Find
en af primatsekvenserne, hvor du jo kender positionerne fra sp¿rgsml 10, og
brug den til at finde, i forhold til det samlede alignment :
a.
sidste position i signalpeptidet,
b.
f¿rste position i propeptidet, og
c.
sidste position i propeptidet.
(op
til to positioners un¿jagtighed bliver regnet som korrekt svar)
Nederst
i Jalview-vinduet ser du blokdiagrammer over tre ml for konservering:
"Conservation", "Quality" og "Consensus" (%
identitet). (Tip: Hvis du ikke kan se dem, skal du g til
menuen "View" og s¾tte markering ved "Show Annotations").
T¾nk ikke p forskellen mellem disse tre ml, du skal bare kvalitativt bed¿mme
graden af konservering i de forskellige regioner.
14)
Sammenlign
nu signalpeptidet, A-k¾den, propeptidet og B-k¾den.
a.
Er signalpeptidet mere eller mindre konserveret end A- og B-k¾derne, eller er
der ingen forskel?
b. Er propeptidet mere eller mindre konserveret end A- og B-k¾derne, eller er der ingen forskel?