Pr¿ve-eksamens s¾t 2007
Indeholder 3
opgave (75% af et fuld eksamens¾t) + diverse tabeller og links til de
web-baserede v¾rkt¿jer, vi har benyttet pŒ kurset.
Link-siden ligger
ogsŒ online: http://www.cbs.dtu.dk/dtucourse/27611spring2007/link_collection.php
Dette opgaves¾t
ligger ogsŒ online pŒ kursushjemmesiden, sŒ alle sekvenser kan kopieres herfra.
Det er ikke
meningen at man skal taste sekvenserne ind i hŒnden.
http://www.cbs.dtu.dk/dtucourse/27611spring2007
(T¾ller 25% af
s¾ttet).
Du har som
nyuddannet bioinformatiker fŒet til opgave at hj¾lpe den kendte, men desv¾rre
meget glemsomme, russiske forsker Sumsar Nossrenrow, med hans eksperimentielle
arbejde. Den glemsomme herre har i laboratoriet syntetiseret og klonet DNAÕet
der koder for et fusion-protein: AltsŒ et protein der er sat sammen af to
forskellige proteiner – typisk et protein man gerne vil unders¿ge og et
andet protein der fungerer som rapporter (dvs. at det har en funktion man kan teste
med et assay – dette kunne fx. v¾re Lucifirase fra ildfluen, der
katalyserer er kemisk reaktion der udsender lys, eller beta-galactosidase fra E.
coli der kan detekteres
pŒ en X-Gal plade). NedenstŒende er det genetiske konstukt skematisk vist
– bem¾rk at Gen X og Gen Y er sat sammen med tilf¾ldig sammensplejsning.

Desv¾rre har
professor Nossrenrow glemt hvilke to gener han har klonet, og hvilken organisme
han arbejder med, sŒ vidt han husker var det dog ikke et dyr – i det
mindste ikke noget stort dyr. Derfor har han nu sekvenseret det klonede
fragment (fra tre forskellige kloner – se n¾ste side), og det er din opgave at finde frem til
hvilke gener der er tale om, samt hvad det egentligt var fors¿get gik ud pŒ.
Svar pŒ f¿lgende
– og argumenter for dit valg af v¾rkt¿jer og resultater undervejs.
Dokumenter dine svar med referencer til de relevante sekvenser:
i.
Hvad er
deres TaxIDs?
ii. Hvad er deres taxonomiske placering pŒ
f¿lgende niveauer: Rige (ÓKingdomÓ), Klasse (ÓClassÓ) og Orden (ÓOrderÓ).
i.
Find ud af
hvilken klon der virker, og hvorfor de to andre ikke virker.
>Fusion_protein_klon1
ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT
GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA
GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG
GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC
GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC
GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT
AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT
TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA
CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT
AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT
TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT
CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT
TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA
CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC
AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG
CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC
AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT
GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT
ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGG
TACAACAACTTTGGAACCTCACACGATCCCAAAACTTGGGGCACAACAGCAGATGATTTT
AAACCAGAAAGATGGGGTTCAGATATCGAAACCATAAGGAAAAACTGGAGAATGGCGAAA
AACAGATGTGCTGTGACTGGGTTCCATGGAGGCCGAAGAGCATGCCTAGGGGAAAAACTA
GCCCTAACAGAAATGAGAATTTCTTTGGCTGAAATGTTGAAACAGTTTCGATGGAGTCTT
GACCCTGAATGGGAAGAAAAATTAACTCCCGCTGGGCCTCTTTGCCCTCTTAATTTAAAG
TTAAAATTTAACGAGAATATAATGGAATAAATGAGTAAAGGAGAAGAACTTTTCACTGGA
GTGGTCCCAGTTCTTGTTGAATTAGATGGCGATGTTAATGGGCAAAAATTCTCTGTCAGT
GGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAATTTTATTTGCACTACT
GGGAAGCTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGC
TTCTCAAGATACCCAGATCATATGAAACAGCATGACTTTTTCAAGAGTGCCATGCCCGAA
GGTTATGTACAGGAAAGAACTATATTTTACAAAGATGACGGGAACTACAAGACACGTGCT
GAAGTCAAGTTTGAAGGTGATACCCTTGTTAATAGAATCGAGTTAAAAGGTATTGATTTT
AAAGAAGATGGAAACATTCTTGGACACAAAATGGAATACAACTATAACTCACATAATGTA
TACATCATGGGAGACAAACCAAAGAATGGCATCAAAGTTAACTTCAAAATTAGACACAAC
ATTAAAGATGGAAGCGTTCAATTAGCAGACCATTATCAACAAAATACTCCAATTGGCGAT
GGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCCAAAGAT
CCCAACGAAAAGAGAGATCACATGATCCTTCTTGAGTTTGTAACAGCTGCTAGGATTACA
CATGGCATGGATGAACTATACAAA
>Fusion_protein_klon2
ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT
GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA
GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG
GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC
GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC
GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT
AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT
TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA
CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT
AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT
TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT
CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT
TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA
CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC
AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG
CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC
AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT
AGTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGAT
GTTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAA
CTTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTC
ACTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCAT
GACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAA
GATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAAT
AGAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATG
GAATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATC
AAAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCAT
TATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTG
TCCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTT
GAGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA
>Fusion_protein_klon3
ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT
GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA
GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG
GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC
GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC
GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT
AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT
TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA
CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT
AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT
TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT
CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT
TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA
CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC
AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG
CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC
AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT
GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT
ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGA
GTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGATG
TTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAAC
TTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTCA
CTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCATG
ACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAAG
ATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAATA
GAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATGG
AATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATCA
AAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCATT
ATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGT
CCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTTG
AGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA
(T¾ller 25% af
s¾ttet)
Opgave 2A:
1CDE (212 aminosyrer langt) er et E.coli protein som indgŒr i nukleotidsyntesen.
ZP_01707724.1 (214 aminosyrer langt) er det homologe protein fra bakterien Shewanella
putrefaciens. De
indeholder begge et enkelt dom¾ne.
1. Lav en parvis alignment af de to proteiner og inds¾t alignmentet her.
2. Hvad er alignment score?
3. Hvor mange gap positioner er der i alignmentet?
4. Giver det mest mening at anvende globalt eller lokal alignment?
5. Hvad er alignment score hvis matricen ¾ndres til BLOSUM40? Hvorfor er
den anderledes end med BLOSUM62?
>1CDE
MNIVVLISGNGSNLQAIIDACKTNKIKGTVRAVFSNKADAFGLERARQAGIATHTLIASAFDSREAYDRE
LIHEIDMYAPDVVVLAGFMRILSPAFVSHYAGRLLNIHPSLLPKYPGLHTHRQALENGDEEHGTSVHFVT
DELDGGPVILQAKVPVFAGDSEDDITARVQTQEHAIYPLVISWFADGRLKMHENAAWLDGQRLPPQGYAA
DE
>ZP_01707724.1
MPQRCRVVVLISGNGSNLQAIIDGCDDNLQAEVVGVISNKPDAYGLVRAHYNEIDTSCVIAHQGESRSEY
DARLIAVIEQYQPDLIVLAGFMRILTDDLVNRYLGRIINIHPSLLPKYTGLNTHQRAIDANDNEHGASVH
FVTPELDAGPVILQAKVPVYEDDTADMLAARVHEQEHAIYPLVVKWFSQQRLNMQNGQAYLDGNLIGPSG
YAPD
Opgave 2B:
PUR2_HUMAN (1010
aminosyrer langt) er et protein som spiller en rolle i nukleotidsyntesen i
mennesker. Det indeholder tre dom¾ner med separate funktioner. Det ene dom¾ne
er besl¾gtet med E.coli proteinet 1CDE.
1. Lav en parvis
alignment af de to proteiner og inds¾t alignmentet her.
2. Hvor langt er
alignmentet
3. Hvad er
alignment score?
4. Hvor mange gap
positioner er der i alignmentet?
5. Giver det mest
mening at anvende globalt eller lokal alignment?
>PUR2_HUMAN
MAARVLIIGSGGREHTLAWKLAQSHHVKQVLVAPGNAGTACSEKISNTAISISDHTALAQFCKEKKIEFV
VVGPEAPLAAGIVGNLRSAGVQCFGPTAEAAQLESSKRFAKEFMDRHGIPTAQWKAFTKPEEACSFILSA
DFPALVVKASGLAAGKGVIVAKSKEEACKAVQEIMQEKAFGAAGETIVIEELLDGEEVSCLCFTDGKTVA
PMPPAQDHKRLLEGDGGPNTGGMGAYCPAPQVSNDLLLKIKDTVLQRTVDGMQQEGTPYTGILYAGIMLT
KNGPKVLEFNCRFGDPECQVILPLLKSDLYEVIQSTLDGLLCTSLPVWLENHTALTVVMASKGYPGDYTK
GVEITGFPEAQALGLEVFHAGTALKNGKVVTHGGRVLAVTAIRENLISALEEAKKGLAAIKFEGAIYRKD
VGFRAIAFLQQPRSLTYKESGVDIAAGNMLVKKIQPLAKATSRSGCKVDLGGFAGLFDLKAAGFKDPLLA
SGTDGVGTKLKIAQLCNKHDTIGQDLVAMCVNDILAQGAEPLFFLDYFSCGKLDLSVTEAVVAGIAKACG
KAGCALLGGETAEMPDMYPPGEYDLAGFAVGAMERDQKLPHLERITEGDVVVGIASSGLHSNGFSLVRKI
VAKSSLQYSSPAPDGCGDQTLGDLLLTPTRIYSHSLLPVLRSGHVKAFAHITGGGLLENIPRVLPEKLGV
DLDAQTWRIPRVFSWLQQEGHLSEEEMARTFNCGVGAVLVVSKEQTEQILRDIQQHKEEAWVIGSVVARA
EGSPRVKVKNLIESMQINGSVLKNGSLTNHFSFEKKKARVAVLISGTGSNLQALIDSTREPNSSAQIDIV
ISNKAAVAGLDKAERAGIPTRVINHKLYKNRVEFDSAIDLVLEEFSIDIVCLAGFMRILSGPFVQKWNGK
MLNIHPSLLPSFKGSNAHEQALETGVTVTGCTVHFVAEDVDAGQIILQEAVPVKRGDTVATLSERVKLAE
HKIFPAALQLVASGTVQLGENGKICWVKEE
Opgave 2C:
Her er et s¾t af
Glyceraldehyde 3-phosphate dehydrogenaser (GAPDH, proteiner som er involveret i
glycolysen) fra en r¾kke forskellige organismer.
1. Lav et mutiple
alignment af sekvenserne og inds¾t resultatet her.
2. Hvad er den
l¾ngste fuldst¾ndigt konserverede blok af aminosyrer?
3. Vil du tro at
det aktive site i proteinet er st¾rkt konserveret mellem de forskellige
proteiner eller at det er forskelligt?
4. T¾t pŒ den
C-terminale ende af proteinet NP_032110 er der en Arginin ("R",
specifikt den arginin som er i f¿lgende kontekst: YSNRVVD). Hvilken aminosyre
er den alignet med i proteinet AAC43271? Er det rimeligt?
>NP_032110
MVKVGVNGFGRIGRLVTRAAICSGKVEIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA
ENGKLVINGKPITIFQERDPTNIKWGEAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS
APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT
ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV
VDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA
LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE
>AAA41193
MVKVGVNGFGRIGRLVTRAAFSCDKVDIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA
ENGKLVINGKPITIFQERDPANIKWGDAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS
APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT
ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV
VDLTCRLEKPAKYDDIKKVVKQAAEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA
LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE
>AAA52518
MGKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV
KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI
ISAPSADAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHA
ITATQKTVDGPSGKLWRDGRGALQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTANV
SVVDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEHQVVSSDFNSDTHSSTFDAGAG
IALNDHFVKLISWYDNEFGYSNRVVDLMAHMASKE
>BAB62189
MVKVGVNGFGRIGRLVTRAAFHSKKGVEIVAINDPFIDLDYMVYMFKYDSTHGRFHGEVK
AEGGKLVIDGHKITVFHERDPANIKWGDAGATYVVESTGVFTTIEKASTHLKGGAKRVVI
SAPSADAPMFVMGVNHEKYENSLKVVSNASCTTNCLAPLAKVIHDNYHIIEGLMSTVHAV
TATQKTVDGPSGKLWRDGRGASQNIIPASTGAAKAVGKVIPELNGKITGMAFRVPTPNVS
VVDLTVRLEKPASYDAIKKVVKAAADGPMKGILGYTEQQVVSSDFNGDTHSSIFDAGAGI
ALNDHFVKLVTWYDNEFGYSNRVIDLMAHMATKE
>DEKWG3
MTKPSVGINGFGRIGRLVLRAAVEKDSVNVVAVNDPFISIDYMVYLFQYDSTHGRFKGTV
AHEGDYLLVAKEGKSQHKIKVYNSRDPAEIQWGASGADYVVESTGVFTTIEKANAHLKGG
AKKVIISAPSADAPMFVVGVNHEKYDHANDHIISNASCTTNCLAPLAKVINDNFGIIEGL
MTTVHAVTATQKTVDGPSGKLWRDGRGAGQNIIPASTGAAKAVGKVIPELNGKLTGMAFR
VPTPDVSVVDLTARLEKPASLDDIKKVIKAAADGPMKGILAYTEDQVVSTDFVSDTNSSI
FDAGASISLNPHFVKLVSWYDNEFGYSNRVVDLISYIATKA
>DEUSGM
MSQVNIGINGFGRIGRIVFRNSVVHNTANVVAINDPFIDLEYMVYMLKYDSTHGVFNGDI
STKDGKLIVNGKSIAVFAEKDPSNIPWGQAGAHYVVESTGVFTTIDKASAHIKGGAKKVV
ISAPSADAPMYVCGVNLDAYDPKAQVVSNASCTTNCLAPLAKVIHDKFGIVEGLMTTVHA
TTATQKTVDGPSAKDWRGGRAAAANIIPSSTGAAKRVGKVIPSLNGKLTGMAFRVPTTNV
SVVDLTARLEKGASYDEIKAEVKRASENELKGILGYTEDAVVSQDFIGNSHSSIFDAAAG
ISLNNNFVKLVSWYDNEWGYSNRCLDLLVFMAQKDSA
>CAC80377
MAFSSLLKPTASLVRPSHRSQASCVGLQHSSNSVKLQSAIFGDVVSIAQSSSLQNSGACS
IQPIRATATELPPTVPKSQTGGKTRVGINGFGRIGRLVLRIATFRDDIEVVAVNDPFIDA
KYMAYMLKYDSTHGVFRGSISVLDDTTLEINGKQIKVSSKRDPADIPWGDLGADYVVESS
GIFTTVDRASGHKKGGAKKVVISAPSADAPMFVVGVNEKTYKANMDVVSNASCTTNCLAP
LAKVVHEEFGIVEGLMTTVHATTATQKTVDGPSMKDWRGGRGAGQNIIPSSTGAAKAVGK
VLPELNGKLTGMAFRVPTPNVSVVDLTCRLNKSASYDDVKAAIKYASEGPLKGILGYTNE
DVVSNDFVGDSRSSIFDAKAGIGLSKSFMKLVSWYDNEWGYSTRVLDLIEHMALVAATS
>AAC43271
FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIVNG
KKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKDNTPM
FVKGANFDKYAGQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVHATTATQKTVDGP
SHKDWRGGRGASQNIIPSSTGAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEK
AATYEQIKAAVKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV
SWYDNETGYSNK
(T¾ller 25% af
s¾ttet)
Opgave 3A:
Psi-BLAST
1) Hvad er protein sekvensen (i FASTA format)
for NP_858430.1 (s¿g
pŒ NCBIs hjemmeside)?
Brug Psi-Blast til at finde en homolog PDB struktur (med homolog forstŒs
her en sekvens med en signifikant E v¾rdi)
2) Hvor mange Blast iterationer skal du k¿re
for at finde en PDB struktur med en signifikant E v¾rdi?
3) Hvad er navnet pŒ den homologe PDB
struktur, og hvad er E-v¾rdien for hittet?
Opgave 3B:
LogoÕer og v¾gt matricer
Nedenfor er
angivet en multiple alignment af et s¾t peptider, der binding MHC.
KPSEPGGVL
SPALPGLKL
SPKLPVSSL
KPSLPFTSL
1) Udregn de rŒ aminosyre frekvenser pŒ
position 1 og 2 (se bort fra pseudo counts og sekvens v¾gtning)
2) Benyt relationen for udregning af
aminosyre frekvenser ud fra de observerede frekvenser og pseudo frekvenser til
at udregne v¾gt matrice (log-odds) v¾rdierne for E og V pŒ position P1. S¾t b=3, og se bort fra sekvens v¾gtning.