Prøveeksamenssæt 2008
Indeholder 3 opgaver = 75% af et fuldt eksamenssæt, dvs. at man bør kunne løse det på max 3 timer.
Diverse tabeller og links til de web-baserede værktøjer, vi har benyttet på kurset, findes på Link-siden
.(Tæller 25% af sættet).
Du har som nyuddannet bioinformatiker fået til opgave at hjælpe den kendte, men desværre meget glemsomme, russiske forsker Sumsar Nossrenrow, med hans eksperimentelle arbejde. Den glemsomme herre har i laboratoriet syntetiseret og klonet DNA´et der koder for et fusions-protein: Altså et protein der er sat sammen af to forskellige proteiner – typisk et protein man gerne vil undersøge og et andet protein der fungerer som rapporter (dvs. at det har en funktion man kan teste med et assay – dette kunne fx. være Luciferase fra ildfluen, der katalyserer en kemisk reaktion der udsender lys, eller beta-galactosidase fra E. coli der kan detekteres på en X-Gal plade). Nedenstående er det genetiske konstrukt skematisk vist – bemærk at Gen X og Gen Y er sat sammen med tilfældig sammensplejsning.

Desværre har professor Nossrenrow glemt hvilke to gener han har klonet, og hvilken organisme han arbejder med, så vidt han husker var det dog ikke et dyr – i det mindste ikke noget stort dyr. Derfor har han nu sekventeret det klonede fragment (fra tre forskellige kloner – se næste side), og det er din opgave at finde frem til hvilke gener der er tale om, samt hvad det egentligt var forsøget gik ud på.
Svar på følgende – og argumenter for dit valg af værktøjer og resultater undervejs. Dokumenter dine svar med referencer til de relevante sekvenser:
>Fusion_protein_klon1 ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGG TACAACAACTTTGGAACCTCACACGATCCCAAAACTTGGGGCACAACAGCAGATGATTTT AAACCAGAAAGATGGGGTTCAGATATCGAAACCATAAGGAAAAACTGGAGAATGGCGAAA AACAGATGTGCTGTGACTGGGTTCCATGGAGGCCGAAGAGCATGCCTAGGGGAAAAACTA GCCCTAACAGAAATGAGAATTTCTTTGGCTGAAATGTTGAAACAGTTTCGATGGAGTCTT GACCCTGAATGGGAAGAAAAATTAACTCCCGCTGGGCCTCTTTGCCCTCTTAATTTAAAG TTAAAATTTAACGAGAATATAATGGAATAAATGAGTAAAGGAGAAGAACTTTTCACTGGA GTGGTCCCAGTTCTTGTTGAATTAGATGGCGATGTTAATGGGCAAAAATTCTCTGTCAGT GGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAATTTTATTTGCACTACT GGGAAGCTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGC TTCTCAAGATACCCAGATCATATGAAACAGCATGACTTTTTCAAGAGTGCCATGCCCGAA GGTTATGTACAGGAAAGAACTATATTTTACAAAGATGACGGGAACTACAAGACACGTGCT GAAGTCAAGTTTGAAGGTGATACCCTTGTTAATAGAATCGAGTTAAAAGGTATTGATTTT AAAGAAGATGGAAACATTCTTGGACACAAAATGGAATACAACTATAACTCACATAATGTA TACATCATGGGAGACAAACCAAAGAATGGCATCAAAGTTAACTTCAAAATTAGACACAAC ATTAAAGATGGAAGCGTTCAATTAGCAGACCATTATCAACAAAATACTCCAATTGGCGAT GGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCCAAAGAT CCCAACGAAAAGAGAGATCACATGATCCTTCTTGAGTTTGTAACAGCTGCTAGGATTACA CATGGCATGGATGAACTATACAAA >Fusion_protein_klon2 ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT AGTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGAT GTTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAA CTTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTC ACTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCAT GACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAA GATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAAT AGAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATG GAATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATC AAAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCAT TATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTG TCCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTT GAGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA >Fusion_protein_klon3 ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGA GTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGATG TTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAAC TTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTCA CTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCATG ACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAAG ATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAATA GAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATGG AATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATCA AAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCATT ATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGT CCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTTG AGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA
(Tæller 25% af sættet)
1CDE (212 aminosyrer langt) er et E. coli protein som indgår i nukleotidsyntesen. ZP_01707724.1 (214 aminosyrer langt) er det homologe protein fra bakterien Shewanella putrefaciens. De indeholder begge et enkelt domæne.
1. Lav et parvis alignment af de to proteiner og indsæt alignmentet her.
2. Hvad er alignment score?
3. Hvor mange gap positioner er der i alignmentet?
4. Giver det mest mening at anvende globalt eller lokal alignment?
5. Hvad er alignment score hvis matricen ændres til BLOSUM40? Hvorfor er den anderledes end med BLOSUM62?
>1CDE MNIVVLISGNGSNLQAIIDACKTNKIKGTVRAVFSNKADAFGLERARQAGIATHTLIASAFDSREAYDRE LIHEIDMYAPDVVVLAGFMRILSPAFVSHYAGRLLNIHPSLLPKYPGLHTHRQALENGDEEHGTSVHFVT DELDGGPVILQAKVPVFAGDSEDDITARVQTQEHAIYPLVISWFADGRLKMHENAAWLDGQRLPPQGYAA DE >ZP_01707724.1 MPQRCRVVVLISGNGSNLQAIIDGCDDNLQAEVVGVISNKPDAYGLVRAHYNEIDTSCVIAHQGESRSEY DARLIAVIEQYQPDLIVLAGFMRILTDDLVNRYLGRIINIHPSLLPKYTGLNTHQRAIDANDNEHGASVH FVTPELDAGPVILQAKVPVYEDDTADMLAARVHEQEHAIYPLVVKWFSQQRLNMQNGQAYLDGNLIGPSG YAPD
PUR2_HUMAN (1010 aminosyrer langt) er et protein som spiller en rolle i nukleotidsyntesen i mennesker. Det indeholder tre domæner med separate funktioner. Det ene domæne er beslægtet med E. coli proteinet 1CDE.
1. Lav et parvis alignment af de to proteiner og indsæt alignmentet her.
2. Hvor langt er alignmentet
3. Hvad er alignment score?
4. Hvor mange gap positioner er der i alignmentet?
5. Giver det mest mening at anvende globalt eller lokal alignment?
>PUR2_HUMAN MAARVLIIGSGGREHTLAWKLAQSHHVKQVLVAPGNAGTACSEKISNTAISISDHTALAQFCKEKKIEFV VVGPEAPLAAGIVGNLRSAGVQCFGPTAEAAQLESSKRFAKEFMDRHGIPTAQWKAFTKPEEACSFILSA DFPALVVKASGLAAGKGVIVAKSKEEACKAVQEIMQEKAFGAAGETIVIEELLDGEEVSCLCFTDGKTVA PMPPAQDHKRLLEGDGGPNTGGMGAYCPAPQVSNDLLLKIKDTVLQRTVDGMQQEGTPYTGILYAGIMLT KNGPKVLEFNCRFGDPECQVILPLLKSDLYEVIQSTLDGLLCTSLPVWLENHTALTVVMASKGYPGDYTK GVEITGFPEAQALGLEVFHAGTALKNGKVVTHGGRVLAVTAIRENLISALEEAKKGLAAIKFEGAIYRKD VGFRAIAFLQQPRSLTYKESGVDIAAGNMLVKKIQPLAKATSRSGCKVDLGGFAGLFDLKAAGFKDPLLA SGTDGVGTKLKIAQLCNKHDTIGQDLVAMCVNDILAQGAEPLFFLDYFSCGKLDLSVTEAVVAGIAKACG KAGCALLGGETAEMPDMYPPGEYDLAGFAVGAMERDQKLPHLERITEGDVVVGIASSGLHSNGFSLVRKI VAKSSLQYSSPAPDGCGDQTLGDLLLTPTRIYSHSLLPVLRSGHVKAFAHITGGGLLENIPRVLPEKLGV DLDAQTWRIPRVFSWLQQEGHLSEEEMARTFNCGVGAVLVVSKEQTEQILRDIQQHKEEAWVIGSVVARA EGSPRVKVKNLIESMQINGSVLKNGSLTNHFSFEKKKARVAVLISGTGSNLQALIDSTREPNSSAQIDIV ISNKAAVAGLDKAERAGIPTRVINHKLYKNRVEFDSAIDLVLEEFSIDIVCLAGFMRILSGPFVQKWNGK MLNIHPSLLPSFKGSNAHEQALETGVTVTGCTVHFVAEDVDAGQIILQEAVPVKRGDTVATLSERVKLAE HKIFPAALQLVASGTVQLGENGKICWVKEE
Her er et sæt af Glyceraldehyde 3-phosphate dehydrogenaser (GAPDH, proteiner som er involveret i glycolysen) fra en række forskellige organismer.
1. Lav et mutiple alignment af sekvenserne og indsæt resultatet her.
2. Hvad er den længste fuldstændigt konserverede blok af aminosyrer?
3. Vil du tro at det aktive site i proteinet er stærkt konserveret mellem de forskellige proteiner eller at det er forskelligt?
4. Tæt på den C-terminale ende af proteinet NP_032110 er der en Arginin ("R", specifikt den arginin som er i følgende kontekst: YSNRVVD). Hvilken aminosyre er den alignet med i proteinet AAC43271? Er det rimeligt?
>NP_032110 MVKVGVNGFGRIGRLVTRAAICSGKVEIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA ENGKLVINGKPITIFQERDPTNIKWGEAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV VDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE >AAA41193 MVKVGVNGFGRIGRLVTRAAFSCDKVDIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA ENGKLVINGKPITIFQERDPANIKWGDAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV VDLTCRLEKPAKYDDIKKVVKQAAEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE >AAA52518 MGKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI ISAPSADAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHA ITATQKTVDGPSGKLWRDGRGALQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTANV SVVDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEHQVVSSDFNSDTHSSTFDAGAG IALNDHFVKLISWYDNEFGYSNRVVDLMAHMASKE >BAB62189 MVKVGVNGFGRIGRLVTRAAFHSKKGVEIVAINDPFIDLDYMVYMFKYDSTHGRFHGEVK AEGGKLVIDGHKITVFHERDPANIKWGDAGATYVVESTGVFTTIEKASTHLKGGAKRVVI SAPSADAPMFVMGVNHEKYENSLKVVSNASCTTNCLAPLAKVIHDNYHIIEGLMSTVHAV TATQKTVDGPSGKLWRDGRGASQNIIPASTGAAKAVGKVIPELNGKITGMAFRVPTPNVS VVDLTVRLEKPASYDAIKKVVKAAADGPMKGILGYTEQQVVSSDFNGDTHSSIFDAGAGI ALNDHFVKLVTWYDNEFGYSNRVIDLMAHMATKE >DEKWG3 MTKPSVGINGFGRIGRLVLRAAVEKDSVNVVAVNDPFISIDYMVYLFQYDSTHGRFKGTV AHEGDYLLVAKEGKSQHKIKVYNSRDPAEIQWGASGADYVVESTGVFTTIEKANAHLKGG AKKVIISAPSADAPMFVVGVNHEKYDHANDHIISNASCTTNCLAPLAKVINDNFGIIEGL MTTVHAVTATQKTVDGPSGKLWRDGRGAGQNIIPASTGAAKAVGKVIPELNGKLTGMAFR VPTPDVSVVDLTARLEKPASLDDIKKVIKAAADGPMKGILAYTEDQVVSTDFVSDTNSSI FDAGASISLNPHFVKLVSWYDNEFGYSNRVVDLISYIATKA >DEUSGM MSQVNIGINGFGRIGRIVFRNSVVHNTANVVAINDPFIDLEYMVYMLKYDSTHGVFNGDI STKDGKLIVNGKSIAVFAEKDPSNIPWGQAGAHYVVESTGVFTTIDKASAHIKGGAKKVV ISAPSADAPMYVCGVNLDAYDPKAQVVSNASCTTNCLAPLAKVIHDKFGIVEGLMTTVHA TTATQKTVDGPSAKDWRGGRAAAANIIPSSTGAAKRVGKVIPSLNGKLTGMAFRVPTTNV SVVDLTARLEKGASYDEIKAEVKRASENELKGILGYTEDAVVSQDFIGNSHSSIFDAAAG ISLNNNFVKLVSWYDNEWGYSNRCLDLLVFMAQKDSA >CAC80377 MAFSSLLKPTASLVRPSHRSQASCVGLQHSSNSVKLQSAIFGDVVSIAQSSSLQNSGACS IQPIRATATELPPTVPKSQTGGKTRVGINGFGRIGRLVLRIATFRDDIEVVAVNDPFIDA KYMAYMLKYDSTHGVFRGSISVLDDTTLEINGKQIKVSSKRDPADIPWGDLGADYVVESS GIFTTVDRASGHKKGGAKKVVISAPSADAPMFVVGVNEKTYKANMDVVSNASCTTNCLAP LAKVVHEEFGIVEGLMTTVHATTATQKTVDGPSMKDWRGGRGAGQNIIPSSTGAAKAVGK VLPELNGKLTGMAFRVPTPNVSVVDLTCRLNKSASYDDVKAAIKYASEGPLKGILGYTNE DVVSNDFVGDSRSSIFDAKAGIGLSKSFMKLVSWYDNEWGYSTRVLDLIEHMALVAATS >AAC43271 FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIVNG KKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKDNTPM FVKGANFDKYAGQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVHATTATQKTVDGP SHKDWRGGRGASQNIIPSSTGAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEK AATYEQIKAAVKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV SWYDNETGYSNK
(Tæller 25% af sættet)
1) Hvad er proteinsekvensen (i FASTA format)
for NP_858430.1 (søg
på NCBIs hjemmeside)?
Brug Psi-Blast til at finde en homolog PDB struktur (med homolog forstås her en sekvens med en signifikant E værdi)
2) Hvor mange Blast iterationer skal du køre for at finde en PDB struktur med en signifikant E værdi?
3) Hvad er navnet på den homologe PDB struktur, og hvad er E-værdien for hittet?
Nedenfor er angivet et multiple alignment af et sæt peptider, der binder MHC.
KPSEPGGVL SPALPGLKL SPKLPVSSL KPSLPFTSL
1) Udregn de rå aminosyrefrekvenser på position 1 og 2 (se bort fra pseudo counts og sekvensvægtning)
2) Benyt relationen for udregning af aminosyrefrekvenser ud fra de observerede frekvenser og pseudofrekvenser til at udregne vægtmatrice (log-odds) værdierne for E og V på position P1. Sæt β=3, og se bort fra sekvensvægtning.