Prøveeksamenssæt 2008

Indeholder 3 opgaver = 75% af et fuldt eksamenssæt, dvs. at man bør kunne løse det på max 3 timer.

Diverse tabeller og links til de web-baserede værktøjer, vi har benyttet på kurset, findes på Link-siden

.

Opgave 1: Genidentifikation

(Tæller 25% af sættet).

Du har som nyuddannet bioinformatiker fået til opgave at hjælpe den kendte, men desværre meget glemsomme, russiske forsker Sumsar Nossrenrow, med hans eksperimentelle arbejde. Den glemsomme herre har i laboratoriet syntetiseret og klonet DNA´et der koder for et fusions-protein: Altså et protein der er sat sammen af to forskellige proteiner – typisk et protein man gerne vil undersøge og et andet protein der fungerer som rapporter (dvs. at det har en funktion man kan teste med et assay – dette kunne fx. være Luciferase fra ildfluen, der katalyserer en kemisk reaktion der udsender lys, eller beta-galactosidase fra E. coli der kan detekteres på en X-Gal plade). Nedenstående er det genetiske konstrukt skematisk vist – bemærk at Gen X og Gen Y er sat sammen med tilfældig sammensplejsning.

Desværre har professor Nossrenrow glemt hvilke to gener han har klonet, og hvilken organisme han arbejder med, så vidt han husker var det dog ikke et dyr – i det mindste ikke noget stort dyr. Derfor har han nu sekventeret det klonede fragment (fra tre forskellige kloner – se næste side), og det er din opgave at finde frem til hvilke gener der er tale om, samt hvad det egentligt var forsøget gik ud på.

Svar på følgende – og argumenter for dit valg af værktøjer og resultater undervejs. Dokumenter dine svar med referencer til de relevante sekvenser:

  1. Hvad koder Gen X og Gen Y for?
  2. Fra hvilke organismer kommer Gen X og Gen Y?
    1. Hvad er deres TaxIDs?
    2. Hvad er deres taxonomiske placering på følgende niveauer: Rige ("Kingdom"), Klasse ("Class") og Orden ("Order")?
  3. Er det Gen X eller Gen Y der er rapporter-genet?
  4. Hvilken organisme vil du regne med at forsøgene udføres i?
  5. Hvilken proces i denne organismes livscyklus blev sandsynligvis undersøgt i forsøget?
  6. Det viser sig at kun den ene af de tre kloner faktisk virker – de to andre giver ikke noget udslag i assayet. Northern blots viser at mRNA fra klonen i alle tre tilfælde faktisk er tilstede i cellen.
    1. Find ud af hvilken klon der virker, og hvorfor de to andre ikke virker.
>Fusion_protein_klon1
ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT
GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA
GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG
GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC
GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC
GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT
AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT
TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA
CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT
AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT
TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT
CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT
TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA
CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC
AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG
CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC
AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT
GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT
ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGG
TACAACAACTTTGGAACCTCACACGATCCCAAAACTTGGGGCACAACAGCAGATGATTTT
AAACCAGAAAGATGGGGTTCAGATATCGAAACCATAAGGAAAAACTGGAGAATGGCGAAA
AACAGATGTGCTGTGACTGGGTTCCATGGAGGCCGAAGAGCATGCCTAGGGGAAAAACTA
GCCCTAACAGAAATGAGAATTTCTTTGGCTGAAATGTTGAAACAGTTTCGATGGAGTCTT
GACCCTGAATGGGAAGAAAAATTAACTCCCGCTGGGCCTCTTTGCCCTCTTAATTTAAAG
TTAAAATTTAACGAGAATATAATGGAATAAATGAGTAAAGGAGAAGAACTTTTCACTGGA
GTGGTCCCAGTTCTTGTTGAATTAGATGGCGATGTTAATGGGCAAAAATTCTCTGTCAGT
GGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAATTTTATTTGCACTACT
GGGAAGCTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGC
TTCTCAAGATACCCAGATCATATGAAACAGCATGACTTTTTCAAGAGTGCCATGCCCGAA
GGTTATGTACAGGAAAGAACTATATTTTACAAAGATGACGGGAACTACAAGACACGTGCT
GAAGTCAAGTTTGAAGGTGATACCCTTGTTAATAGAATCGAGTTAAAAGGTATTGATTTT
AAAGAAGATGGAAACATTCTTGGACACAAAATGGAATACAACTATAACTCACATAATGTA
TACATCATGGGAGACAAACCAAAGAATGGCATCAAAGTTAACTTCAAAATTAGACACAAC
ATTAAAGATGGAAGCGTTCAATTAGCAGACCATTATCAACAAAATACTCCAATTGGCGAT
GGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCCAAAGAT
CCCAACGAAAAGAGAGATCACATGATCCTTCTTGAGTTTGTAACAGCTGCTAGGATTACA
CATGGCATGGATGAACTATACAAA                  
>Fusion_protein_klon2                  
ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT
GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA
GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG
GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC
GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC
GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT
AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT
TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA
CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT
AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT
TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT
CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT
TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA
CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC
AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG
CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC
AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT
AGTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGAT
GTTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAA
CTTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTC
ACTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCAT
GACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAA
GATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAAT
AGAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATG
GAATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATC
AAAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCAT
TATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTG
TCCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTT
GAGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA
>Fusion_protein_klon3
ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT
GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA
GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG
GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC
GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC
GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT
AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT
TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA
CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT
AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT
TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT
CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT
TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA
CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC
AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG
CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC
AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT
GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT
ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGA
GTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGATG
TTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAAC
TTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTCA
CTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCATG
ACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAAG
ATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAATA
GAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATGG
AATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATCA
AAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCATT
ATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGT
CCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTTG
AGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA

Opgave 2: Sammenligning af protein-sekvenser

(Tæller 25% af sættet)

Opgave 2A:

1CDE (212 aminosyrer langt) er et E. coli protein som indgår i nukleotidsyntesen. ZP_01707724.1 (214 aminosyrer langt) er det homologe protein fra bakterien Shewanella putrefaciens. De indeholder begge et enkelt domæne.

1. Lav et parvis alignment af de to proteiner og indsæt alignmentet her.

2. Hvad er alignment score?

3. Hvor mange gap positioner er der i alignmentet?

4. Giver det mest mening at anvende globalt eller lokal alignment?

5. Hvad er alignment score hvis matricen ændres til BLOSUM40? Hvorfor er den anderledes end med BLOSUM62?

>1CDE
MNIVVLISGNGSNLQAIIDACKTNKIKGTVRAVFSNKADAFGLERARQAGIATHTLIASAFDSREAYDRE
LIHEIDMYAPDVVVLAGFMRILSPAFVSHYAGRLLNIHPSLLPKYPGLHTHRQALENGDEEHGTSVHFVT
DELDGGPVILQAKVPVFAGDSEDDITARVQTQEHAIYPLVISWFADGRLKMHENAAWLDGQRLPPQGYAA
DE
>ZP_01707724.1
MPQRCRVVVLISGNGSNLQAIIDGCDDNLQAEVVGVISNKPDAYGLVRAHYNEIDTSCVIAHQGESRSEY
DARLIAVIEQYQPDLIVLAGFMRILTDDLVNRYLGRIINIHPSLLPKYTGLNTHQRAIDANDNEHGASVH
FVTPELDAGPVILQAKVPVYEDDTADMLAARVHEQEHAIYPLVVKWFSQQRLNMQNGQAYLDGNLIGPSG
YAPD

Opgave 2B:

PUR2_HUMAN (1010 aminosyrer langt) er et protein som spiller en rolle i nukleotidsyntesen i mennesker. Det indeholder tre domæner med separate funktioner. Det ene domæne er beslægtet med E. coli proteinet 1CDE.

1. Lav et parvis alignment af de to proteiner og indsæt alignmentet her.

2. Hvor langt er alignmentet

3. Hvad er alignment score?

4. Hvor mange gap positioner er der i alignmentet?

5. Giver det mest mening at anvende globalt eller lokal alignment?

>PUR2_HUMAN
MAARVLIIGSGGREHTLAWKLAQSHHVKQVLVAPGNAGTACSEKISNTAISISDHTALAQFCKEKKIEFV
VVGPEAPLAAGIVGNLRSAGVQCFGPTAEAAQLESSKRFAKEFMDRHGIPTAQWKAFTKPEEACSFILSA
DFPALVVKASGLAAGKGVIVAKSKEEACKAVQEIMQEKAFGAAGETIVIEELLDGEEVSCLCFTDGKTVA
PMPPAQDHKRLLEGDGGPNTGGMGAYCPAPQVSNDLLLKIKDTVLQRTVDGMQQEGTPYTGILYAGIMLT
KNGPKVLEFNCRFGDPECQVILPLLKSDLYEVIQSTLDGLLCTSLPVWLENHTALTVVMASKGYPGDYTK
GVEITGFPEAQALGLEVFHAGTALKNGKVVTHGGRVLAVTAIRENLISALEEAKKGLAAIKFEGAIYRKD
VGFRAIAFLQQPRSLTYKESGVDIAAGNMLVKKIQPLAKATSRSGCKVDLGGFAGLFDLKAAGFKDPLLA
SGTDGVGTKLKIAQLCNKHDTIGQDLVAMCVNDILAQGAEPLFFLDYFSCGKLDLSVTEAVVAGIAKACG
KAGCALLGGETAEMPDMYPPGEYDLAGFAVGAMERDQKLPHLERITEGDVVVGIASSGLHSNGFSLVRKI
VAKSSLQYSSPAPDGCGDQTLGDLLLTPTRIYSHSLLPVLRSGHVKAFAHITGGGLLENIPRVLPEKLGV
DLDAQTWRIPRVFSWLQQEGHLSEEEMARTFNCGVGAVLVVSKEQTEQILRDIQQHKEEAWVIGSVVARA
EGSPRVKVKNLIESMQINGSVLKNGSLTNHFSFEKKKARVAVLISGTGSNLQALIDSTREPNSSAQIDIV
ISNKAAVAGLDKAERAGIPTRVINHKLYKNRVEFDSAIDLVLEEFSIDIVCLAGFMRILSGPFVQKWNGK
MLNIHPSLLPSFKGSNAHEQALETGVTVTGCTVHFVAEDVDAGQIILQEAVPVKRGDTVATLSERVKLAE
HKIFPAALQLVASGTVQLGENGKICWVKEE

Opgave 2C:

Her er et sæt af Glyceraldehyde 3-phosphate dehydrogenaser (GAPDH, proteiner som er involveret i glycolysen) fra en række forskellige organismer.

1. Lav et mutiple alignment af sekvenserne og indsæt resultatet her.

2. Hvad er den længste fuldstændigt konserverede blok af aminosyrer?

3. Vil du tro at det aktive site i proteinet er stærkt konserveret mellem de forskellige proteiner eller at det er forskelligt?

4. Tæt på den C-terminale ende af proteinet NP_032110 er der en Arginin ("R", specifikt den arginin som er i følgende kontekst: YSNRVVD). Hvilken aminosyre er den alignet med i proteinet AAC43271? Er det rimeligt?

>NP_032110
MVKVGVNGFGRIGRLVTRAAICSGKVEIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA
ENGKLVINGKPITIFQERDPTNIKWGEAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS
APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT
ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV
VDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA
LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE
>AAA41193
MVKVGVNGFGRIGRLVTRAAFSCDKVDIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA
ENGKLVINGKPITIFQERDPANIKWGDAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS
APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT
ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV
VDLTCRLEKPAKYDDIKKVVKQAAEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA
LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE
>AAA52518
MGKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV
KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI
ISAPSADAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHA
ITATQKTVDGPSGKLWRDGRGALQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTANV
SVVDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEHQVVSSDFNSDTHSSTFDAGAG
IALNDHFVKLISWYDNEFGYSNRVVDLMAHMASKE
>BAB62189
MVKVGVNGFGRIGRLVTRAAFHSKKGVEIVAINDPFIDLDYMVYMFKYDSTHGRFHGEVK
AEGGKLVIDGHKITVFHERDPANIKWGDAGATYVVESTGVFTTIEKASTHLKGGAKRVVI
SAPSADAPMFVMGVNHEKYENSLKVVSNASCTTNCLAPLAKVIHDNYHIIEGLMSTVHAV
TATQKTVDGPSGKLWRDGRGASQNIIPASTGAAKAVGKVIPELNGKITGMAFRVPTPNVS
VVDLTVRLEKPASYDAIKKVVKAAADGPMKGILGYTEQQVVSSDFNGDTHSSIFDAGAGI
ALNDHFVKLVTWYDNEFGYSNRVIDLMAHMATKE
>DEKWG3
MTKPSVGINGFGRIGRLVLRAAVEKDSVNVVAVNDPFISIDYMVYLFQYDSTHGRFKGTV
AHEGDYLLVAKEGKSQHKIKVYNSRDPAEIQWGASGADYVVESTGVFTTIEKANAHLKGG
AKKVIISAPSADAPMFVVGVNHEKYDHANDHIISNASCTTNCLAPLAKVINDNFGIIEGL
MTTVHAVTATQKTVDGPSGKLWRDGRGAGQNIIPASTGAAKAVGKVIPELNGKLTGMAFR
VPTPDVSVVDLTARLEKPASLDDIKKVIKAAADGPMKGILAYTEDQVVSTDFVSDTNSSI
FDAGASISLNPHFVKLVSWYDNEFGYSNRVVDLISYIATKA
>DEUSGM
MSQVNIGINGFGRIGRIVFRNSVVHNTANVVAINDPFIDLEYMVYMLKYDSTHGVFNGDI
STKDGKLIVNGKSIAVFAEKDPSNIPWGQAGAHYVVESTGVFTTIDKASAHIKGGAKKVV
ISAPSADAPMYVCGVNLDAYDPKAQVVSNASCTTNCLAPLAKVIHDKFGIVEGLMTTVHA
TTATQKTVDGPSAKDWRGGRAAAANIIPSSTGAAKRVGKVIPSLNGKLTGMAFRVPTTNV
SVVDLTARLEKGASYDEIKAEVKRASENELKGILGYTEDAVVSQDFIGNSHSSIFDAAAG
ISLNNNFVKLVSWYDNEWGYSNRCLDLLVFMAQKDSA
>CAC80377
MAFSSLLKPTASLVRPSHRSQASCVGLQHSSNSVKLQSAIFGDVVSIAQSSSLQNSGACS
IQPIRATATELPPTVPKSQTGGKTRVGINGFGRIGRLVLRIATFRDDIEVVAVNDPFIDA
KYMAYMLKYDSTHGVFRGSISVLDDTTLEINGKQIKVSSKRDPADIPWGDLGADYVVESS
GIFTTVDRASGHKKGGAKKVVISAPSADAPMFVVGVNEKTYKANMDVVSNASCTTNCLAP
LAKVVHEEFGIVEGLMTTVHATTATQKTVDGPSMKDWRGGRGAGQNIIPSSTGAAKAVGK
VLPELNGKLTGMAFRVPTPNVSVVDLTCRLNKSASYDDVKAAIKYASEGPLKGILGYTNE
DVVSNDFVGDSRSSIFDAKAGIGLSKSFMKLVSWYDNEWGYSTRVLDLIEHMALVAATS
>AAC43271
FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIVNG
KKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKDNTPM
FVKGANFDKYAGQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVHATTATQKTVDGP
SHKDWRGGRGASQNIIPSSTGAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEK
AATYEQIKAAVKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV
SWYDNETGYSNK


Spørgsmål 3:

(Tæller 25% af sættet)

Opgave 3A: Psi-BLAST

1)    Hvad er proteinsekvensen (i FASTA format) for NP_858430.1 (søg på NCBIs hjemmeside)?

Brug Psi-Blast til at finde en homolog PDB struktur (med homolog forstås her en sekvens med en signifikant E værdi)

2)    Hvor mange Blast iterationer skal du køre for at finde en PDB struktur med en signifikant E værdi?

3)    Hvad er navnet på den homologe PDB struktur, og hvad er E-værdien for hittet?

Opgave 3B: Logo´er og vægtmatricer

Nedenfor er angivet et multiple alignment af et sæt peptider, der binder MHC.

KPSEPGGVL
SPALPGLKL
SPKLPVSSL
KPSLPFTSL

1)    Udregn de rå aminosyrefrekvenser på position 1 og 2 (se bort fra pseudo counts og sekvensvægtning)

2)    Benyt relationen for udregning af aminosyrefrekvenser ud fra de observerede frekvenser og pseudofrekvenser til at udregne vægtmatrice (log-odds) værdierne for E og V på position P1. Sæt β=3, og se bort fra sekvensvægtning.