Pr¿ve-eksamens s¾t 2007

 

Indeholder 3 opgave (75% af et fuld eksamens¾t) + diverse tabeller og links til de web-baserede v¾rkt¿jer, vi har benyttet pŒ kurset.

 

Link-siden ligger ogsΠonline: http://www.cbs.dtu.dk/dtucourse/27611spring2007/link_collection.php

 

Dette opgaves¾t ligger ogsŒ online pŒ kursushjemmesiden, sŒ alle sekvenser kan kopieres herfra. Det er ikke meningen at man skal taste sekvenserne ind i hŒnden.

 

Kursushjemmeside:

http://www.cbs.dtu.dk/dtucourse/27611spring2007


Opgave 1: Gen indentifikation

 

(T¾ller 25% af s¾ttet).

 

Du har som nyuddannet bioinformatiker fŒet til opgave at hj¾lpe den kendte, men desv¾rre meget glemsomme, russiske forsker Sumsar Nossrenrow, med hans eksperimentielle arbejde. Den glemsomme herre har i laboratoriet syntetiseret og klonet DNAÕet der koder for et fusion-protein: AltsŒ et protein der er sat sammen af to forskellige proteiner – typisk et protein man gerne vil unders¿ge og et andet protein der fungerer som rapporter (dvs. at det har en funktion man kan teste med et assay – dette kunne fx. v¾re Lucifirase fra ildfluen, der katalyserer er kemisk reaktion der udsender lys, eller beta-galactosidase fra E. coli der kan detekteres pŒ en X-Gal plade). NedenstŒende er det genetiske konstukt skematisk vist – bem¾rk at Gen X og Gen Y er sat sammen med tilf¾ldig sammensplejsning.

 

 

 

Desv¾rre har professor Nossrenrow glemt hvilke to gener han har klonet, og hvilken organisme han arbejder med, sŒ vidt han husker var det dog ikke et dyr – i det mindste ikke noget stort dyr. Derfor har han nu sekvenseret det klonede fragment (fra tre forskellige kloner – se n¾ste side), og det er din opgave at finde frem til hvilke gener der er tale om, samt hvad det egentligt var fors¿get gik ud pŒ.

 

Svar pŒ f¿lgende – og argumenter for dit valg af v¾rkt¿jer og resultater undervejs. Dokumenter dine svar med referencer til de relevante sekvenser:

 

  1. Hvad koder Gen X og Gen Y for?
  2. Fra hvilke organismer kommer Gen X og Gen Y?

i.      Hvad er deres TaxIDs?

ii.     Hvad er deres taxonomiske placering pŒ f¿lgende niveauer: Rige (ÓKingdomÓ), Klasse (ÓClassÓ) og Orden (ÓOrderÓ).

  1. Er det Gen X eller Gen Y der er rapporter-genet?
  2. Hvilken organisme vil du regne med at fors¿gene udf¿res i?
  3. Hvilken proces i denne organismes livscyklus blev sandsynligvis unders¿gt i fors¿get?
  4. Det viser sig at kun den ene af de tre kloner faktisk virker – de to andre giver ikke noget udslag i assayet. Northern blots viser at mRNA fra klonen i alle tre tilf¾lde faktisk er tilstede i cellen.

i.      Find ud af hvilken klon der virker, og hvorfor de to andre ikke virker.

 


>Fusion_protein_klon1

ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT

GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA

GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG

GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC

GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC

GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT

AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT

TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA

CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT

AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT

TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT

CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT

TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA

CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC

AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG

CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC

AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT

GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT

ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGG

TACAACAACTTTGGAACCTCACACGATCCCAAAACTTGGGGCACAACAGCAGATGATTTT

AAACCAGAAAGATGGGGTTCAGATATCGAAACCATAAGGAAAAACTGGAGAATGGCGAAA

AACAGATGTGCTGTGACTGGGTTCCATGGAGGCCGAAGAGCATGCCTAGGGGAAAAACTA

GCCCTAACAGAAATGAGAATTTCTTTGGCTGAAATGTTGAAACAGTTTCGATGGAGTCTT

GACCCTGAATGGGAAGAAAAATTAACTCCCGCTGGGCCTCTTTGCCCTCTTAATTTAAAG

TTAAAATTTAACGAGAATATAATGGAATAAATGAGTAAAGGAGAAGAACTTTTCACTGGA

GTGGTCCCAGTTCTTGTTGAATTAGATGGCGATGTTAATGGGCAAAAATTCTCTGTCAGT

GGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAATTTTATTTGCACTACT

GGGAAGCTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGC

TTCTCAAGATACCCAGATCATATGAAACAGCATGACTTTTTCAAGAGTGCCATGCCCGAA

GGTTATGTACAGGAAAGAACTATATTTTACAAAGATGACGGGAACTACAAGACACGTGCT

GAAGTCAAGTTTGAAGGTGATACCCTTGTTAATAGAATCGAGTTAAAAGGTATTGATTTT

AAAGAAGATGGAAACATTCTTGGACACAAAATGGAATACAACTATAACTCACATAATGTA

TACATCATGGGAGACAAACCAAAGAATGGCATCAAAGTTAACTTCAAAATTAGACACAAC

ATTAAAGATGGAAGCGTTCAATTAGCAGACCATTATCAACAAAATACTCCAATTGGCGAT

GGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCCAAAGAT

CCCAACGAAAAGAGAGATCACATGATCCTTCTTGAGTTTGTAACAGCTGCTAGGATTACA

CATGGCATGGATGAACTATACAAA

>Fusion_protein_klon2

ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT

GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA

GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG

GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC

GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC

GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT

AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT

TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA

CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT

AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT

TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT

CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT

TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA

CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC

AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG

CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC

AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT

AGTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGAT

GTTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAA

CTTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTC

ACTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCAT

GACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAA

GATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAAT

AGAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATG

GAATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATC

AAAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCAT

TATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTG

TCCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTT

GAGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA

>Fusion_protein_klon3

ATGGAGTTGTTAAAGCTTCTGTGTTTGATTTTATTTCTTACTCTTTCCTATGTCGCCTTT

GCAATCATTGTCCCACCTCTAAACTTTCCCAAAAATATACCCACCATCCCATTTTATGTA

GTATTTTTACCAGTAATATTTCCCATTGATCAAACGGAGCTATACGATCTTTATATTAGG

GAATCAATGGAAAAATACGGTGCTGTAAAATTTTTCTTTGGTTCACGGTGGAATATTCTC

GTTTCTCGTTCTGAGTATCTAGCACAAATATTCAAAGATGAAGATACTTTTGCGAAGAGC

GGTAATCAAAAGAAAATCCCATACAGTGCTCTTGCCGCTTACACAGGGGACAATGTCATT

AGCGCGTATGGTGCAGTTTGGAGAAACTACAGAAATGCTGTGACAAACGGGCTCCAACAT

TTTGACGATGCACCTATATTCAAAAATGCAAAAATTTTATGCACTTTGATAAAAAACAGA

CTCCTAGAAGGACAAACTTCGATCCCTATGGGACCTTTATCCCAGAGAATGGCATTGGAT

AACATTTCACAGGTTGCCCTTGGATTTGATTTTGGTGCTCTAACACATGAAAAAAATGCT

TTCCACGAGCATTTGATTCGTATTAAAAAGCAAATATTTCATCCATTCTTTTTAACTTTT

CCATTCCTTGATGTTCTTCCTATTCCTTCAAGAAAAAAAGCCTTCAAGGATGTTGTTAGT

TTTAGAGAACTTCTCGTTAAAAGAGTTCAAGATGAATTAGTCAATAATTACAAATTTGAA

CAAACTACTTTTGCTGCCAGTGATCTAATTCGTGCTCACAATAACGAAATAATCGACTAC

AAACAGTTGACCGATAATATCGTCATTATCCTTGTCGCTGGCCATGAAAACCCGCAGTTG

CTATTTAATAGTTCACTCTACCTTCTAGCCAAATATTCAAATGAATGGCAAGAGAAACTC

AGGAAGGAAGTAAACGGCATCACTGATCCAAAAGGCTTAGCAGATTTACCCTTATTAAAT

GCTTTTCTCTTCGAAGTAGTAAGAATGTATCCTCCTTTGAGCACAATTATTAATAGATGT

ACTACCAAAACGTGCAAGTTGGGGGCGGAAATTGTTATACCCAAGGGCGTATATGTCGGA

GTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGATG

TTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAAC

TTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTCA

CTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCATG

ACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAAG

ATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAATA

GAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATGG

AATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATCA

AAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCATT

ATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGT

CCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTTG

AGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA


Opgave 2: Sammenligning af protein-sekvenser

(T¾ller 25% af s¾ttet)

 

Opgave 2A:

1CDE (212 aminosyrer langt) er et E.coli protein som indgŒr i nukleotidsyntesen. ZP_01707724.1 (214 aminosyrer langt) er det homologe protein fra bakterien Shewanella putrefaciens. De indeholder begge et enkelt dom¾ne.

 

1. Lav en parvis alignment af de to proteiner og inds¾t alignmentet her.

 

2. Hvad er alignment score?

 

3. Hvor mange gap positioner er der i alignmentet?

 

4. Giver det mest mening at anvende globalt eller lokal alignment?

 

5. Hvad er alignment score hvis matricen ¾ndres til BLOSUM40? Hvorfor er den anderledes end med BLOSUM62?

 

>1CDE

MNIVVLISGNGSNLQAIIDACKTNKIKGTVRAVFSNKADAFGLERARQAGIATHTLIASAFDSREAYDRE

LIHEIDMYAPDVVVLAGFMRILSPAFVSHYAGRLLNIHPSLLPKYPGLHTHRQALENGDEEHGTSVHFVT

DELDGGPVILQAKVPVFAGDSEDDITARVQTQEHAIYPLVISWFADGRLKMHENAAWLDGQRLPPQGYAA

DE

 

>ZP_01707724.1

MPQRCRVVVLISGNGSNLQAIIDGCDDNLQAEVVGVISNKPDAYGLVRAHYNEIDTSCVIAHQGESRSEY

DARLIAVIEQYQPDLIVLAGFMRILTDDLVNRYLGRIINIHPSLLPKYTGLNTHQRAIDANDNEHGASVH

FVTPELDAGPVILQAKVPVYEDDTADMLAARVHEQEHAIYPLVVKWFSQQRLNMQNGQAYLDGNLIGPSG

YAPD

 

 

Opgave 2B:

PUR2_HUMAN (1010 aminosyrer langt) er et protein som spiller en rolle i nukleotidsyntesen i mennesker. Det indeholder tre dom¾ner med separate funktioner. Det ene dom¾ne er besl¾gtet med E.coli proteinet 1CDE.

 

1. Lav en parvis alignment af de to proteiner og inds¾t alignmentet her.

 

2. Hvor langt er alignmentet

 

3. Hvad er alignment score?

 

4. Hvor mange gap positioner er der i alignmentet?

 

5. Giver det mest mening at anvende globalt eller lokal alignment?

 

 

>PUR2_HUMAN  

MAARVLIIGSGGREHTLAWKLAQSHHVKQVLVAPGNAGTACSEKISNTAISISDHTALAQFCKEKKIEFV

VVGPEAPLAAGIVGNLRSAGVQCFGPTAEAAQLESSKRFAKEFMDRHGIPTAQWKAFTKPEEACSFILSA

DFPALVVKASGLAAGKGVIVAKSKEEACKAVQEIMQEKAFGAAGETIVIEELLDGEEVSCLCFTDGKTVA

PMPPAQDHKRLLEGDGGPNTGGMGAYCPAPQVSNDLLLKIKDTVLQRTVDGMQQEGTPYTGILYAGIMLT

KNGPKVLEFNCRFGDPECQVILPLLKSDLYEVIQSTLDGLLCTSLPVWLENHTALTVVMASKGYPGDYTK

GVEITGFPEAQALGLEVFHAGTALKNGKVVTHGGRVLAVTAIRENLISALEEAKKGLAAIKFEGAIYRKD

VGFRAIAFLQQPRSLTYKESGVDIAAGNMLVKKIQPLAKATSRSGCKVDLGGFAGLFDLKAAGFKDPLLA

SGTDGVGTKLKIAQLCNKHDTIGQDLVAMCVNDILAQGAEPLFFLDYFSCGKLDLSVTEAVVAGIAKACG

KAGCALLGGETAEMPDMYPPGEYDLAGFAVGAMERDQKLPHLERITEGDVVVGIASSGLHSNGFSLVRKI

VAKSSLQYSSPAPDGCGDQTLGDLLLTPTRIYSHSLLPVLRSGHVKAFAHITGGGLLENIPRVLPEKLGV

DLDAQTWRIPRVFSWLQQEGHLSEEEMARTFNCGVGAVLVVSKEQTEQILRDIQQHKEEAWVIGSVVARA

EGSPRVKVKNLIESMQINGSVLKNGSLTNHFSFEKKKARVAVLISGTGSNLQALIDSTREPNSSAQIDIV

ISNKAAVAGLDKAERAGIPTRVINHKLYKNRVEFDSAIDLVLEEFSIDIVCLAGFMRILSGPFVQKWNGK

MLNIHPSLLPSFKGSNAHEQALETGVTVTGCTVHFVAEDVDAGQIILQEAVPVKRGDTVATLSERVKLAE

HKIFPAALQLVASGTVQLGENGKICWVKEE

 

 

Opgave 2C:

Her er et s¾t af Glyceraldehyde 3-phosphate dehydrogenaser (GAPDH, proteiner som er involveret i glycolysen) fra en r¾kke forskellige organismer.

 

1. Lav et mutiple alignment af sekvenserne og inds¾t resultatet her.

 

2. Hvad er den l¾ngste fuldst¾ndigt konserverede blok af aminosyrer?

 

3. Vil du tro at det aktive site i proteinet er st¾rkt konserveret mellem de forskellige proteiner eller at det er forskelligt?

 

4. T¾t pŒ den C-terminale ende af proteinet NP_032110 er der en Arginin ("R", specifikt den arginin som er i f¿lgende kontekst: YSNRVVD). Hvilken aminosyre er den alignet med i proteinet AAC43271? Er det rimeligt?

 

 

 

 

>NP_032110

MVKVGVNGFGRIGRLVTRAAICSGKVEIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA

ENGKLVINGKPITIFQERDPTNIKWGEAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS

APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT

ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV

VDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA

LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE

>AAA41193

MVKVGVNGFGRIGRLVTRAAFSCDKVDIVAINDPFIDLNYMVYMFQYDSTHGKFNGTVKA

ENGKLVINGKPITIFQERDPANIKWGDAGAEYVVESTGVFTTMEKAGAHLKGGAKRVIIS

APSADAPMFVMGVNHEKYDNSLKIVSNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAIT

ATQKTVDGPSGKLWRDGRGAAQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTPNVSV

VDLTCRLEKPAKYDDIKKVVKQAAEGPLKGILGYTEDQVVSCDFNSNSHSSTFDAGAGIA

LNDNFVKLISWYDNEYGYSNRVVDLMAYMASKE

>AAA52518

MGKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV

KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI

ISAPSADAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHA

ITATQKTVDGPSGKLWRDGRGALQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTANV

SVVDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEHQVVSSDFNSDTHSSTFDAGAG

IALNDHFVKLISWYDNEFGYSNRVVDLMAHMASKE

>BAB62189

MVKVGVNGFGRIGRLVTRAAFHSKKGVEIVAINDPFIDLDYMVYMFKYDSTHGRFHGEVK

AEGGKLVIDGHKITVFHERDPANIKWGDAGATYVVESTGVFTTIEKASTHLKGGAKRVVI

SAPSADAPMFVMGVNHEKYENSLKVVSNASCTTNCLAPLAKVIHDNYHIIEGLMSTVHAV

TATQKTVDGPSGKLWRDGRGASQNIIPASTGAAKAVGKVIPELNGKITGMAFRVPTPNVS

VVDLTVRLEKPASYDAIKKVVKAAADGPMKGILGYTEQQVVSSDFNGDTHSSIFDAGAGI

ALNDHFVKLVTWYDNEFGYSNRVIDLMAHMATKE

>DEKWG3

MTKPSVGINGFGRIGRLVLRAAVEKDSVNVVAVNDPFISIDYMVYLFQYDSTHGRFKGTV

AHEGDYLLVAKEGKSQHKIKVYNSRDPAEIQWGASGADYVVESTGVFTTIEKANAHLKGG

AKKVIISAPSADAPMFVVGVNHEKYDHANDHIISNASCTTNCLAPLAKVINDNFGIIEGL

MTTVHAVTATQKTVDGPSGKLWRDGRGAGQNIIPASTGAAKAVGKVIPELNGKLTGMAFR

VPTPDVSVVDLTARLEKPASLDDIKKVIKAAADGPMKGILAYTEDQVVSTDFVSDTNSSI

FDAGASISLNPHFVKLVSWYDNEFGYSNRVVDLISYIATKA

>DEUSGM

MSQVNIGINGFGRIGRIVFRNSVVHNTANVVAINDPFIDLEYMVYMLKYDSTHGVFNGDI

STKDGKLIVNGKSIAVFAEKDPSNIPWGQAGAHYVVESTGVFTTIDKASAHIKGGAKKVV

ISAPSADAPMYVCGVNLDAYDPKAQVVSNASCTTNCLAPLAKVIHDKFGIVEGLMTTVHA

TTATQKTVDGPSAKDWRGGRAAAANIIPSSTGAAKRVGKVIPSLNGKLTGMAFRVPTTNV

SVVDLTARLEKGASYDEIKAEVKRASENELKGILGYTEDAVVSQDFIGNSHSSIFDAAAG

ISLNNNFVKLVSWYDNEWGYSNRCLDLLVFMAQKDSA

>CAC80377

MAFSSLLKPTASLVRPSHRSQASCVGLQHSSNSVKLQSAIFGDVVSIAQSSSLQNSGACS

IQPIRATATELPPTVPKSQTGGKTRVGINGFGRIGRLVLRIATFRDDIEVVAVNDPFIDA

KYMAYMLKYDSTHGVFRGSISVLDDTTLEINGKQIKVSSKRDPADIPWGDLGADYVVESS

GIFTTVDRASGHKKGGAKKVVISAPSADAPMFVVGVNEKTYKANMDVVSNASCTTNCLAP

LAKVVHEEFGIVEGLMTTVHATTATQKTVDGPSMKDWRGGRGAGQNIIPSSTGAAKAVGK

VLPELNGKLTGMAFRVPTPNVSVVDLTCRLNKSASYDDVKAAIKYASEGPLKGILGYTNE

DVVSNDFVGDSRSSIFDAKAGIGLSKSFMKLVSWYDNEWGYSTRVLDLIEHMALVAATS

>AAC43271

FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIVNG

KKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKDNTPM

FVKGANFDKYAGQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVHATTATQKTVDGP

SHKDWRGGRGASQNIIPSSTGAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEK

AATYEQIKAAVKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV

SWYDNETGYSNK


Sp¿rgsmŒl 3:

(T¾ller 25% af s¾ttet)

 

Opgave 3A: Psi-BLAST

 

1)    Hvad er protein sekvensen (i FASTA format) for NP_858430.1 (s¿g pŒ NCBIs hjemmeside)?

 

Brug Psi-Blast til at finde en homolog PDB struktur (med homolog forstŒs her en sekvens med en signifikant E v¾rdi)

 

2)    Hvor mange Blast iterationer skal du k¿re for at finde en PDB struktur med en signifikant E v¾rdi?

 

3)    Hvad er navnet pŒ den homologe PDB struktur, og hvad er E-v¾rdien for hittet?

 

 

Opgave 3B: LogoÕer og v¾gt matricer

 

Nedenfor er angivet en multiple alignment af et s¾t peptider, der binding MHC.

 

KPSEPGGVL

SPALPGLKL

SPKLPVSSL

KPSLPFTSL

 

1)    Udregn de rŒ aminosyre frekvenser pŒ position 1 og 2 (se bort fra pseudo counts og sekvens v¾gtning)

2)    Benyt relationen for udregning af aminosyre frekvenser ud fra de observerede frekvenser og pseudo frekvenser til at udregne v¾gt matrice (log-odds) v¾rdierne for E og V pŒ position P1. S¾t b=3, og se bort fra sekvens v¾gtning.