27611 Eksamen
Sommer 2008

Dette sæt indeholder 10 opgaver.

En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan under selve eksamen (2. juni 2008 klokken 15:00-19:00). DNA/Protein sekvenser kan kopieres direkte herfra - det er ikke meningen at sekvenserne skal tastes ind i hånden.

Lektionsplan: http://www.cbs.dtu.dk/dtucourse/27611spring2008/lektionsplan.php

Svar til opgavesættet skal skrives enten i rå tekst (fx i Notepad/Wordpad) eller i Microsoft Word (.doc) format.

Svaret skal uploades på CampusNet under kursus 27611 (under "Afleveringer -> Eksamen 2008"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor.

Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717")

Udfyld denne forside og aflever den til eksamensvagten. Lokalenummer og computernummer skal udfyldes med henblik på kontrol af netværkstrafikken.

Navn: ______________________________________________________________

Studienummer: _______________________________________________________

Afleveringskode: _______________________________________________________

Lokalenummer: _______________________________________________________

Computernummer: _____________________________________________________

(For eksaminander i lokale 042-048, byg. 210 - skriv nummeret på låget af den bærbære computer. For eksaminander i lokale 052 og 152 i byg. 210, brug oversigten herunder):


Hvad gør man hvis en web-server ikke virker:

  1. Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet.

  2. Prøv evt. at finde en alternativ server med samme funktion (Google).

  3. Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt.


Opgave 1 (15%):

Efter en farefuld færd i Sydamerikas jungler er det lykkedes dig at hjembringe knoglerne fra en hidtil ukendt dinosaurus-art. Fra knoglerne har du isoleret et lille stykke DNA som du er interesseret i at undersøge nærmere, dels for at finde ud af hvad DNAets funktion er, dels for at lære mere om den mystiske dinosaurus (og derved på sigt blive rig og berømt og få råd til et hus på Bahamas).

Du skal i dit svar forklare hvilke værktøjer du har benyttet for at komme frem til svaret, samt hvorfor du benyttede netop dem.

Du vil først og fremmest gerne vide noget om DNAets funktion.

  1. Er DNA-fragmentet protein-kodende?

  2. Hvad er den sandsynlige funktion af dette stykke DNA (eller evt. det protein det koder for)?

  3. Du vil også gerne vide noget om hvilken slags nulevende dyr den afdøde dinosaurus mindede om. Det er ret velunderbygget at dinosaurer er tæt beslægtede med fugle, og man ville umiddelbart forvente at i et fylogenetisk træ ville dinosaurer ligge et sted tæt på fugle og krokodiller.

    Hvilken database-sekvens er tættest beslægtet med dit ukendte DNA-fragment, og hvilken organisme stammer den fra? (Den laborant som ekstraherede DNA-fragmentet for dig er meget, meget glad for skinke-sandwich. Med den information in mente: Tror du der kan være sket en fejl under arbejdet med dit dinosaurus-DNA?)

>ukendt_sekvens
GAAGGATGGCCAGTACCTTCTCAAAATTACTAACTGGCCGCAATGCTTCTTTGTTATTTGCCACCTTGGG
CACCGGTGCCCTGACCACCGGGTACTTGATGAATCAGCGGAGCGTGTGTGCTGAGGCCCGGGAGCAGCAC
AGGCTGTTCCCGCCAAGCGCAGACTACCCTGATCTACGCAAGCACAACAACTGCATGGCCGAGTGC


Opgave 2 (5%):

På basis af to forskellige DNA-datasæt, fra to forskellige gener, har du konstrueret de følgende fylogenetiske træer. Viser træerne den samme evolutionære historie eller er der forskelle?


Opgave 3 (10%):

Du har indsamlet en række relaterede enzym-sekvenser fra forskellige organismer (se herunder), og er nu interesseret i at undersøge i hvor høj grad de ligner hinanden.

  1. Lav et multiple alignment af sekvenserne. Find den længste, helt konserverede blok af aminosyrer og angiv hvilke positioner, målt ud fra alignment-nummereringen, denne blok dækker.

  2. Hvis man istedet nummererer ud fra sekvensen med navnet NP_067263, hvad er så positionen af den konserverede blok?

>NP_067263 
MLVVGSELQSDAQQLSAEAPRHGELQYLRQVEHILRCGFKKEDRTGTGTLSVFGMQARYSLRDEFPLLTT
KRVFWKGVLEELLWFIKGSTNAKELSSKGVRIWDANGSRDFLDSLGFSARQEGDLGPVYGFQWRHFGAEY
KDMDSDYSGQGVDQLQKVIDTIKTNPDDRRIIMCAWNPKDLPLMALPPCHALCQFYVVNGELSCQLYQRS
GDMGLGVPFNIASYALLTYMIAHITGLQPGDFVHTLGDAHIYLNHIEPLKIQLQREPRPFPKLKILRKVE
TIDDFKVEDFQIEGYNPHPTIKMEMAV

>NP_001062 
MPVAGSELPRRPLPPAAQERDAEPRPPHGELQYLGQIQHILRCGVRKDDRTGTGTLSVFGMQARYSLRDE
FPLLTTKRVFWKGVLEELLWFIKGSTNAKELSSKGVKIWDANGSRDFLDSLGFSTREEGDLGPVYGFQWR
HFGAEYRDMESDYSGQGVDQLQRVIDTIKTNPDDRRIIMCAWNPRDLPLMALPPCHALCQFYVVNSELSC
QLYQRSGDMGLGVPFNIASYALLTYMIAHITGLKPGDFIHTLGDAHIYLNHIEPLKIQLQREPRPFPKLR
ILRKVEKIDDFKAEDFQIEGYNPHPTIKMEMAV

>NP_571835
MPDTAVEVTNGHCVNGESKKEETNGGKKEFSLFCDERGYLSLVEFILQNGAKKGDRTGTGVISVFGTQAR
YSLRDQFPLLTTKRVFWKGILEELLWFIKGSTNAKDLSEKGVRIWDANGSREFLDKNGFTDREEGDLGPV
YGFQWRHFGAEYKDMHTDYSGEGVDQLQKVIDTIKSNPEDRRIIMCAWNPKDLPLMALPPCHALCQFYVS
NGELSCQLYQRSGDIGLGVPFNIASYALLTYMIAHITGLKPGDFVHTLGDAHIYTNHIEPLKEQIQREPR
PFPKLRIKRKVEQINDFCAEDFEIYDYDPHPTIKMQMAV

>NP_001096659
MPVISESTAASSCPEQGAGKAENRDELQYLDQIKYILEHGHRKEDRTGTGTVSVFGMQARYSLRDQFPLL
TTKRVFWKGVLEELLWFVKGCTNSKELSAKGVKIWDANGSREFLDKQGFSTREEGDLGPVYGFQWRHFGA
EYKDTHTDYSGQGVDQLQHVIDTIKNNPDDRRIIMCSWNPKDISLMALPPCHTLCQFYVVDKELSCQLYQ
RSGDMGLGVPFNIASYALLTYMIAHVTGLKPGDFVHTLGDAHVYLNHMEPLKIQLQRSPRPFPKLKILRQ
VENIDDFTADDFLIEGYDPHPPIKMEMAV

>NP_491532
MNKENIIADAPSDVVKTVQQQVHLNQDEYKYLKQVEQILREGTRRDDRTGTGTISIFGMQSKYCLRNGTI
PLLTTKRVYWKGVLEELLWFISGSTDGKLLMEKNVKIWEKNGDRAFLDNLGFTSREEGDLGPVYGFQWRH
FGAKYVDCHTDYSGQGVDQLAEVIRQIKEQPDSRRIIMSAWNPSDLGQMVLPPCHTMCQFYVDNGELSCQ
LYQRSGDMGLGVPFNLASYGLLTHMIAKVCGLKPGTLVHTLGDAHVYSNHVDALKIQLDREPYAFPKIRF
TRDVASIDDFTSDMIALDDYKCHPKIPMDMAV

>NP_477367
MVLTPTKDGPDQESMPLPADNGESPSKQQAPVNRDEMHYLDLLRHIIANGEQRMDRTEVGTLSVFGSQMR
FDMRNSFPLLTTKRVFFRAVAEELLWFVAGKTDAKLLQAKNVHIWDGNSSREFLDKMGFTGRAVGDLGPV
YGFQWRHFGAQYGTCDDDYSGKGIDQLRQVIDTIRNNPSDRRIIMSAWNPLDIPKMALPPCHCLAQFYVS
EKRGELSCQLYQRSADMGLGVPFNIASYALLTHMIAHVTGLKPGDFVHTMGDTHVYLNHVEPLKEQLERT
PRPFPKLIIKRQVQDIEDFRFEDFQIVDYNPHPKIQMDMAV

>NP_179230
MATTTLNDSVTTTLASEPQRTYQVVVAATKEMGIGKDGKLPWNLPTDLKFFKDITLTTSDSSKKNAVVMG
RKTWESIPIKYRPLSGRLNVVLTRSGGFDIANTENVVTCSSVDSALDLLAAPPYCLSIERVFVIGGGDIL
REALNRPSCDAIHLTEIDTSVDCDTFIPAIDTSVYQPWSSSFPVTENGLRFCFTTFVRVKSSADESSDES
NGSQSLQFDGKKFLFLPKMVFDQHEEFLYLNMVEDIISNGNVKNDRTGTGTLSKFGCQMKFNLRRSFPLL
TTKRVFWRGVVEELLWFISGSTNAKVLQEKGIHIWDGNASREYLDGIGLTEREEGDLGPVYGFQWRHFGA
KYTDMHADYTGQGFDQLVDVIDKIKNNPDDRRIIMSAWNPSDLKLMALPPCHMFAQFYVAEGELSCQMYQ
RSADMGLGVPFNIASYSLLTCMLAHVCDLVPGDFIHVLGDAHVYKTHVRPLQEQLLNLPKPFPVMKINPE
KKQIDSFVASDFDLTGYDPHKKIEMKMAV

>NP_014717
MTMDGKNKEEEQYLDLCKRIIDEGEFRPDRTGTGTLSLFAPPQLRFSLRDDTFPLLTTKKVFTRGIILEL
LWFLAGDTDANLLSEQGVKIWDGNGSREYLDKMGFKDRKVGDLGPVYGFQWRHFGAKYKTCDDDYTGQGI
DQLKQVIHKLKTNPYDRRIIMSAWNPADFDKMALPPCHIFSQFYVSFPKEGEGSGKPRLSCLLYQRSCDM
GLGVPFNIASYALLTRMIAKVVDMEPGEFIHTLGDAHVYKDHIDALKEQITRNPRPFPKLKIKRDVKDID
DFKLTDFEIEDYNPHPRIQMKMSV


Opgave 4 (10%):

Du har to sekvenser du gerne vil have alignet, og overvejer nu hvilket af to følgende alignments der er det bedste.

  1. Udregn alignment score for alignment 1 og 2 givet det nedenstående scoringssystem (gapscoringssystem + substitutionsmatrix)

  2. Hvilket alignment er bedst givet dette scoringssystem?

Alignment 1:              Alignment 2: 
KLMNRVATQPTWPR            KLMNRVATQP-TWP-R
: :::: : :   :            :    :     ::: :
KVMNRVGTWP--VR            K----VMNRVGTWPVR


Affint gap-scoringssystem:
  Gap opening:    -4
  Gap elongation: -1



Substitutionsmatrix:
A   5 
R  -2  7 
N  -1 -1  7 
D  -2 -2  2  8 
C  -1 -4 -2 -4 13 
Q  -1  1  0  0 -3  7 
E  -1  0  0  2 -3  2  6 
G   0 -3  0 -1 -3 -2 -3  8 
H  -2  0  1 -1 -3  1  0 -2 10 
I  -1 -4 -3 -4 -2 -3 -4 -4 -4  5 
L  -2 -3 -4 -4 -2 -2 -3 -4 -3  2  5 
K  -1  3  0 -1 -3  2  1 -2  0 -3 -3  6 
M  -1 -2 -2 -4 -2  0 -2 -3 -1  2  3 -2  7 
F  -3 -3 -4 -5 -2 -4 -3 -4 -1  0  1 -4  0  8 
P  -1 -3 -2 -1 -4 -1 -1 -2 -2 -3 -4 -1 -3 -4 10 
S   1 -1  1  0 -1  0 -1  0 -1 -3 -3  0 -2 -3 -1  5 
T   0 -1  0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1  2  5 
W  -3 -3 -4 -5 -5 -1 -3 -3 -3 -3 -2 -3 -1  1 -4 -4 -3 15 
Y  -2 -1 -2 -3 -3 -1 -2 -3  2 -1 -1 -2  0  4 -3 -2 -2  2  8 
V   0 -3 -3 -4 -1 -3 -3 -4 -4  4  1 -3  1 -1 -3 -2  0 -3 -1  5 
    A  R  N  D  C  Q  E  G  H  I  L  K  M  F  P  S  T  W  Y  V 


Opgave 5 (15%):

Du har et meget lille alignment med kun en sekvens der ovenikøbet kun består af en enkelt aminosyre:

Y

  1. Du vil nu konstruere en vægtmatrix på basis af dette "alignment". Gennemgå udregningen af log-odds værdierne for aminosyrerne A og Y ved brug af pseudo-counts.

    Du kan finde Blosum substitutionsfrekvensmatricen, samt baggrundsfordelingen (background distribution) for de forskellige aminosyrer på dette link: Blosum matrix

    Du skal i besvarelsen angive mellemregningerne på hvordan du har fundet værdierne.

  2. Hvordan stemmer de værdier du finder overens med værdierne for at matche Y med henholdsvis A og Y i Blosum62 substitutionsscorings matricen? Du kan finde Blosum62 substitutionsscorings matricen her: wikipedia Blosum

  3. Forklar hvorfor der er den sammenhæng mellem Blosum62 substitutionsscorings værdierne og de værdier du har fundet.

Opgave 6 (10%)

Du og en af dine medstuderende har været på opdagelsesrejse inde i Amazonas regnskov, og har her været i kontakt med en gruppe indianere der har et usædvanligt MHC (immunsystem) molekyle. I almindelige humane MHC molekyler er bindingsmotivet hovedsageligt bestemt ud fra den 2. og 9. peptidposition. I har været heldige at få en række peptider, der binder til det mærkelige MHC molekyle med hjem. Disse peptider er angivet nedenfor.

AMGVNLTSM
ASNENMETM
AAPDNRETF
CSLWNGPHL
IQVGNTRTI
NSLANPGIA
VNIRNCCYI
TNLLNDRVL
FGISNYCQI
KVPRNQDWL
RAHYNIVTF
ASNENMDAM
ASNENMETM
ILNHNFCNL
FQPQNGQFI

  1. Lav et sekvenslogo af bindingsmotivet udfra de 15 peptider. Benyt en metode som anvender pseudo-counts og sekvensvægtning. Hvilke 2 positioner har mest betydning for bindingen, og hvilke aminosyrer har positiv effekt for binding på disse 2 positioner?

  2. På position 5 i de 15 peptider er der udelukkende N. Forklar hvorfor logo'et ranker D højere end E?

  3. Ud over de 15 peptider ovenfor, har I også fået et sæt data med blandede peptider. Hvilket af nedenstående peptider vil sandsynligvis IKKE kunne binde til jeres MHC molekyle?
    AAFFNKTEF
    AELSLFTTE
    YAPVSPIVI
    

Opgave 7 (10%)

Du skal brug BLAST og PSI-BLAST til at lære mere om funktion og struktur af følgende protein. (Hvis PSI-BLAST kommer op med en fejlmeddelse i rødt, skal du bare fortsætte. Det betyder ingenting.)

Du skal i dit svar forklare hvilke værktøjer du har benyttet for at komme frem til svaret, samt hvorfor du benyttede netop dem.

>gi|21495178|ref|NP_659802.1| hypothetical protein LOC221786 [Homo sapiens]
MTPESRDTTDLSPGGTQEMEGIVIVKVEEEDEEDHFQKERNKVESSPQVLSRSTTMNERALLSSYLVAYR
VAKEKMAHTAAEKIILPACMDMVRTIFDDKSADKLRTIPLSDNTISRRICTIAKHLEAMLITRLQSGIDF
AIQLDESTDIASCPTLLVYVRYVWQDDFVEDLLCCLNLNSHITGLDLFTELENCLLGQYKLNWKHCKGIS
SDGTANMTGKHSRLTEKLLEATHNNAVWNHCFIHREALVSKEISPSLMDVLKNAVKTVNFIKGSSLNSRL
LEIFCSEIGVNHTHLLFHTEVRWLSQGKVLSRVYELRNEIYIFLVEKQSHLANIFEDDIWVTKLAYLSDI
FGILNELSLKMQGKNNDIFQYLEHILGFQKTLLLWQARLKSNRPSYYMFPTLLQHIEENIINEDCLKEIK
LEILLHLTSLSQTFNYYFPEEKFESLKENIWMKDPFAFQNPESIIELNLEPEEENELLQLSSSFTLKNYY
KILSLSAFWIKIKDDFPLLSRKSILLLLPFTTTYLCELGFSILTRLKTKKRNRLNSAPDMRVALSSCVPD
WKELMNRQAHPSH

  1. Hvad er funktionen af dette protein?

  2. Hvor mange PSI-BLAST iterationer skal der køres for at finde et signifikant PDB hit (E-value < 0.005)?

  3. Hvad er E-værdien af det signifikante PDB hit, og hvad er dets PDB identifier?

  4. Hvad er det mest brugte sekundærstrukturelement i denne PDB struktur?

Opgave 8 (5%):

Du har kørt en BLAST søgning med et protein, og har fået 3 hits. Hvilket af de følgende tre hits vil du vælge og hvorfor?

  1. %ID=30, E-value=0.1

  2. %ID=10, E-value=2

  3. %ID=10, E-value=0.001

Opgave 9 (10%)

En patient er blevet indlagt på Hvidovre Hospitals afdeling for infektionssygdomme med en farlig viral infektion. I har fået virusen sekventeret, og skal nu finde ud af hvilken infektion det handler om. Du skal for hvert spørgsmål forklare hvordan du fandt frem til svaret.

  1. Genomet er blevet indlagt i Genbank med følgende Genbank ID: NC_001722. Hvilken organisme stammer dette genom fra?

  2. Hvor mange baser indeholder genomet?

  3. Hvor mange proteiner koder genomet for?

  4. Hvor langt er det korteste protein og hvad hedder det?

Opgave 10 (10%)

Et Ramachandran plot er en metode der kan bruges til at visualisere kvaliteten af en proteinstruktur. Nedenfor er vist et Ramachandran plot for proteinet 1deo

  1. Hvilke protein sekundærstrukturelementer findes primært i de tre områder A), B) og C) i figuren?

  2. Beskriv kort hvordan du ville bruge Ramachandran plots til at validere kvaliteten af en protein struktur

  3. Hvilke af følgende udsagn er rigtige:
    1. Beta-sheets dannes af lokale interaktioner
    2. Beta-sheets dannes af ikke-lokale interaktioner
    3. alpha-helices dannes af lokale interaktioner
    4. alpha-helices dannes af ikke-lokale interaktioner
    5. Et proteins kerne (core) er fyldt med ladede aminosyrer