Events News Research CBS CBS Publications Bioinformatics
Staff Contact About Internal CBS CBS Other

Øvelse: Translation og proteindatabaser


Øvelse skrevet af: Rasmus Wernersson og Henrik Nielsen

Translation - Virtual Ribosome

Til denne del af øvelsen skal vi bruge Virtual Ribosome - et stykke software der tilbyder en række advancerede funktioner mht. oversættelse af DNA til protein. Udover brug af de simple funktioner til oversættelse af DNA med en kendt læserammen, skal vi arbejde med computerbaseret analyse af mulige læserammer, placering af START of STOP codons osv.

Trin 1: Basalt brug

  1. Åben Virtual Ribosome i et andet vindue (eller tab): www.cbs.dtu.dk/services/VirtualRibosome/. Brug et minut eller to på at orientere dig på siden - hvor skal input-data sættes ind, og hvilken slags indstillingsmuligheder (options) findes.

  2. Hvis man bare har en enkelt sekvens der skal oversættes, kan man paste den direkte ind (evt. tal og mellemrum bliver automatisk ignoreret) - alternative kan Virtual Ribosome læse en række andre fil-formater, hvor der kan være flere sekvenser (fx. FASTA).

  3. Lad os starte med at kigge på en simpelt oversættelse af et kendt gen: Actin (fra gær). Kopiér nedenstående sekvens ind i sekvens-feltet og tryk på "submit".
>Yeast_ACT1
ATGGATTCTGAGGTTGCTGCTTTGGTTATTGATAACGGTTCTGGTATGTGTAAAGCCGGT
TTTGCCGGTGACGACGCTCCTCGTGCTGTCTTCCCATCTATCGTCGGTAGACCAAGACAC
CAAGGTATCATGGTCGGTATGGGTCAAAAAGACTCCTACGTTGGTGATGAAGCTCAATCC
AAGAGAGGTATCTTGACTTTACGTTACCCAATTGAACACGGTATTGTCACCAACTGGGAC
GATATGGAAAAGATCTGGCATCATACCTTCTACAACGAATTGAGAGTTGCCCCAGAAGAA
CACCCTGTTCTTTTGACTGAAGCTCCAATGAACCCTAAATCAAACAGAGAAAAGATGACT
CAAATTATGTTTGAAACTTTCAACGTTCCAGCCTTCTACGTTTCCATCCAAGCCGTTTTG
TCCTTGTACTCTTCCGGTAGAACTACTGGTATTGTTTTGGATTCCGGTGATGGTGTTACT
CACGTCGTTCCAATTTACGCTGGTTTCTCTCTACCTCACGCCATTTTGAGAATCGATTTG
GCCGGTAGAGATTTGACTGACTACTTGATGAAGATCTTGAGTGAACGTGGTTACTCTTTC
TCCACCACTGCTGAAAGAGAAATTGTCCGTGACATCAAGGAAAAACTATGTTACGTCGCC
TTGGACTTCGAACAAGAAATGCAAACCGCTGCTCAATCTTCTTCAATTGAAAAATCCTAC
GAACTTCCAGATGGTCAAGTCATCACTATTGGTAACGAAAGATTCAGAGCCCCAGAAGCT
TTGTTCCATCCTTCTGTTTTGGGTTTGGAATCTGCCGGTATTGACCAAACTACTTACAAC
TCCATCATGAAGTGTGATGTCGATGTCCGTAAGGAATTATACGGTAACATCGTTATGTCC
GGTGGTACCACCATGTTCCCAGGTATTGCCGAAAGAATGCAAAAGGAAATCACCGCTTTG
GCTCCATCTTCCATGAAGGTCAAGATCATTGCTCCTCCAGAAAGAAAGTACTCCGTCTGG
ATTGGTGGTTCTATCTTGGCTTCTTTGACTACCTTCCAACAAATGTGGATCTCAAAACAA
GAATACGACGAAAGTGGTCCATCTATCGTTCACCACAAGTGTTTCTAA
  1. Kig resultatet grundig igennem. Bemærk at der bådes vises DNA sekvens, proteinsekvens samt information om START og STOP codons. Du kan klikke på linket til "instructions" (både på hovedsiden og resultatsiden), for at få en uddybende forklaring på hvad der vises. Bemærk at også at den "rå" protein-sekvens kan ses (og downloades) i FASTA format.

  2. Inden du går videre skal du kunne svare på følgende spørgsmål:
    • Hvordan vises et STOP codon?
    • Hvordan vises et START codon?
    • Koder et start-codon altid for Methionine (M)?
    • Hvad for forskellen på de to typer start codons?

Trin 2: Degenererede nucleotider

  1. I de næste på trin skal vi kigge lidt på brugen af det degenererede DNA alfabet i forbindelse med oversættelse. Det degenererede alfabet bliver typisk brugt, hvis sekventeringen ikke har givet et entydig resultat, men at man på den anden side ikke har lyst til at smide hele sekvensen væk. Alfabetet er en IUPAC standard, og er defineret som følger:
Letter Description Bases represented

A Adenine A
T Thymine T
G Guanine G
C Cytosine C
Y pYrimidine C T
R puRine A G
S Strong G C
W Weak A T
K Keto T G
M aMino A C
B Not A C G T
D Not C A G T
H Not G A C T
V Not T/U A C G
N aNy A C G T
  1. Lad os arbejde videre med de atten første baser fra actin genet, og se hvordan tilstædeværelsen af degenererede postioner påvirker resultatet. Som et "trick" bruger vi her FASTA formatet til at submitte flere sekvenser på een gang:
>seq1
ATGGATTCTGAGGTTGCT
>seq2
ATGNATTCTGNGGTNGCT
>seq3
ATGGAYTCNGARGTNGCN
>seq3b
HTGGAYTCNGARGTNGCN
  1. Oversæt de tre overstående sekvenser, og svar på følgende:
    • Hvad sker det med proteinsekvensen hvis DNA sekvensen er tvetydig?
    • I hvilken position i hvert codon vil du forvente at et "N" vil påvirke protein-sekvensen mindst? Hvorfor?
    • Hvor mange degenererede positioner er der i "seq3" - og hvad betyder de?
    • Hvad er forskellen på seq3 og seq3b?

  2. Ofte bliver det degenererede alfabet også brugt til at "fylde ind" med ukendt sekvens, hvis man (fx. fra genetiske kort), ved at der er en vis afstand mellem to sekvenser, som ikke er sekventeret endnu. Fx. støder man ofte på lange sekvenser af "N"'er i musens genome (i skrivende stund, 2007), som netop bare bliver brugt at at vise at "her er noget". Vi vil nu se hvordan en sådan række af N'er påvirker proteinsekvensen:
>seq1
ATGGATTCTGAGGTTGCT
>seq4
ATGGATTCTNNNNNNNNNGAGGTTGCT
>seq5
ATGGATTCTNNNNNNNNNNGAGGTTGCT
>seq6
ATGGATTCTNNNNNNNNNNNGAGGTTGCT

  1. Oversæt de overstående sekvenser ("seq1" er som før reference-sekvensen), og svar på følgende:
    • Hvordan påvirkes protein-sekvensen opstrøms (altså "før") for N'erne?
    • Hvordan påvirkes protein-sekvensen nedstrøms ("efter") N'erne?
    • Hvilken af seq4-seq6 er mindst forstyrrende på den oprindelige proteinsekvensen? Hvorfor?

Trin 3: Genetisk kode

  1. Vi skal nu arbejde videre med endnu et gen fra gær. Denne gang er det COX1 som koder for Cytochrome C OXidase, subunit 1 (der er mere information at hente her: COX1 - Saccharomyces Genome Database). Bemærk at det er et mitochondrie-gen. Prøv først at oversætte det med standard instillinger.
>Yeast_COX1 
ATGGTACAAAGATGATTATATTCAACAAATGCAAAAGATATTGCAGTATTATATTTTATG
TTAGCTATTTTTAGTGGTATGGCAGGAACAGCAATGTCTTTAATCATTAGATTAGAATTA
GCTGCACCTGGTTCACAATATTTACATGGTAATTCACAATTATTTAATGTTTTAGTAGTT
GGTCATGCTGTATTAATGATTTTCTTCTTAGTAATGCCTGCTTTAATTGGAGGTTTTGGT
AACTATTTATTACCATTAATAATTGGAGCTACAGATACAGCATTTCCAAGAATTAATAAC
ATTGCTTTTTGAGTATTACCTATGGGGTTAGTATGTTTAGTTACATCAACTTTAGTAGAA
TCAGGTGCTGGTACAGGGTGAACTGTCTATCCACCATTATCATCTATTCAGGCACATTCA
GGACCTAGTGTAGATTTAGCAATTTTTGCATTACATTTAACATCAATTTCATCATTATTA
GGTGCTATTAATTTCATTGTAACAACATTAAATATGAGAACAAATGGTATGACAATGCAT
AAATTACCATTATTTGTATGATCAATTTTCATTACAGCGTTCTTATTATTATTATCATTA
CCTGTATTATCTGCTGGTATTACAATGTTATTATTAGATAGAAACTTCAATACTTCATTC
TTTGAAGTATCAGGAGGTGGTGACCCAATCTTATACGAGCATTTATTTTGATTCTTTGGT
CACCCTGAAGTATATATTTTAATTATTCCTGGATTTGGTATTATTTCACATGTAGTATCA
ACATATTCTAAAAAACCTGTATTTGGTGAAATTTCAATGGTATATGCTATGGCTTCAATT
GGATTATTAGGATTCTTAGTATGATCACATCATATGTATATTGTAGGATTAGATGCAGAT
CTTAGAGCATATTTCCTATCTGCACTAATGATTATTGCAATTCCAACAGGAATTAAAATT
TTCTCATGATTAGCTCTAATCCATGGTGGTTCAATTAGATTAGCACTACCTATGTTATAT
GCAATTGCATTCTTATTCTTATTCACAATGGGTGGTTTAACTGGTGTTGCCTTAGCTAAC
GCCTCATTAGATGTAGCATTCCACGATACTTACTACGTGGTGGGACATTTTCACTATGTA
TTATCAATGGGTGCTATTTTCTCTTTATTTGCAGGATACTATTATTGAAGTCCTCAAATT
TTAGGTTTAAACTATAATGAAAAATTAGCTCAAATTCAATTCTGATTAATTTTCATTGGG
GCTAATGTTATTTTCTTCCCAATGCATTTTTTAGGTATTAATGGTATGCCTAGAAGAATT
CCTGATTATCCTGATGCTTTCGCAGGATGAAATTATGTCGCTTCTATTGGTTCATTCATT
GCACTATTATCATTATTCTTATTTATCTATATTTTATATGATCAATTAGTTAATGGATTA
AACAATAAAGTTAATAATAAATCAGTTATTTATAATAAAGCACCTGATTTTGTAGAATCT
AATCTTATCTTTAATTTAAATACAGTTAAATCTTCATCTATCGAATTCTTATTAACTTCT
CCACCAGCTGTACACTCATTTAATACACCAGCTGTACAATCTTAA

  1. Hvordan gik det med oversættelsen? Det er ikke noget i vejen med DNA sekvensen - Hvorfor ser det ud som det gør?

  2. Behold resultatet af oversættelsen åben (vi skal bruge den igen om lidt), og åben et nyt vindue (eller tab) med Virtual Ribosome. Oversæt sekvensen en gang til, men vælg en anden translations tabel under options (tænk selv over hvilken vi skal bruge).

  3. Hvis du har valgt en rigtige translations-tabel, vil sekvensen kunne oversættes uden problemer. Prøv at sammen ligne med det første resultat, og svar på følgende:
    • Hvad er forskellen mht. brug af STOP codons?
    • Hvad er forskellem mht. brug af START codons?
    • Er der nogen codons der koder for en helt anden amino-syre?

  4. Den præcise definition af de forskellige translations tabeller kan man læse om her: The Genetic Codes - NCBI. Som udgangspunkt vises tabellerne i "komprimeret" format (som gør den nemme at sammenligne), men man kan også få vist en mere traditionel codon-tabel ved at klikke på "Click here to change format". Bemærk:
    • Brugen af START codons er detaljeret beskrevet for alle genetiske koder.
    • Forskellen mellem standard-koden og de andre koder og opsummeret i hvert enkelt afsnit.

Trin 4: Læserammer

(Husk at gå tilbage til at bruge den standard genetiske kode, inden du fortsætter med øvelsen)

  1. Indtil videre har vi antaget at læserammen for DNA-sekvensen er kendt samt at den starter ved det første nucleotid. Vi skal i det følgende kigge lidt nærmere på hvordan man coputermæssigt kan skyde sig ind på den korrekte læseramme. Til denne del af øvelsen skal vi bruge nedenstående sekvens som er hele mRNA sekvensen for et gær-gen (profilin). Ud fra din biologiske viden så tænk over følgende:
    • Gær har introns i nogle af generne - kan det være et problem i dette tilfælde?
    • Kan et mRNA molekyle indeholder mere sekvens end selve genet (altså den protein-kodende sekvens)?
>gi|4226|emb|Y00469.1| Yeast mRNA for profilin
GGCAAATTATGTCTTGGCAAGCATACACTGATAACTTAATAGGAACCGGTAAAGTCGACAAAGCTGTCAT
CTACTCGAGAGCAGGTGACGCTGTTTGGGCTACTTCTGGTGGCCTATCTTTGCAACCAAACGAAATTGGT
GAAATTGTTCAAGGCTTCGACAATCCAGCTGGTTTGCAAAGCAATGGTTTGCATATTCAAGGCCAAAAGT
TCATGTTGTTGAGAGCTGACGATAGAAGTATCTACGGTAGACATGATGCTGAGGGTGTTGTTTGTGTAAG
AACTAAGCAAACCGTTATTATTGCTCATTATCCACCAACCGTACAAGCCGGTGAGGCCACCAAGATTGTC
GAGCAATTGGCTGACTACTTGATTGGTGTTCAATACTAATTTATGCAGGTAAAGTTTTCTTGCCTTATAC
ACCACCTATTCTGGCATCTGCGGGATTTCGCTTCCTATTTTACAAATATTTTATTGATTGACGCTAATTA
TCACTGTAAAAGGCGCACTTTTTATATGTAGTCACATCCGGTATTTAACATATTTACGAAACAGTCTTAA
GAATATCGACATTTGATATACTTATGTTTAATTTATCTACATATTACAATCA
  1. Der er seks mulige læserammer: 1, 2, 3 (på plus-strengen, dvs. sekvensen "som den er") og -1, -2, -3 (på minus-strengen, dvs. på den komplimentære DNA streng). Eftersom vi arbejder med en mRNA sekvens, behøver vi i pricippet ikke kigge på læserammerne på den komplimentære streng.
    • Spørgsmål: hvorfor det?

  2. Prøv i første omgang at oversætte sekvensen i de tre positive læserammer: 1, 2 og 3 (det nemmeste er at holde et vindue eller en tab åben til hver oversættelse - så er det nemmere at sammenligne resultatet).
    • Hvilken læseramme er sandsynligvis den rigtige?
    • NB: husk at der for hver oversættelse kun vises START og STOP codons, som findes i lige netop denne læseramme.
    • Bemærk at DNA-sekvensen vises ens i alle tre oversættelse, men at protein-sekvensen er forskudt - hvorfor det?

  3. Det er også muligt at få flere læserammer vist på en gang: vælg "Plus (1,2,3)" som læseramme og oversæt sekvensen igen.
    • Bemærk: amino-syre bogstavet er centeret over det enkelt codon (dvs. M står over "T" i ATG).
    • Oversættelsen fra læseramme 1 er vist lige henover DNA sekvensen, derefter kommer læseramme 2 og 3.
    • START og STOP codons for alle tre læserammer er vist på en gang.

  4. For en god ordens skyld, skal vi lige undersøge hvordan oversættelsen på minus strengen bliver vist: vælg læseramme -1 og oversæt igen
    • Hvordan ser DNA sekvensen ud nu? I hvilken retning skal den læses?
    • I hvilken retning skal protein-sekvensen læses? Prøv at sammenligne med protein-sekvensen i FASTA format.

  5. Det hele på en gang: vælg "All (6 reading frames)" og oversæt igen.
    • Hvor mange DNA strenges vises der? Hvorfor?
    • Bemærk hvor mange fortolkningmuligheder en enkelt DNA sekvens indeholder mht. oversættelse til protein.

Trin 5: ORF finder

  1. Nu har vi været igennem en manuel screening af de mulige læserammer, og selv det kan være helt fint hvis man har en enkelt DNA sekvens man lige skal have pudset af, så er det ofte mere praktisk at bruge en computerbaseret ORF finder. En ORF (Open Reading Frame) er en DNA sekvens der ikke afbrydes af et STOP codon. Ofte vil man i en given sekvens ledes efter den længste ORF, som så typist vil starte med et START codon og slutte ved et STOP codon.
    • Den længste ORF findes ved at oversætte DNA sekvensen i alle seks læserammer, og så finde den længste protein sekvens.

  2. Vi vil nu bruge en indbyggede ORF finder, med de mest stringente kriterier: vælg "Start codon: strict" (tvinger ORF'en til at starte ved ATG) under "ORF finder" og vælg "All (6 reading frames)" under "Reading frame". Oversæt derefter sekvensen igen.
    • Passer resultatet med den læseramme du selv havde fundet?
    • Vil det betyde noget hvis vi kun har en partiel sekvens hvor det sidste stykke af sekvensen med STOP codon'en mangler?
    • Hvad vil der ske hvis de første 50 nucleotider (med START codon'et) mangler?

Proteindatabaser

I denne del af øvelsen skal vi finde information i proteindatabaser, først og fremmest den vigtigste internationale database, UniProt. Den administreres af et samarbejde mellem Swiss Institute of Bioinformatics (SIB)European Bioinformatics Institute (EBI), og Georgetown University.

UniProt, http://www.uniprot.org/,  består af tre dele:

  • UniProt Knowledgebase (UniProtKB)
    proteinsekvenser med annotering og referencer
  • UniProt Reference Clusters (UniRef)
    homologi-reduceret database, hvor sekvenser der ligner hinanden meget er slået sammen i samme entry
  • UniProt Archive (UniParc)
    et arkiv der gemmer alle versioner af alle proteinsekvenser der har eksisteret gennem tiden - uden annoteringer
Heraf er det UniProtKB man i langt de fleste tilfælde har brug for, og det er også den vi skal bruge i dag.  Den består igen af to dele:
  • UniProtKB/Swiss-Prot
    en manuelt annoteret proteindatabase.
  • UniProtKB/TrEMBL
    et computer-annoteret supplement til Swiss-Prot, som indeholder alle de translationer af EMBL nukleotidsekvenser som endnu ikke er blevet integreret i Swiss-Prot.
Heraf vil vi i dag koncentrere os om Swiss-Prot.  Den mest kendte indgang til databasen er websitet ExPASy, der administreres af SIB, men det vil fremover blive afløst af et nyt interface. Da dette kursus gerne skulle forberede jer til fremtiden, kaster vi os frygtløst ud i beta-versionen af det nye interface, http://beta.uniprot.org/.

Simpel tekstsøgning

Først skal vi finde nogle Swiss-Prot entries ud fra ord i deres beskrivelse.  Den første opgave går ud på at finde humant insulin, som vi også søgte efter i GenBank i sidste uge.
  1. Åbn UniProt's nye hjemmeside: http://beta.uniprot.org/ (i et nyt vindue eller en ny tab).

  2. Prøv at indtaste "human insulin" i søgefeltet i toppen af siden.  Lad Search-menuen stå på "Protein Knowledgebase (UniProtKB)", som er default. Hvor mange hits kommer der?  
  3. Hvor mange af disse hits er fra Swiss-Prot? (tip: klik på "Show only reviewed")

  4. Kan I finde det rigtige hit i listen? Bemærk: Det kommer ret højt oppe, fordi det nye UniProt-interface kan sortere resulaterne efter relevans, lidt i stil med Google. Det kan GenBank ikke (som I så i sidste uge), og det gamle UniProt-interface på  ExPASy kan heller ikke. Hvorfor mon det hedder "Insulin precursor"?  Hvis I ikke kan svare på det nu, kommer der en forklaring når I har kigget nærmere på det i databasen (næste del af øvelsen).

  5. Hvis man ikke er så heldig at finde det rigtige hit med det samme, er det godt at vide hvordan man kan indsnævre søgningen. Vi skal nu, ligesom i sidste uge, bede om kun at få proteiner, der faktisk kommer fra mennesker og hedder noget med "insulin", og ikke bare indeholder ordene "human" og "insulin" irrelevante steder i beskrivelsen. Det er nemt nok:

    1. Ud for 'Restrict term "human" to' klik på "organism". Hvor mange hits er der nu tilbage (stadig kun i Swiss-Prot)?
    2. Ud for 'Restrict term "insulin" to' klik på "protein name". Hvor mange hits er der nu tilbage (stadig kun i Swiss-Prot)?
  6. Bemærk, at alle de valg I foretager med musen faktisk bliver vist i tekstformat øverst på siden (i boksen "Query"). Det er muligt at redigere sine søgninger i denne boks og gøre dem bredere eller smallere. Prøv f.eks., ligesom i sidste uge, at udelukke proteiner, der ikke er insulin men bare insulin-lignende. Tilføj følgende til teksten i boksen: NOT name:insulin-like og klik på Search-knappen. Hvor mange hits er der nu tilbage?

  7. Prøv på lignende måde at udelukke de proteiner, der er insulinreceptorer eller substrater for insulinreceptorer. Hvor mange hits er der nu tilbage?
  8. Prøv gerne andre muligheder af på egen hånd. I kan finde hjælp til mulighederne i Query-boksen her.


Indholdet af Swiss-Prot

Så skal vi se nærmere på hvilken information der egentlig er i et Swiss-Prot entry, og hvilke oplysninger man kan komme til via links derfra..
  1. Klik på accession-nummeret for insulin (den blå kode i feltet "Accession") for at komme til selve insulin-entryet.  Orienter jer på denne side og få overblik over hvilke informationer den indeholder.  

  2. Se også på "flat-file" versionen af Swiss-Prot entryet (dvs. det underliggende data uden alt det pæne web-layout). Åbn linket fra den orange boks mærket "TEXT" i et nyt vindue eller en ny tab, så du kan sammenligne de to versioner. Ved at studere tekstversionen nærmere kan man finde ud af, at den faktisk indeholder præcis den samme information som web-versionen, selv om formatet er mindre overskueligt. Rækkefølgen af oplysningerne er dog anderledes (men OBS: man kan faktisk flytte en gruppe oplysninger i web-versionen ved at trække i den grå bjælke med musen!). 

  3. I web-versionen kan man få en kort forklaring til et feltnavn (f.eks. "Protein names") ved at holde musen over det et øjeblik, og man kan få en detaljeret forklaring (manual) ved at klikke på feltnavnet. Prøv det! Bemærk: Eksemplerne i manualen stammer fra flat-file versionen. 
  4. Blad ned til referencerne - hvor mange er der?  (Insulin er et meget velundersøgt protein).  Bemærk hvad hver enkelt reference har bidraget med ("Cited for" eller RP linjerne i flat-file).  Man kan komme videre til PubMed litteraturdatabasen på NCBI ved at klikke på linket mærket "PubMed" ved en reference - prøv det.  Abstractet til artiklen kan læses der (eller direkte hos UniProt vha. "Abstract"-linket), hvis der ellers er tale om en rigtig artikel og ikke en "direct submission". For nyere artikler er der ofte også et link fra PubMed videre til fuld tekst online, men for at få adgang til den kræves det i mange tilfælde at man er logget ind via et bibliotek (f.eks. DTV). 

  5. Blad tilbage til "Ontologies". Her finder I dels keywords (KW linjer i flat-file), dels en masse "Gene Ontology" termer (DR GO linjer i flat-file).  Det er krydshenvisninger til en database ved navn Gene Ontology, der består af præcist definerede annoteringstermer for gener og proteiner, organiseret i et hierarkisk system.  Der findes tre typer termer: "biological process", "molecular function" og "cellular component".  Ved at klikke på de enkelte GO links kommer man dog ikke til selve Gene Ontology's webside, men til en browser der hedder "QuickGO" på EBI.  Prøv det - f.eks. det der hedder "hormone activity".  Her kan I læse en definition af hvad et hormon egentlig er for noget, og man kan se "parent terms" (hvilke overordnede kategorier hormonaktivitet hører under) og "child terms" (hvilke underkategorier der findes af hormonaktivitet).

  6. Læs "General annotation (Comments)" (CC linjerne i flat-file).  Her finder man noget af selve den funktionelle og strukturelle annotering af proteinet - resten er i "Features" (FT linjerne).  Kommentarerne er inddelt i et begrænset antal (p.t. 27) kommentartyper ("topics"), mens selve indholdet af hver kommentartype oftest er i frit format. En af de vigtigste kommentartyper er naturligvis "Function".  Bemærk at der faktisk ikke står her, at insulin er et hormon - det står til gengæld i Keywords (KW linjerne) og i en af Gene Ontology (GO) henvisningerne (som vi kommer til lidt senere).  En anden kommentartype er "Subcellular location" - hvor finder man insulin?  Hvorfor er det der?

  7. Blad videre ned til "Sequence annotation (Features)" (FT linjerne i flat-file).  Bemærk følgende:
    1. Insulin har både et signalpeptid og et propeptid.  Begge disse bliver klippet af før sekretionen.  Det færdige insulin (A og B kæderne) er altså væsentlig mindre end det der bliver vist under "Sequence information".
    2. Sekundærstrukturen er specificeret som "HELIX" (alpha-helix), "STRAND" (del af beta-pleated sheet) eller "TURN" (skarp overgang mellem andre sekundærstrukturelementer) - prøv at klikke på "Details...".  Der er også tre disulfidbroer (kovalente bindinger mellem to cysteiner), to af disse holder A- og B-kæderne sammen.
    3. Der er nogle beskrevne varianter (mutationer) af insulin.  I visse tilfælde ved man præcis hvilken fænotype (forskellige varianter af sukkersyge) de forårsager.
  8. Vi skal nu udforske nogle enkelte af de databaser (ud over PubMed og GO) som Swiss-Prot linker videre til.  De findes under "Cross-references" (DR linjerne i flat-file).  I den pænt formaterede udgave er de delt op i en række emner.  Under "Sequence databases" finder man først og fremmest links til nukleotiddatabaserne.  Bemærk at der er adskillige nukleotid-entries for dette ene protein-entry.  Sæt den lille menu til venstre til "GenBank" og klik på et af accession-numrene.  Ligner det noget I har set sidste uge?

  9. For at se tertiærstrukturen må man videre til en anden database, RCSB PDB under "3D structure databases".  Den kommer I til at høre meget mere om næste uge, men lad os lige tage et enkelt kig.  Som I kan se, er 3-D strukturen af insulin blevet bestemt adskillige gange.  Vælg en af dem der er mærket "X-ray" under "Method" og klik på Entry-linket.  Ud over diverse information om molekylet og den eksperimentelle procedure der er brugt, er der et nydeligt lille billede af insulin tegnet i en "ribbon"-repræsentation, hvor kun sekundærstrukturelementerne, ikke de enkelte atomer, er vist.  Under "Display Options" kan man komme videre til flere interaktive Java-baserede visualiseringsværktøjer, hvor man med musen kan dreje molekylet rundt og se det fra forskellige vinkler - prøv det evt. senere hvis I har tid til overs.
  10. Under "Family and domain databases" er der en lang række databaser der med forskellige metoder har samlet  proteiner der ligner hinanden (familier).  I nogle tilfælde ligner proteiner hinanden i visse dele (domæner) af sekvensen, men ikke i andre, og i disse tilfælde kan sådanne databaser fortælle hvilke dele af det aktuelle protein der er kendt i andre sammenhænge.  Visse store proteiner kan være sammensat af mange dele med hver sin evolutionære historie!  Den vigtigste af disse databaser er InterPro, fordi den samler resultaterne fra stort set alle de andre.  Prøv at klikke på det øverste InterPro link, der kommer I til et væld af oplysninger om insulin-familien med et fyldigt abstract og en lang litteraturliste.

Avanceret søgning

UniProts nye interface giver mulighed for at søge på de fleste felter i databasen, ikke kun de mest oplagte som navn og organisme, som vi prøvede før, men også de funktionelle og strukturelle annoteringer. Nu skal vi prøve nogle enkelte af dem.
  1. Gå tilbage til UniProt's hjemmeside: http://beta.uniprot.org/. Klik på ordet "Fields" til højre for søgefeltet. 

  2. Nu skal vi se, hvor mange proteiner der er udskilt af cellen ("secreted") ligesom insulin. Vælg "General annotation [CC]" i menuen "Field". Nu dukker de endnu en menu op, kaldet "Topic".  Vælg "Subcellular location". indtast derefter "secreted" i feltet "Term" og klik på "Add & Search"-knappen. Hvor mange er der?

  3. Kombinering af felter: Hvor mange sekretoriske proteiner er der i mennesket?  Klik på "Fields" igen, lad menuen længst til venstre stå på "AND", vælg "Organism [OS]" under "Field", indtast "human" i feltet "Term" og klik på "Add & Search"-knappen. Hvor mange er der nu? (Bemærk igen hvordan man også kan løse opgaven ved at redigere i søgningen i "Query"-boksen - men så er man nødt til at vide hvad de enkelte felter hedder).
  4. Numerisk felt: Hvilke ekstremt korte proteiner findes der i UniProt? Slet den hidtidige søgning ved at klikke på "Clear"-knappen. Klik på "Fields" igen og vælg "Sequence length". Der kommer nu to nye felter, hvor man kan indtaste nedre og øvre grænse. Indtast henholdsvis 1 og 10 og søg. Hvor mange er der?

  5. Ekstremt korte proteiner i TrEMBL kan nemt være fejl, hvor der ikke er egentlig evidens for at sekvensen er proteinkodende. Derfor vil vi begrænse søgningen til Swiss-Prot (se ovenfor hvordan man gjorde det).Hvor mange er der tilbage?

  6. Læg mærke til at mange af de fundne proteiner er fragmenter ifølge beskrivelsen.  Lad os prøve at udelukke dem. Klik på "Fields" igen, lad menuen længst til venstre stå på "AND", sæt "Field" til "Fragment (yes/no)", vælg "no" og søg. Hvor mange er der nu tilbage?

  7. Og med den erfaring, I nu har fået, skulle det være en smal sag at svare på det sidste spørgsmål: hvor mange af de disse ekstremt korte ikke-fragment proteiner er fra mennesket? (svaret er 7!) Kig nærmere på nogle af de hits, I nu har fundet, og se hvilke funktioner de har.
  8. Prøv så til sidst at gemme hele resultatet af jeres sidste søgning. Klik på den orange "Download..." knap øverst til højre, så får I muligheden for at få resultatet i én fil. Kig på FASTA-formatet og Flat Text formatet (brug "Open"-linksene i stedet for "Download").


Hvis I har mere tid...

...så prøv nogle af søgningerne fra den frie del af sidste uges øvelse, bare på UniProt i stedet for GenBank: alkohol-dehydrogenase, alpha-globin, actin og p53.