Events News Research CBS CBS Publications Bioinformatics
Staff Contact About Internal CBS CBS Other

Øvelse: Translation og proteindatabaser


Øvelse skrevet af: Rasmus Wernersson og Henrik Nielsen

Translation - Virtual Ribosome

Til denne del af øvelsen skal vi bruge Virtual Ribosome - et stykke software der tilbyder en række advancerede funktioner mht. oversættelse af DNA til protein. Udover brug af de simple funktioner til oversættelse af DNA med en kendt læserammen, skal vi arbejde med computerbaseret analyse af mulige læserammer, placering af START of STOP codons osv.

Trin 1: Basalt brug

  1. Åben Virtual Ribosome i et andet vindue (eller tab): www.cbs.dtu.dk/services/VirtualRibosome/. Brug et minut eller to på at orienterer dig på siden - hvor skal input-data sættes ind, og hvilken slags indstillingsmuligheder (options) findes.

  2. Hvis man bare har en enkelt sekvens der skal oversættes, kan man paste den direkte ind (evt. tal og mellemrum bliver automatisk ignoreret) - alternative kan Virtual Ribosome læse en række andre fil-formater, hvor der kan være flere sekvenser (fx. FASTA).

  3. Los os starte med at kigge på en simpelt oversættelse af et kendt gen: Actin (fra gær). Kopiér nedenstående sekvens ind i sekvens-feltet og tryk på "submit".
>Yeast_ACT1
ATGGATTCTGAGGTTGCTGCTTTGGTTATTGATAACGGTTCTGGTATGTGTAAAGCCGGT
TTTGCCGGTGACGACGCTCCTCGTGCTGTCTTCCCATCTATCGTCGGTAGACCAAGACAC
CAAGGTATCATGGTCGGTATGGGTCAAAAAGACTCCTACGTTGGTGATGAAGCTCAATCC
AAGAGAGGTATCTTGACTTTACGTTACCCAATTGAACACGGTATTGTCACCAACTGGGAC
GATATGGAAAAGATCTGGCATCATACCTTCTACAACGAATTGAGAGTTGCCCCAGAAGAA
CACCCTGTTCTTTTGACTGAAGCTCCAATGAACCCTAAATCAAACAGAGAAAAGATGACT
CAAATTATGTTTGAAACTTTCAACGTTCCAGCCTTCTACGTTTCCATCCAAGCCGTTTTG
TCCTTGTACTCTTCCGGTAGAACTACTGGTATTGTTTTGGATTCCGGTGATGGTGTTACT
CACGTCGTTCCAATTTACGCTGGTTTCTCTCTACCTCACGCCATTTTGAGAATCGATTTG
GCCGGTAGAGATTTGACTGACTACTTGATGAAGATCTTGAGTGAACGTGGTTACTCTTTC
TCCACCACTGCTGAAAGAGAAATTGTCCGTGACATCAAGGAAAAACTATGTTACGTCGCC
TTGGACTTCGAACAAGAAATGCAAACCGCTGCTCAATCTTCTTCAATTGAAAAATCCTAC
GAACTTCCAGATGGTCAAGTCATCACTATTGGTAACGAAAGATTCAGAGCCCCAGAAGCT
TTGTTCCATCCTTCTGTTTTGGGTTTGGAATCTGCCGGTATTGACCAAACTACTTACAAC
TCCATCATGAAGTGTGATGTCGATGTCCGTAAGGAATTATACGGTAACATCGTTATGTCC
GGTGGTACCACCATGTTCCCAGGTATTGCCGAAAGAATGCAAAAGGAAATCACCGCTTTG
GCTCCATCTTCCATGAAGGTCAAGATCATTGCTCCTCCAGAAAGAAAGTACTCCGTCTGG
ATTGGTGGTTCTATCTTGGCTTCTTTGACTACCTTCCAACAAATGTGGATCTCAAAACAA
GAATACGACGAAAGTGGTCCATCTATCGTTCACCACAAGTGTTTCTAA
  1. Kig resultatet grundig igennem. Bemærk at der bådes vises DNA sekvens, proteinsekvens samt information om START og STOP codons. Du kan klikke på linket til "instructions" (både på hovedsiden og resultatsiden), for at få en uddybende forklaring på hvad der vises. Bemærk at også at den "rå" protein-sekvens kan ses (og downloades) i FASTA format.

  2. Inden du går videre skal du kunne svare på følgende spørgsmål:
    • Hvordan vises et STOP codon?
    • Hvordan vises et START codon?
    • Koder et start-codon altid for Methionine (M)?
    • Hvad for forskellen på de to typer start codons?

Trin 2: Degenererede nucleotider

  1. I de næste på trin skal vi kigge lidt på brugen af det degenererede DNA alfabet i forbindelse med oversættelse. Det degenererede alfabet bliver typisk brugt, hvis sekventeringen ikke har givet et entydig resultat, men at man på den anden side ikke har lyst til at smide hele sekvensen væk. Alfabetet er en IUPAC standard, og er defineret som følger:
Letter Description Bases represented

A Adenine A
T Thymine T
G Guanine G
C Cytosine C
Y pYrimidine C T
R puRine A G
S Strong G C
W Weak A T
K Keto T G
M aMino A C
B Not A C G T
D Not C A G T
H Not G A C T
V Not T/U A C G
N aNy A C G T
  1. Lad os arbejde videre med de atten første baser fra actin genet, og se hvordan tilstædeværelsen af degenererede postioner påvirker resultatet. Som et "trick" bruger vi her FASTA formatet til at submitte flere sekvenser på een gang:
>seq1
ATGGATTCTGAGGTTGCT
>seq2
ATGNATTCTGNGGTNGCT
>seq3
ATGGAYTCNGARGTNGCN
>seq3b
HTGGAYTCNGARGTNGCN
  1. Oversæt de tre overstående sekvenser, og svar på følgende:
    • Hvad sker det med proteinsekvensen hvis DNA sekvensen er tvetydig?
    • I hvilken position i hvert codon vil du forvente at et "N" vil påvirke protein-sekvensen mindst? Hvorfor?
    • Hvor mange degenererede positioner er der i "seq3" - og hvad betyder de?
    • Hvad er forskellen på seq3 og seq3b?

  2. Ofte bliver det degenererede alfabet også brugt til at "fylde ind" med ukendt sekvens, hvis man (fx. fra genetiske kort), ved at der er en vis afstand mellem to sekvenser, som ikke er sekventeret endnu. Fx. støder man ofte på lange sekvenser af "N"'er i musens genome (i skrivende stund, 2007), som netop bare bliver brugt at at vise at "her er noget". Vi vil nu se hvordan en sådan række af N'er påvirker proteinsekvensen:
>seq1
ATGGATTCTGAGGTTGCT
>seq4
ATGGATTCTNNNNNNNNNGAGGTTGCT
>seq5
ATGGATTCTNNNNNNNNNNGAGGTTGCT
>seq6
ATGGATTCTNNNNNNNNNNNGAGGTTGCT

  1. Oversæt de overstående sekvenser ("seq1" er som før reference-sekvensen), og svar på følgende:
    • Hvordan påvirkes protein-sekvensen opstrøms (altså "før") for N'erne?
    • Hvordan påvirkes protein-sekvensen nedstrøms ("efter") N'erne?
    • Hvilken af seq4-seq6 er mindst forstyrrende på den oprindelige proteinsekvensen? Hvorfor?

Trin 3: Genetisk kode

  1. Vi skal nu arbejde videre med endnu et gen fra gær. Denne gang er det COX1 som koder for Cytochrome C OXidase, subunit 1 (der er mere information at hente her: COX1 - Saccharomyces Genome Database). Bemærk at det er et mitochondrie-gen. Prøv først at oversætte det med standard instillinger.
>Yeast_COX1 
ATGGTACAAAGATGATTATATTCAACAAATGCAAAAGATATTGCAGTATTATATTTTATG
TTAGCTATTTTTAGTGGTATGGCAGGAACAGCAATGTCTTTAATCATTAGATTAGAATTA
GCTGCACCTGGTTCACAATATTTACATGGTAATTCACAATTATTTAATGTTTTAGTAGTT
GGTCATGCTGTATTAATGATTTTCTTCTTAGTAATGCCTGCTTTAATTGGAGGTTTTGGT
AACTATTTATTACCATTAATAATTGGAGCTACAGATACAGCATTTCCAAGAATTAATAAC
ATTGCTTTTTGAGTATTACCTATGGGGTTAGTATGTTTAGTTACATCAACTTTAGTAGAA
TCAGGTGCTGGTACAGGGTGAACTGTCTATCCACCATTATCATCTATTCAGGCACATTCA
GGACCTAGTGTAGATTTAGCAATTTTTGCATTACATTTAACATCAATTTCATCATTATTA
GGTGCTATTAATTTCATTGTAACAACATTAAATATGAGAACAAATGGTATGACAATGCAT
AAATTACCATTATTTGTATGATCAATTTTCATTACAGCGTTCTTATTATTATTATCATTA
CCTGTATTATCTGCTGGTATTACAATGTTATTATTAGATAGAAACTTCAATACTTCATTC
TTTGAAGTATCAGGAGGTGGTGACCCAATCTTATACGAGCATTTATTTTGATTCTTTGGT
CACCCTGAAGTATATATTTTAATTATTCCTGGATTTGGTATTATTTCACATGTAGTATCA
ACATATTCTAAAAAACCTGTATTTGGTGAAATTTCAATGGTATATGCTATGGCTTCAATT
GGATTATTAGGATTCTTAGTATGATCACATCATATGTATATTGTAGGATTAGATGCAGAT
CTTAGAGCATATTTCCTATCTGCACTAATGATTATTGCAATTCCAACAGGAATTAAAATT
TTCTCATGATTAGCTCTAATCCATGGTGGTTCAATTAGATTAGCACTACCTATGTTATAT
GCAATTGCATTCTTATTCTTATTCACAATGGGTGGTTTAACTGGTGTTGCCTTAGCTAAC
GCCTCATTAGATGTAGCATTCCACGATACTTACTACGTGGTGGGACATTTTCACTATGTA
TTATCAATGGGTGCTATTTTCTCTTTATTTGCAGGATACTATTATTGAAGTCCTCAAATT
TTAGGTTTAAACTATAATGAAAAATTAGCTCAAATTCAATTCTGATTAATTTTCATTGGG
GCTAATGTTATTTTCTTCCCAATGCATTTTTTAGGTATTAATGGTATGCCTAGAAGAATT
CCTGATTATCCTGATGCTTTCGCAGGATGAAATTATGTCGCTTCTATTGGTTCATTCATT
GCACTATTATCATTATTCTTATTTATCTATATTTTATATGATCAATTAGTTAATGGATTA
AACAATAAAGTTAATAATAAATCAGTTATTTATAATAAAGCACCTGATTTTGTAGAATCT
AATCTTATCTTTAATTTAAATACAGTTAAATCTTCATCTATCGAATTCTTATTAACTTCT
CCACCAGCTGTACACTCATTTAATACACCAGCTGTACAATCTTAA

  1. Hvordan gik det med oversættelsen? Det er ikke noget i vejen med DNA sekvensen - Hvorfor ser det ud som det gør?

  2. Behold resultatet af oversættelsen åben (vi skal bruge den igen om lidt), og åben et nyt vindue (eller tab) med Virtual Ribosome. Oversæt sekvensen en gang til, men vælg en anden translations tabel under options (tænk selv over hvilken vi skal bruge).

  3. Hvis du har valgt en rigtige translations-tabel, vil sekvensen kunne oversættes uden problemer. Prøv at sammen ligne med det første resultat, og svar på følgende:
    • Hvad er forskellen mht. brug af STOP codons?
    • Hvad er forskellem mht. brug af START codons?
    • Er der nogen codons der koder for en helt anden amino-syre?

  4. Den præcise definition af de forskellige translations tabeller kan man læse om her: The Genetic Codes - NCBI. Som udgangspunkt vises tabellerne i "komprimeret" format (som gør den nemme at sammenligne), men man kan også få vist en mere traditionel codon-tabel ved at klikke på "Click here to change format". Bemærk:
    • Brugen af START codons er detaljeret beskrevet for alle genetiske koder.
    • Forskellen mellem standard-koden og de andre koder og opsummeret i hvert enkelt afsnit.

Trin 4: Læserammer

(Husk at gå tilbage til at bruge den standard genetiske kode, inden du fortsætter med øvelsen)

  1. Indtil videre har vi antaget at læserammen for DNA-sekvensen er kendt samt at den starter ved det første nucleotid. Vi skal i det følgende kigge lidt nærmere på hvordan man coputermæssigt kan skyde sig ind på den korrekte læseramme. Til denne del af øvelsen skal vi bruge nedenstående sekvens som er hele mRNA sekvensen for et gær-gen (profilin). Ud fra din biologiske viden så tænk over følgende:
    • Gær har introns i nogle af generne - kan det være et problem i dette tilfælde?
    • Kan et mRNA molekyle indeholder mere sekvens end selve genet (altså den protein-kodende sekvens)?
>gi|4226|emb|Y00469.1| Yeast mRNA for profilin
GGCAAATTATGTCTTGGCAAGCATACACTGATAACTTAATAGGAACCGGTAAAGTCGACAAAGCTGTCAT
CTACTCGAGAGCAGGTGACGCTGTTTGGGCTACTTCTGGTGGCCTATCTTTGCAACCAAACGAAATTGGT
GAAATTGTTCAAGGCTTCGACAATCCAGCTGGTTTGCAAAGCAATGGTTTGCATATTCAAGGCCAAAAGT
TCATGTTGTTGAGAGCTGACGATAGAAGTATCTACGGTAGACATGATGCTGAGGGTGTTGTTTGTGTAAG
AACTAAGCAAACCGTTATTATTGCTCATTATCCACCAACCGTACAAGCCGGTGAGGCCACCAAGATTGTC
GAGCAATTGGCTGACTACTTGATTGGTGTTCAATACTAATTTATGCAGGTAAAGTTTTCTTGCCTTATAC
ACCACCTATTCTGGCATCTGCGGGATTTCGCTTCCTATTTTACAAATATTTTATTGATTGACGCTAATTA
TCACTGTAAAAGGCGCACTTTTTATATGTAGTCACATCCGGTATTTAACATATTTACGAAACAGTCTTAA
GAATATCGACATTTGATATACTTATGTTTAATTTATCTACATATTACAATCA
  1. Der er seks mulige læserammer: 1, 2, 3 (på plus-strengen, dvs. sekvensen "som den er") og -1, -2, -3 (på minus-strengen, dvs. på den komplimentære DNA streng). Eftersom vi arbejder med en mRNA sekvens, behøver vi i pricippet ikke kigge på læserammerne på den komplimentære streng.
    • Spørgsmål: hvorfor det?

  2. Prøv i første omgang at oversætte sekvensen i de tre positive læserammer: 1, 2 og 3 (det nemmeste er at holde et vindue eller en tab åben til hver oversættelse - så er det nemmere at sammenligne resultatet).
    • Hvilken læseramme er sandsynligvis den rigtige?
    • NB: husk at der for hver oversættelse kun vises START og STOP codons, som findes i lige netop denne læseramme.
    • Bemærk at DNA-sekvensen vises ens i alle tre oversættelse, men at protein-sekvensen er forskudt - hvorfor det?

  3. Det er også muligt at få flere læserammer vist på en gang: vælg "Plus (1,2,3)" som læseramme og oversæt sekvensen igen.
    • Bemærk: amino-syre bogstavet er centeret over det enkelt codon (dvs. M står over "T" i ATG).
    • Oversættelsen fra læseramme 1 er vist lige henover DNA sekvensen, derefter kommer læseramme 2 og 3.
    • START og STOP codons for alle tre læserammer er vist på en gang.

  4. For en god ordens skyld, skal vi lige undersøge hvordan oversættelsen på minus strengen bliver vist: vælg læseramme -1 og oversæt igen
    • Hvordan ser DNA sekvensen ud nu? I hvilken retning skal den læses?
    • I hvilken retning skal protein-sekvensen læses? Prøv at sammenligne med protein-sekvensen i FASTA format.

  5. Det hele på en gang: vælg "All (6 reading frames)" og oversæt igen.
    • Hvor mange DNA strenges vises der? Hvorfor?
    • Bemærk hvor mange fortolkningmuligheder en enkelt DNA sekvens indeholder mht. oversættelse til protein.

Trin 5: ORF finder

  1. Nu har vi været igennem en manuel screening af de mulige læserammer, og selv det kan være helt fint hvis man har en enkelt DNA sekvens man lige skal have pudset af, så er det ofte mere praktisk at bruge en computerbaseret ORF finder. En ORF (Open Reading Frame) er en DNA sekvens der ikke afbrydes af et STOP codon. Ofte vil man i en given sekvens ledes efter den længste ORF, som så typist vil starte med et START codon og slutte ved et STOP codon.
    • Den længste ORF findes ved at oversætte DNA sekvensen i alle seks læserammer, og så finde den længste protein sekvens.

  2. Vi vil nu bruge en indbyggede ORF finder, med de mest stringente kriterier: vælg "Start codon: strict" (tvinger ORF'en til at starte ved ATG) under "ORF finder" og vælg "All (6 reading frames)" under "Reading frame". Oversæt derefter sekvensen igen.
    • Passer resultatet med den læseramme du selv havde fundet?
    • Vil det betyde noget hvis vi kun har en partiel sekvens hvor det sidste stykke af sekvensen med STOP codon'en mangler?
    • Hvad vil der ske hvis de første 50 nucleotider (med START codon'et) mangler?

Proteindatabaser

I denne del af øvelsen skal vi finde information i proteindatabaser, først og fremmest den vigtigste internationale database, UNIPROT.  Først lidt generel information:

UNIPROT, http://www.ebi.uniprot.org/,  består af tre dele:

  • UniProt Knowledgebase (UniProtKB)
    proteinsekvenser med annotering og referencer
  • UniProt Reference Clusters (UniRef)
    homologi-reduceret database, hvor sekvenser der ligner hinanden meget er slået sammen i samme entry
  • UniProt Archive (UniParc)
    et arkiv der gemmer alle versioner af alle proteinsekvenser der har eksisteret gennem tiden - uden annoteringer
Heraf er det UniProtKB man i langt de fleste tilfælde har brug for, og det er også den vi skal bruge i dag.  Den består igen af to dele:
  • UniProtKB/Swiss-Prot
    en manuelt annoteret proteindatabase.
  • UniProtKB/TrEMBL
    et computer-annoteret supplement til Swiss-Prot, som indeholder alle de translationer af EMBL nukleotidsekvenser som endnu ikke er blevet integreret i Swiss-Prot.
Heraf vil vi i dag koncentrere os om Swiss-Prot.  Den kan findes dels på websitet ExPASy, der administreres af Swiss Institute of Bioinformatics (SIB), og dels hos European Bioinformatics Institute (EBI)

Simpel tekstsøgning

Først skal vi finde nogle Swiss-Prot entries ud fra ord i deres beskrivelse.  Den første opgave går ud på at finde humant insulin, som vi også søgte efter i GenBank i sidste uge.
  1. Åbn UniProt Knowledgebase på ExPASy: http://www.expasy.org/sprot/ (i et nyt vindue).

  2. Prøv at indtaste "human insulin" i søgefeltet i toppen af siden.  Lad Search-menuen stå på "Swiss-Prot/TrEMBL", som er default. Hvor mange hits kommer der?  Hvor mange i Swiss-Prot, og hvor mange i TrEMBL?
    Bemærk: denne søgning leder kun i flg. linjer:
  3. entry name (ID), description (DE), gene name (GN), species (OS) og organelle (OG)
  4. For at indsnævre søgningen lidt, skal vi nu, ligesom i sidste uge, prøve at udelukke proteiner der ikke er insulin, men insulin-lignende eller binder insulin eller reguleres af insulin.  Gå tilbage til startsiden og derfra til "Advanced search in the UniProt Knowledgebase".

  5. Læs hvad der står om wildcard ("*") på siden nedenfor selve søgeformularen.  Tror I vi skal bruge wildcard i denne søgning?  Skal feltet "Append and prefix * to query terms" være markeret eller ej?

  6. Indtast "insulin" som "Description", lad "Gene name" stå tom, og vælg "Human" som organisme.  Undgå TrEMBL-resultaterne ved at fjerne markeringen fra "UniProtKB/TrEMBL"-feltet.  Udfør søgningen.

  7. Hvor mange resultater kommer der nu?  (Bemærk: de første fire hits er lidt underlige - jeg har ikke nogen god forklaring hvorfor de er kommet med.).  Find det rigtige insulin på listen.  Hvorfor mon det hedder "Insulin precursor"?  Hvis I ikke kan svare på det nu, kommer der en forklaring når I har kigget nærmere på det i databasen.

Indholdet af Swiss-Prot

Så skal vi se nærmere på hvilken information der egentlig er i et Swiss-Prot entry, og hvilke oplysninger man kan komme til via links derfra..
  1. Klik på accession-nummeret for insulin (den blå kode i feltet "AC") for at komme til selve insulin-entryet.  Orienter jer på denne side og få overblik over hvilke informationer den indeholder.  Bemærk: Man kan få en detaljeret forklaring (manual) til de fleste af felterne ved at klikke på feltnavnet.  Prøv det!

  2. Se også på flat-file versionen af Swiss-Prot entryet: Klik på accession-nummeret i overskriften eller på "View entry in original UniProtKB/Swiss-Prot format" nederst. Når du kigger nærmere på den vil du finde ud af at den faktisk indeholder præcis den samme information som den side du kom fra, selv om formatet er mindre overskueligt.  Bemærk: Eksemplerne i manualen stammer fra flat-file versionen.  Gå tilbage til den pænt formaterede side, hvis du foretrækker det.

  3. Se på referencerne - hvor mange er der?  (Insulin er et meget velundersøgt protein).  Bemærk hvad hver enkelt reference har bidraget med (RP linjerne).  Man kan komme videre til PubMed litteraturdatabasen på NCBI ved at klikke på linket "NCBI" ved en reference - prøv det.  Hvis artiklen ikke er alt for gammel, kan man læse abstract der.  For nyere artikler er der ofte også link videre til fuld tekst online, men for at få adgang til den kræves det i mange tilfælde at man er logget ind via et bibliotek. 

  4. Læs "Comments" (CC linjerne).  Her finder man noget af selve den funktionelle og strukturelle annotering af proteinet - resten er i "Features" (FT linjerne).  Kommentarerne er inddelt i et begrænset antal (p.t. 27) kommentartyper ("topics"), mens selve indholdet af hver kommentartype er i frit format. En af de vigtigste kommentartyper er naturligvis "FUNCTION".  Bemærk at der faktisk ikke står her, at insulin er et hormon - det står til gengæld i Keywords (KW linjerne) og i en af GO henvisningerne (som vi kommer til lidt senere).  En anden kommentartype er "SUBCELLULAR LOCATION" - hvor finder man insulin?  Hvorfor er det der?

  5. Blad videre ned til "Features" (FT linjerne).  Bemærk følgende:
    1. Insulin har både et signalpeptid ("SIGNAL") og et propeptid ("PROPEP").  Begge disse bliver klippet af før sekretionen.  Det færdige insulin (A og B kæderne) er altså væsentlig mindre end det der bliver vist under "Sequence information".
    2. Sekundærstrukturen er specificeret som "HELIX" (alpha-helix), "STRAND" (del af beta-pleated sheet) eller "TURN" (skarp overgang mellem andre sekundærstrukturelementer).  Der er også tre disulfidbroer (kovalente bindinger mellem to cysteiner).
    3. Der er nogle beskrevne varianter (mutationer) af insulin.  I visse tilfælde ved man præcis hvilken fænotype (forskellige varianter af sukkersyge) de forårsager.
  6. Vi skal nu udforske nogle enkelte af de databaser som Swiss-Prot linker videre til.  De findes under "Cross-references" (DR linjerne).  I den pænt formaterede udgave er de delt op i en række emner.  Under "Sequence databases" finder man først og fremmest links til nukleotiddatabaserne.  Bemærk at der er adskillige nukleotid-entries for dette ene protein-entry.  Klik på et af "GenBank"-linksene.  Ligner det noget I har set sidste uge?

  7. For at se tertiærstrukturen må man videre til en anden database, RCSB PDB under "3D structure databases".  Den kommer I til at høre meget mere om næste uge, men lad os lige tage et enkelt kig.  Som I kan se, er 3-D strukturen af insulin blevet bestemt adskillige gange.  Vælg en af dem der er mærket "X-ray" og klik på "RCSB" linket.  Ud over diverse information om molekylet og den eksperimentelle procedure der er brugt, er der et nydeligt lille billede af insulin tegnet i en "ribbon"-repræsentation, hvor kun sekundærstrukturelementerne, ikke de enkelte atomer, er vist.  Under "Display Options" kan man komme videre til flere interaktive Java-baserede visualiseringsværktøjer, hvor man med musen kan dreje molekylet rundt og se det fra forskellige vinkler - prøv det evt. senere hvis I har tid til overs.
  8. Under "Ontologies" finder I en masse henvisninger til "GO".  Det er en database ved navn Gene Ontology, der består af præcist definerede annoteringstermer for gener og proteiner, organiseret i et hierarkisk system.  Der findes tre typer termer: "biological process", "molecular function" og "cellular component".  Ved at klikke på de enkelte GO links kommer man dog ikke til selve Gene Ontology's webside, men til en browser der hedder "QuickGO" på EBI.  Prøv det - f.eks. det der hedder "hormone activity".  Her kan I læse en definition af hvad et hormon egentlig er for noget, og man kan se "parent terms" (hvilke overordnede kategorier hormonaktivitet hører under) og "child terms" (hvilke underkategorier der findes af hormonaktivitet).

  9. Under "Family and domain databases" er der en lang række databaser der med forskellige metoder har samlet  proteiner der ligner hinanden (familier).  I nogle tilfælde ligner proteiner hinanden i visse dele (domæner) af sekvensen, men ikke i andre, og i disse tilfælde kan sådanne databaser fortælle hvilke dele af det aktuelle protein der er kendt i andre sammenhænge.  Visse store proteiner kan være sammensat af mange dele med hver sin evolutionære historie!  Den vigtigste af disse databaser er InterPro, fordi den samler resultaterne fra alle de andre.  Prøv at klikke på det øverste InterPro link, der kommer I til et væld af oplysninger om insulin-familien med et fyldigt abstract og en lang litteraturliste.

SRS søgning

Hvis man virkelig skal udnytte UniProts struktur til at søge efter information i specifikke felter, er der to muligheder:
  • Man kan selv skrive programmer til at analysere ("parse") databasefilerne med hensyn til lige præcis de oplysninger man har brug for i det aktuelle projekt - det gør vi faktisk ofte på CBS.  Den slags programmer kan naturligvis skrives i et kompileret programmeringssprog som C eller C++, men ofte vil man vælge fortolkede højniveausprog som Perl eller Python, der indeholder mange færdiglavede funktioner til at analysere tekstfiler med.  Det ligger helt klart uden for dette kursus - men kom gerne tilbage og tag Perl and Unix for Bioinformaticians - #27619 senere.

  • Man kan bruge et færdiglavet avanceret søgesystem, f.eks. SRS, Sequence Retrieval System.  Det er et program der parser databasefiler i tekstformat og indexerer oplysningerne.  Det definerer to helt egne sprog, et til at beskrive databasefilernes format i, og et til at søge med.  Som almindelig bruger behøver man heldigvis ikke lære dem, men kan nøjes med at bruge WWW interfacet.
I den sidste del af øvelsen skal vi bruge SRS.  I modsætning til de fleste andre programmer vi bruger på kurset, er SRS ikke gratis, men sælges af det private firma LION bioscience AG.  Enkelte institutioner tilbyder dog gratis offentlig adgang til deres installationer af SRS, det gælder f.eks. ExPASy og EBI.  SRS-serveren på EBI kan mere end den på ExPASy, den er baseret på SRS version 7, hvor ExPASy bruger version 5, og den indeholder mange flere databaser.  De ekstra muligheder gør dog hele interfacet noget mere uoverskueligt, derfor holder vi os til ExPASy i øvelsen i dag.  I skal være velkomne til at prøve kræfter med EBI's server, hvis I senere får lyst - adressen er http://srs.ebi.ac.uk/.
  1. Gå tilbage til startsiden for UniProt Knowledgebase og klik på SRS. Klik på startknappen for at starte en ny session.

  2. Top Page: Først kommer I til "Top Page", hvor I skal vælge en eller flere databaser.  Start med kun at vælge "SWISS_PROT".  Tip: Fra de fleste vinduer kan man klikke på "Help" i øverste højre hjørne og komme til det sted i hjælpefilen der beskriver netop dette vindue.

  3. Query Form: Klik på "Continue" for at komme til søgesiden ("Query Form").  Her kan man vælge op til fire felter i Swiss-Prot ad gangen.  Vælg et felt vha. drop-down menuen til venstre, og skriv selve søgeteksten i feltet til højre.  Tip: Når et felt er valgt, kan man ved at klikke på "Info"-knappen til venstre for menuen få en beskrivelse af hvad netop dette felt indeholder.

  4. Kombiner med AND: I første omgang prøver vi simpelthen at gentage søgningen fra sidste del.  Indtast "insulin" som "Description" og "human" som "Organism", kombiner kriterierne med "AND", og sørg for ikke at bruge wildcard.  Udfør søgningen ved at klikke på "Do Query".  Får I samme resultater som sidst?  Bemærk: Øverst på "QueryResult" siden kan I altid se jeres søgning som den er formuleret i SRS' interne søgesprog.

  5. Views: SRS tilbyder mange forskellige måder at se resultaterne på ("Views").  Antag nu at I er usikre på hvilken sekvens der er den rigtige blandt jeres resultater.  I stedet for at kigge på det fulde Swiss-Prot entry for hvert enkelt hit, kan man bede om at få bestemte felter med i output - for at se funktionen af hvert enkelt hit kunne man f.eks. tage kommentarerne med.  Gå tilbage til "Query Form" og se på menuen "Include fields in output".  Vælg "Description" og "Comment" (for at vælge mere end én mulighed, hold Ctrl nede mens I klikker).  Ved "Display in", vælg "list".  Udfør søgningen igen.
  6. Numerisk felt: Nu skal vi prøve en søgning som ikke kunne lade sig gøre uden SRS: Hvilke ekstremt korte proteiner findes der i Swiss-Prot?  Gå tilbage til "Query Form" og slet de gamle valg (tryk på "Reset" og sæt "Use view" til "Short Description"). Vælg "SeqLength" og indtast værdien ":10" (det betyder længder mindre end eller lig med 10).  Udfør søgningen.  Hvor mange hits kommer der?

  7. Kombiner med BUTNOT: Læg mærke til at mange af de fundne proteiner er fragmenter ifølge beskrivelsen.  Lad os prøve at udelukke dem.  Gå tilbage til "Query Form", tilføj søgeordet "fragment" i feltet "Description" og kombiner med "BUTNOT".  Hvor mange hits kommer der nu? 

  8. Query Manager: Lad os nu se om der er nogen humane proteiner i dette sæt.  Vi skal altså have dem, der er ekstremt korte og humane men ikke fragmenter.  Den søgning kan vi ikke umiddelbart lave i "Query Form", fordi man ikke samtidig kan vælge "AND" og "BUTNOT".  I stedet må vi bruge en flertrins procedure:
    1. Gå til "Query Form" og lav en søgning efter alle humane proteiner.  Hvor mange er der?
    2. Gå nu til "Query Manager" ved at klikke på knappen i toppen af siden.  Her kan I se alle jeres søgninger.  Læg mærke til at kriterierne for hver søgning (i SRS' interne søgesprog) kan ses under "Query Expression", og at antal hits i hver søgning også er vist.
    3. Find den søgning der gav ekstremt korte ikke-fragmenter og den søgning der gav alle humane proteiner.  Vælg dem ved at markere deres firkanter længst til venstre. Kombiner dem således: Vælg "AND" ved "select queries with" og klik "Combine".  Hvor mange finder I nu?  Hvilke funktioner har disse proteiner?

SRS kan naturligvis bruges på mange flere måder end det I har prøvet i dag.  Bl.a. har vi endnu ikke prøvet at søge specifikt i selve annoteringsfelterne - kommentarerne og feature tabellen.  Det vender vi tilbage til senere i kurset.

En anden styrke ved SRS er at man kan søge på links mellem forskellige databaser, f.eks. udtrække alle de enzymer der er fundet i en Swiss-Prot søgning ved at lave et link til ENZYME databasen.  Denne mulighed er dog mest interessant på EBI's SRS server, fordi den indeholder mange flere databaser.

Hvis I har mere tid...

...så prøv nogle af søgningerne fra den frie del af sidste uges øvelse, bare på proteindatabaser i stedet for GenBank: alkohol-dehydrogenase, alpha-globin, actin og p53.