|
Øvelse: Translation og proteindatabaser
Øvelse skrevet af: Rasmus
Wernersson og Henrik
Nielsen
Translation - Virtual Ribosome
Til denne del af øvelsen skal vi bruge Virtual Ribosome - et stykke
software der tilbyder en række advancerede funktioner mht.
oversættelse af DNA til protein. Udover brug af de simple
funktioner til oversættelse af DNA med en kendt læserammen,
skal vi arbejde med computerbaseret analyse af mulige læserammer,
placering af START of STOP codons osv.
Trin 1: Basalt brug
- Åben Virtual Ribosome i et andet vindue (eller tab): www.cbs.dtu.dk/services/VirtualRibosome/.
Brug et minut eller to på at orienterer dig på siden - hvor
skal input-data sættes ind, og hvilken slags indstillingsmuligheder (options)
findes.
- Hvis man bare har en enkelt
sekvens der skal oversættes, kan man paste den direkte ind
(evt. tal og mellemrum bliver automatisk ignoreret) - alternative kan
Virtual Ribosome læse en række andre fil-formater, hvor der
kan være flere sekvenser (fx. FASTA).
- Los os starte med at kigge på en simpelt oversættelse
af et kendt gen: Actin (fra
gær). Kopiér nedenstående sekvens ind i
sekvens-feltet og tryk på "submit".
>Yeast_ACT1 ATGGATTCTGAGGTTGCTGCTTTGGTTATTGATAACGGTTCTGGTATGTGTAAAGCCGGT TTTGCCGGTGACGACGCTCCTCGTGCTGTCTTCCCATCTATCGTCGGTAGACCAAGACAC CAAGGTATCATGGTCGGTATGGGTCAAAAAGACTCCTACGTTGGTGATGAAGCTCAATCC AAGAGAGGTATCTTGACTTTACGTTACCCAATTGAACACGGTATTGTCACCAACTGGGAC GATATGGAAAAGATCTGGCATCATACCTTCTACAACGAATTGAGAGTTGCCCCAGAAGAA CACCCTGTTCTTTTGACTGAAGCTCCAATGAACCCTAAATCAAACAGAGAAAAGATGACT CAAATTATGTTTGAAACTTTCAACGTTCCAGCCTTCTACGTTTCCATCCAAGCCGTTTTG TCCTTGTACTCTTCCGGTAGAACTACTGGTATTGTTTTGGATTCCGGTGATGGTGTTACT CACGTCGTTCCAATTTACGCTGGTTTCTCTCTACCTCACGCCATTTTGAGAATCGATTTG GCCGGTAGAGATTTGACTGACTACTTGATGAAGATCTTGAGTGAACGTGGTTACTCTTTC TCCACCACTGCTGAAAGAGAAATTGTCCGTGACATCAAGGAAAAACTATGTTACGTCGCC TTGGACTTCGAACAAGAAATGCAAACCGCTGCTCAATCTTCTTCAATTGAAAAATCCTAC GAACTTCCAGATGGTCAAGTCATCACTATTGGTAACGAAAGATTCAGAGCCCCAGAAGCT TTGTTCCATCCTTCTGTTTTGGGTTTGGAATCTGCCGGTATTGACCAAACTACTTACAAC TCCATCATGAAGTGTGATGTCGATGTCCGTAAGGAATTATACGGTAACATCGTTATGTCC GGTGGTACCACCATGTTCCCAGGTATTGCCGAAAGAATGCAAAAGGAAATCACCGCTTTG GCTCCATCTTCCATGAAGGTCAAGATCATTGCTCCTCCAGAAAGAAAGTACTCCGTCTGG ATTGGTGGTTCTATCTTGGCTTCTTTGACTACCTTCCAACAAATGTGGATCTCAAAACAA GAATACGACGAAAGTGGTCCATCTATCGTTCACCACAAGTGTTTCTAA
- Kig resultatet grundig igennem. Bemærk at der bådes
vises DNA sekvens, proteinsekvens samt information om START og STOP
codons. Du kan klikke på linket til "instructions"
(både på hovedsiden og resultatsiden), for at få en
uddybende forklaring på hvad der vises. Bemærk at
også
at den "rå" protein-sekvens kan ses (og downloades) i FASTA
format.
- Inden du går videre skal du kunne svare på
følgende spørgsmål:
- Hvordan vises et STOP codon?
- Hvordan vises et START codon?
- Koder et start-codon altid for Methionine (M)?
- Hvad for forskellen på de to typer start codons?
Trin 2: Degenererede nucleotider
- I de næste på trin skal vi kigge lidt på brugen
af det degenererede DNA
alfabet i forbindelse med oversættelse. Det degenererede alfabet
bliver typisk brugt, hvis sekventeringen ikke har givet et entydig
resultat, men at man på den anden side ikke har lyst til at smide
hele sekvensen væk. Alfabetet er en IUPAC standard, og er
defineret som følger:
| Letter |
Description |
Bases
represented |
|
| A |
Adenine |
A |
| T |
Thymine |
T |
| G |
Guanine |
G |
| C |
Cytosine |
C |
| Y |
pYrimidine |
C T |
| R |
puRine |
A G |
| S |
Strong |
G C |
| W |
Weak |
A T |
| K |
Keto |
T G |
| M |
aMino |
A C |
| B |
Not A |
C G T |
| D |
Not C |
A G T |
| H |
Not G |
A C T |
| V |
Not T/U |
A C G |
| N |
aNy |
A C G T |
- Lad os arbejde videre med de atten første baser fra actin
genet, og se hvordan tilstædeværelsen af degenererede
postioner påvirker resultatet. Som et "trick" bruger vi her FASTA
formatet til at submitte flere sekvenser på een gang:
>seq1 ATGGATTCTGAGGTTGCT >seq2 ATGNATTCTGNGGTNGCT >seq3 ATGGAYTCNGARGTNGCN >seq3b HTGGAYTCNGARGTNGCN
- Oversæt de tre overstående sekvenser, og svar
på følgende:
- Hvad sker det med proteinsekvensen hvis DNA sekvensen er
tvetydig?
- I hvilken position i hvert codon vil du forvente at et "N" vil
påvirke protein-sekvensen mindst? Hvorfor?
- Hvor mange degenererede positioner er der i "seq3" - og hvad
betyder de?
- Hvad er forskellen på seq3 og seq3b?
- Ofte bliver det degenererede alfabet også brugt til at
"fylde ind" med ukendt sekvens, hvis man (fx. fra genetiske kort), ved
at der er en vis afstand mellem to sekvenser, som ikke er sekventeret
endnu. Fx. støder man ofte på lange sekvenser af "N"'er i
musens genome (i skrivende stund, 2007), som netop bare bliver brugt at
at vise at "her er noget". Vi vil nu se hvordan en sådan
række af N'er påvirker proteinsekvensen:
>seq1 ATGGATTCTGAGGTTGCT >seq4 ATGGATTCTNNNNNNNNNGAGGTTGCT >seq5 ATGGATTCTNNNNNNNNNNGAGGTTGCT >seq6 ATGGATTCTNNNNNNNNNNNGAGGTTGCT
- Oversæt de overstående sekvenser ("seq1" er som
før reference-sekvensen), og svar på følgende:
- Hvordan påvirkes protein-sekvensen opstrøms (altså
"før") for N'erne?
- Hvordan påvirkes protein-sekvensen nedstrøms ("efter") N'erne?
- Hvilken af seq4-seq6 er mindst
forstyrrende på den oprindelige proteinsekvensen? Hvorfor?
Trin 3: Genetisk kode
- Vi skal nu arbejde videre med endnu et gen fra gær. Denne
gang er det COX1 som koder for Cytochrome
C OXidase, subunit 1 (der er
mere information at hente her: COX1 -
Saccharomyces Genome Database). Bemærk at det er et
mitochondrie-gen. Prøv først at oversætte det med
standard instillinger.
>Yeast_COX1 ATGGTACAAAGATGATTATATTCAACAAATGCAAAAGATATTGCAGTATTATATTTTATG TTAGCTATTTTTAGTGGTATGGCAGGAACAGCAATGTCTTTAATCATTAGATTAGAATTA GCTGCACCTGGTTCACAATATTTACATGGTAATTCACAATTATTTAATGTTTTAGTAGTT GGTCATGCTGTATTAATGATTTTCTTCTTAGTAATGCCTGCTTTAATTGGAGGTTTTGGT AACTATTTATTACCATTAATAATTGGAGCTACAGATACAGCATTTCCAAGAATTAATAAC ATTGCTTTTTGAGTATTACCTATGGGGTTAGTATGTTTAGTTACATCAACTTTAGTAGAA TCAGGTGCTGGTACAGGGTGAACTGTCTATCCACCATTATCATCTATTCAGGCACATTCA GGACCTAGTGTAGATTTAGCAATTTTTGCATTACATTTAACATCAATTTCATCATTATTA GGTGCTATTAATTTCATTGTAACAACATTAAATATGAGAACAAATGGTATGACAATGCAT AAATTACCATTATTTGTATGATCAATTTTCATTACAGCGTTCTTATTATTATTATCATTA CCTGTATTATCTGCTGGTATTACAATGTTATTATTAGATAGAAACTTCAATACTTCATTC TTTGAAGTATCAGGAGGTGGTGACCCAATCTTATACGAGCATTTATTTTGATTCTTTGGT CACCCTGAAGTATATATTTTAATTATTCCTGGATTTGGTATTATTTCACATGTAGTATCA ACATATTCTAAAAAACCTGTATTTGGTGAAATTTCAATGGTATATGCTATGGCTTCAATT GGATTATTAGGATTCTTAGTATGATCACATCATATGTATATTGTAGGATTAGATGCAGAT CTTAGAGCATATTTCCTATCTGCACTAATGATTATTGCAATTCCAACAGGAATTAAAATT TTCTCATGATTAGCTCTAATCCATGGTGGTTCAATTAGATTAGCACTACCTATGTTATAT GCAATTGCATTCTTATTCTTATTCACAATGGGTGGTTTAACTGGTGTTGCCTTAGCTAAC GCCTCATTAGATGTAGCATTCCACGATACTTACTACGTGGTGGGACATTTTCACTATGTA TTATCAATGGGTGCTATTTTCTCTTTATTTGCAGGATACTATTATTGAAGTCCTCAAATT TTAGGTTTAAACTATAATGAAAAATTAGCTCAAATTCAATTCTGATTAATTTTCATTGGG GCTAATGTTATTTTCTTCCCAATGCATTTTTTAGGTATTAATGGTATGCCTAGAAGAATT CCTGATTATCCTGATGCTTTCGCAGGATGAAATTATGTCGCTTCTATTGGTTCATTCATT GCACTATTATCATTATTCTTATTTATCTATATTTTATATGATCAATTAGTTAATGGATTA AACAATAAAGTTAATAATAAATCAGTTATTTATAATAAAGCACCTGATTTTGTAGAATCT AATCTTATCTTTAATTTAAATACAGTTAAATCTTCATCTATCGAATTCTTATTAACTTCT CCACCAGCTGTACACTCATTTAATACACCAGCTGTACAATCTTAA
- Hvordan gik det med oversættelsen? Det er ikke noget i
vejen med DNA sekvensen - Hvorfor ser det ud som det gør?
- Behold resultatet af oversættelsen åben (vi skal
bruge den igen om lidt), og åben et nyt vindue (eller tab) med
Virtual Ribosome. Oversæt sekvensen en gang til, men vælg
en anden translations tabel under options (tænk selv over
hvilken vi skal bruge).
- Hvis du har valgt en rigtige translations-tabel, vil sekvensen
kunne oversættes uden problemer. Prøv at sammen ligne med
det første resultat, og svar på følgende:
- Hvad er forskellen mht. brug af STOP codons?
- Hvad er forskellem mht. brug af START codons?
- Er der nogen codons der koder for en helt anden amino-syre?
- Den præcise definition af de forskellige translations
tabeller kan man læse om her: The
Genetic Codes - NCBI. Som udgangspunkt vises tabellerne i
"komprimeret" format (som gør den nemme at sammenligne), men man
kan også få vist en mere traditionel codon-tabel ved at
klikke på "Click here to change
format". Bemærk:
- Brugen af START codons
er detaljeret beskrevet for alle genetiske
koder.
- Forskellen mellem standard-koden og
de andre koder og opsummeret i hvert enkelt afsnit.
Trin 4: Læserammer
(Husk
at gå tilbage til at bruge den standard genetiske kode, inden du
fortsætter med øvelsen)
- Indtil videre har vi antaget at læserammen for
DNA-sekvensen er kendt samt at den starter ved det første
nucleotid. Vi
skal i det følgende kigge lidt nærmere på hvordan
man coputermæssigt kan skyde sig ind på den korrekte
læseramme. Til denne del af øvelsen skal vi bruge
nedenstående sekvens som er hele
mRNA sekvensen for et
gær-gen (profilin). Ud fra din biologiske
viden så tænk over følgende:
- Gær har introns i nogle af generne - kan det være
et problem i dette tilfælde?
- Kan et mRNA molekyle indeholder mere sekvens end selve genet
(altså den protein-kodende sekvens)?
>gi|4226|emb|Y00469.1| Yeast mRNA for profilin GGCAAATTATGTCTTGGCAAGCATACACTGATAACTTAATAGGAACCGGTAAAGTCGACAAAGCTGTCAT CTACTCGAGAGCAGGTGACGCTGTTTGGGCTACTTCTGGTGGCCTATCTTTGCAACCAAACGAAATTGGT GAAATTGTTCAAGGCTTCGACAATCCAGCTGGTTTGCAAAGCAATGGTTTGCATATTCAAGGCCAAAAGT TCATGTTGTTGAGAGCTGACGATAGAAGTATCTACGGTAGACATGATGCTGAGGGTGTTGTTTGTGTAAG AACTAAGCAAACCGTTATTATTGCTCATTATCCACCAACCGTACAAGCCGGTGAGGCCACCAAGATTGTC GAGCAATTGGCTGACTACTTGATTGGTGTTCAATACTAATTTATGCAGGTAAAGTTTTCTTGCCTTATAC ACCACCTATTCTGGCATCTGCGGGATTTCGCTTCCTATTTTACAAATATTTTATTGATTGACGCTAATTA TCACTGTAAAAGGCGCACTTTTTATATGTAGTCACATCCGGTATTTAACATATTTACGAAACAGTCTTAA GAATATCGACATTTGATATACTTATGTTTAATTTATCTACATATTACAATCA
- Der er seks mulige læserammer: 1, 2, 3 (på
plus-strengen, dvs. sekvensen "som
den er") og -1, -2, -3 (på minus-strengen, dvs. på
den komplimentære DNA streng). Eftersom vi arbejder med en mRNA sekvens, behøver vi i
pricippet ikke kigge på læserammerne på den
komplimentære streng.
- Prøv i første omgang at oversætte sekvensen i
de tre positive læserammer: 1,
2 og 3 (det nemmeste er at holde
et vindue eller en tab åben til hver oversættelse -
så er det nemmere at sammenligne resultatet).
- Hvilken læseramme er sandsynligvis den rigtige?
- NB: husk at der for
hver oversættelse kun vises START og STOP
codons, som findes i lige netop denne læseramme.
- Bemærk at DNA-sekvensen vises ens i alle tre
oversættelse, men at protein-sekvensen er forskudt - hvorfor det?
- Det er også muligt at få flere læserammer vist
på en gang: vælg "Plus
(1,2,3)" som læseramme og
oversæt sekvensen igen.
- Bemærk:
amino-syre bogstavet er centeret over det enkelt codon (dvs. M
står over "T" i ATG).
- Oversættelsen fra læseramme 1 er vist lige henover
DNA sekvensen, derefter kommer læseramme 2 og 3.
- START og STOP codons for alle
tre læserammer er vist på en gang.
- For en god ordens skyld, skal vi lige undersøge hvordan
oversættelsen på minus strengen bliver vist: vælg
læseramme -1 og
oversæt igen
- Hvordan ser DNA sekvensen ud nu? I hvilken retning skal den
læses?
- I hvilken retning skal protein-sekvensen læses?
Prøv at sammenligne med protein-sekvensen i FASTA format.
- Det hele på en gang: vælg "All (6 reading frames)"
og oversæt igen.
- Hvor mange DNA strenges vises der? Hvorfor?
- Bemærk hvor mange fortolkningmuligheder
en enkelt DNA sekvens indeholder mht. oversættelse til protein.
Trin 5: ORF finder
- Nu har vi været igennem en manuel screening af de mulige
læserammer, og selv det kan være helt fint hvis man har en
enkelt DNA sekvens man lige skal have pudset af, så er det ofte
mere praktisk at bruge en computerbaseret ORF finder. En ORF (Open Reading Frame) er en DNA sekvens der ikke afbrydes af et STOP codon.
Ofte vil man i en given sekvens ledes efter den længste ORF, som
så typist vil starte med et START codon og slutte ved et STOP
codon.
- Den længste ORF
findes ved at oversætte DNA sekvensen i alle seks
læserammer, og så finde den længste protein sekvens.
- Vi vil nu bruge en indbyggede ORF finder, med de mest stringente
kriterier: vælg "Start codon:
strict" (tvinger ORF'en til at starte ved ATG) under "ORF finder" og vælg "All (6
reading frames)" under "Reading frame".
Oversæt derefter sekvensen igen.
- Passer resultatet med den læseramme du selv havde fundet?
- Vil det betyde noget hvis vi kun har en partiel sekvens hvor
det sidste stykke af sekvensen med STOP codon'en mangler?
- Hvad vil der ske hvis de første 50 nucleotider (med
START codon'et) mangler?
Proteindatabaser
I denne del af øvelsen skal vi finde information i
proteindatabaser, først og fremmest den vigtigste internationale
database, UNIPROT. Først lidt generel information:
UNIPROT, http://www.ebi.uniprot.org/,
består af tre dele:
- UniProt Knowledgebase
(UniProtKB)
proteinsekvenser med annotering og
referencer
- UniProt Reference Clusters
(UniRef)
homologi-reduceret database,
hvor sekvenser der ligner hinanden meget er slået sammen i samme
entry
- UniProt Archive (UniParc)
et arkiv der gemmer alle versioner
af alle proteinsekvenser der har eksisteret gennem tiden - uden
annoteringer
Heraf er det UniProtKB man i langt de fleste tilfælde har
brug for, og det er også den vi skal bruge i dag. Den
består igen af to dele:
- UniProtKB/Swiss-Prot
en manuelt annoteret proteindatabase.
- UniProtKB/TrEMBL
et computer-annoteret
supplement til Swiss-Prot, som indeholder alle de translationer af EMBL
nukleotidsekvenser som endnu ikke er blevet integreret i Swiss-Prot.
Heraf vil vi i dag koncentrere os om Swiss-Prot. Den kan findes
dels på websitet ExPASy, der administreres
af Swiss Institute of Bioinformatics
(SIB),
og dels hos European Bioinformatics
Institute (EBI).
Simpel tekstsøgning
Først skal vi finde nogle Swiss-Prot entries ud fra ord i deres
beskrivelse. Den første opgave går ud på at
finde humant insulin, som vi også søgte efter i GenBank i sidste
uge.
-
Åbn UniProt Knowledgebase på ExPASy: http://www.expasy.org/sprot/
(i et
nyt vindue).
- Prøv at indtaste "human
insulin" i søgefeltet i toppen af
siden. Lad Search-menuen stå på "Swiss-Prot/TrEMBL",
som er default. Hvor mange hits kommer der? Hvor mange i
Swiss-Prot, og hvor mange i TrEMBL?
Bemærk: denne søgning leder kun i flg. linjer:
entry name (ID), description (DE),
gene
name (GN), species (OS) og
organelle (OG)
-
For at indsnævre søgningen lidt, skal vi nu,
ligesom i sidste uge, prøve at udelukke proteiner der ikke er
insulin, men insulin-lignende eller binder insulin eller reguleres af
insulin. Gå tilbage til startsiden og derfra til "Advanced search
in the UniProt Knowledgebase".
-
Læs hvad der står om wildcard ("*") på siden
nedenfor selve søgeformularen. Tror I vi skal bruge
wildcard i denne søgning? Skal feltet "Append and prefix *
to query terms" være markeret eller ej?
-
Indtast "insulin"
som "Description", lad "Gene name" stå tom, og vælg "Human"
som organisme. Undgå TrEMBL-resultaterne ved at fjerne
markeringen fra "UniProtKB/TrEMBL"-feltet. Udfør
søgningen.
- Hvor mange resultater kommer der nu? (Bemærk: de
første fire hits er lidt underlige - jeg har ikke nogen god
forklaring
hvorfor de er kommet med.). Find det rigtige insulin på
listen.
Hvorfor mon det hedder "Insulin precursor"?
Hvis I ikke kan svare på det nu, kommer der en forklaring
når I har
kigget nærmere på det i databasen.
Indholdet af Swiss-Prot
Så skal vi se nærmere på hvilken information der
egentlig er i et Swiss-Prot entry, og hvilke oplysninger man kan komme
til via links derfra..
-
Klik på accession-nummeret for insulin (den blå kode
i feltet "AC") for at komme til selve insulin-entryet. Orienter
jer på denne side og få overblik over hvilke informationer
den indeholder. Bemærk:
Man kan få en detaljeret
forklaring (manual) til de fleste af felterne ved at klikke på
feltnavnet. Prøv det!
-
Se også på flat-file versionen af Swiss-Prot
entryet:
Klik på accession-nummeret i overskriften eller på "View
entry in original UniProtKB/Swiss-Prot format" nederst. Når du
kigger nærmere på den vil du finde ud af at den faktisk
indeholder præcis den samme information som den side du kom fra,
selv om formatet er mindre overskueligt. Bemærk:
Eksemplerne i manualen stammer fra flat-file versionen. Gå
tilbage til den pænt formaterede side, hvis du foretrækker
det.
-
Se på referencerne - hvor mange er der? (Insulin er
et meget velundersøgt protein). Bemærk hvad hver
enkelt reference har bidraget med (RP linjerne). Man kan komme
videre til PubMed litteraturdatabasen på NCBI ved at klikke på
linket "NCBI" ved en reference - prøv det. Hvis artiklen
ikke er alt for gammel, kan man læse abstract der. For
nyere artikler er der ofte også link videre til fuld tekst
online, men for at få adgang til den kræves det i mange
tilfælde at man er logget ind via et bibliotek.
-
Læs
"Comments" (CC linjerne). Her finder man noget af
selve den funktionelle og strukturelle annotering af proteinet - resten
er i "Features" (FT linjerne). Kommentarerne er inddelt i et
begrænset antal (p.t. 27) kommentartyper ("topics"), mens selve
indholdet af hver kommentartype er i frit format. En af de vigtigste
kommentartyper er naturligvis "FUNCTION". Bemærk at der
faktisk ikke står her, at insulin er et hormon - det står
til gengæld i Keywords (KW linjerne) og i en af GO henvisningerne
(som vi kommer til lidt senere). En anden kommentartype er "SUBCELLULAR LOCATION" - hvor finder man
insulin? Hvorfor er det der?
- Blad videre ned til "Features" (FT linjerne). Bemærk
følgende:
- Insulin har både et signalpeptid ("SIGNAL") og et
propeptid ("PROPEP"). Begge disse bliver klippet af før
sekretionen. Det færdige insulin (A og B kæderne) er
altså væsentlig mindre end det der bliver vist under
"Sequence
information".
- Sekundærstrukturen er specificeret som "HELIX"
(alpha-helix), "STRAND" (del af beta-pleated sheet) eller "TURN" (skarp
overgang mellem andre sekundærstrukturelementer). Der er
også tre disulfidbroer (kovalente bindinger mellem to cysteiner).
- Der er nogle beskrevne varianter (mutationer) af insulin.
I visse tilfælde ved man præcis hvilken fænotype
(forskellige varianter af sukkersyge) de forårsager.
-
Vi skal nu udforske nogle enkelte af de databaser som Swiss-Prot
linker videre til. De findes under "Cross-references" (DR
linjerne). I den pænt formaterede udgave er de delt op i en
række emner. Under "Sequence databases" finder man
først og fremmest links
til nukleotiddatabaserne. Bemærk at der er adskillige
nukleotid-entries for dette ene protein-entry. Klik på et
af "GenBank"-linksene. Ligner det noget I har set sidste uge?
- For at se tertiærstrukturen må man videre til en
anden database, RCSB PDB
under "3D structure databases". Den kommer I til at høre
meget mere om næste uge, men lad os lige tage et enkelt
kig. Som I kan se, er 3-D strukturen af insulin blevet bestemt
adskillige gange. Vælg en af dem der er mærket
"X-ray"
og klik på "RCSB" linket. Ud over diverse information om
molekylet og den eksperimentelle procedure der er brugt, er der et
nydeligt lille billede af insulin tegnet i en
"ribbon"-repræsentation, hvor kun
sekundærstrukturelementerne, ikke de enkelte atomer, er
vist. Under "Display Options" kan man komme videre til flere
interaktive Java-baserede visualiseringsværktøjer,
hvor man med musen kan dreje molekylet rundt og se det fra forskellige
vinkler - prøv det evt. senere hvis I har tid til overs.
-
Under "Ontologies" finder I en masse henvisninger til
"GO". Det er en database ved navn Gene Ontology, der
består af præcist definerede annoteringstermer for gener og
proteiner, organiseret i et hierarkisk system. Der findes tre
typer termer: "biological process", "molecular function" og "cellular
component". Ved at klikke på de enkelte GO links kommer man
dog ikke til selve Gene Ontology's webside, men til en browser der
hedder "QuickGO" på EBI. Prøv det - f.eks.
det der hedder "hormone activity". Her kan I læse en
definition af hvad et hormon egentlig er for noget, og man kan se
"parent terms" (hvilke overordnede kategorier hormonaktivitet
hører under) og "child terms" (hvilke underkategorier der findes
af hormonaktivitet).
- Under "Family and domain databases" er der en lang række
databaser der med forskellige metoder har samlet proteiner der
ligner hinanden (familier). I nogle tilfælde ligner
proteiner hinanden i visse dele (domæner) af sekvensen, men ikke
i andre, og i disse tilfælde kan sådanne databaser
fortælle hvilke dele af det aktuelle protein der er kendt i andre
sammenhænge. Visse store proteiner kan være sammensat
af mange dele med hver sin evolutionære historie! Den
vigtigste af disse databaser er InterPro,
fordi den samler resultaterne fra alle de andre. Prøv at
klikke på det øverste InterPro link, der kommer I til et
væld af oplysninger om insulin-familien med et fyldigt abstract
og en lang litteraturliste.
SRS søgning
Hvis man virkelig skal udnytte UniProts struktur til at søge
efter information i specifikke felter, er der to muligheder:
-
Man kan selv skrive programmer til at analysere ("parse") databasefilerne med hensyn
til lige præcis de oplysninger man har brug for i det aktuelle
projekt - det gør vi faktisk ofte på CBS. Den slags
programmer kan naturligvis skrives i et kompileret programmeringssprog
som C
eller C++, men ofte
vil man vælge fortolkede højniveausprog som Perl eller Python, der indeholder mange
færdiglavede funktioner til at analysere tekstfiler med.
Det ligger helt klart uden for dette kursus - men kom gerne tilbage og
tag Perl and Unix for
Bioinformaticians - #27619 senere.
- Man kan bruge et færdiglavet avanceret søgesystem,
f.eks. SRS, Sequence Retrieval
System. Det er et
program der parser databasefiler i tekstformat og indexerer
oplysningerne. Det definerer to helt egne sprog, et til at
beskrive databasefilernes format i, og et til at søge med.
Som almindelig bruger behøver man heldigvis ikke lære dem,
men kan nøjes med at bruge WWW interfacet.
I den sidste del af øvelsen skal vi bruge SRS. I
modsætning til de fleste andre programmer vi bruger på
kurset, er SRS ikke gratis, men sælges af det private firma LION bioscience AG.
Enkelte institutioner tilbyder dog gratis offentlig adgang til deres
installationer af SRS, det gælder f.eks. ExPASy og EBI.
SRS-serveren på EBI kan mere end den på ExPASy, den er
baseret på SRS version 7, hvor ExPASy bruger version 5, og den
indeholder mange flere
databaser. De ekstra muligheder gør dog hele interfacet
noget mere uoverskueligt, derfor holder vi os til ExPASy i
øvelsen i dag. I skal være velkomne til at
prøve kræfter med EBI's server, hvis I senere får
lyst - adressen er http://srs.ebi.ac.uk/.
-
Gå tilbage til startsiden for UniProt Knowledgebase og klik
på SRS. Klik på
startknappen for at starte en ny session.
-
Top Page: Først
kommer I til "Top Page", hvor I skal vælge en eller flere
databaser. Start med kun at vælge "SWISS_PROT". Tip: Fra de fleste vinduer kan man
klikke på "Help" i øverste højre hjørne og
komme til det sted i hjælpefilen der beskriver netop dette vindue.
-
Query Form: Klik
på "Continue" for at komme til søgesiden ("Query
Form"). Her kan man vælge op til fire felter i Swiss-Prot
ad gangen. Vælg et felt vha. drop-down menuen til venstre,
og skriv selve søgeteksten i feltet til højre. Tip: Når et felt er valgt, kan
man ved at klikke på "Info"-knappen til venstre for menuen
få en beskrivelse af hvad netop dette felt indeholder.
-
Kombiner med AND: I
første omgang prøver vi simpelthen at gentage
søgningen fra sidste del. Indtast "insulin" som "Description" og "human" som "Organism", kombiner
kriterierne med "AND", og sørg for ikke at bruge wildcard.
Udfør søgningen ved at klikke på "Do Query".
Får I samme resultater som sidst? Bemærk: Øverst på
"QueryResult" siden kan I altid se jeres søgning som den er
formuleret i SRS' interne søgesprog.
- Views: SRS tilbyder mange
forskellige måder at se resultaterne på ("Views").
Antag nu at I er usikre på hvilken sekvens der er den rigtige
blandt jeres resultater. I stedet for at kigge på det fulde
Swiss-Prot entry for hvert enkelt hit, kan man bede om at få
bestemte felter med i output - for at se funktionen af hvert enkelt hit
kunne man f.eks. tage kommentarerne med. Gå tilbage til
"Query Form" og se på menuen "Include fields in output".
Vælg "Description" og "Comment" (for at vælge mere end
én mulighed, hold Ctrl nede mens I klikker). Ved "Display
in", vælg "list". Udfør søgningen igen.
-
Numerisk felt: Nu skal
vi prøve en søgning som ikke kunne lade sig gøre
uden SRS: Hvilke ekstremt korte proteiner findes der i
Swiss-Prot? Gå tilbage til "Query Form" og slet de gamle
valg (tryk på "Reset" og sæt "Use view" til "Short
Description"). Vælg "SeqLength" og indtast værdien ":10"
(det betyder længder mindre end eller lig med 10).
Udfør søgningen. Hvor mange hits kommer der?
-
Kombiner med BUTNOT: Læg
mærke til at mange af de fundne proteiner er fragmenter
ifølge beskrivelsen. Lad os prøve at udelukke
dem. Gå tilbage til "Query Form", tilføj
søgeordet "fragment" i feltet "Description" og kombiner med
"BUTNOT". Hvor mange hits kommer der nu?
- Query Manager: Lad os nu
se om der er nogen humane proteiner i dette sæt. Vi skal
altså have dem, der er ekstremt korte og humane men ikke fragmenter. Den
søgning kan vi ikke umiddelbart lave i "Query Form", fordi man
ikke samtidig kan vælge "AND" og "BUTNOT". I stedet
må vi bruge en flertrins procedure:
- Gå til "Query Form" og lav en søgning efter alle
humane proteiner. Hvor mange er der?
- Gå nu til "Query Manager" ved at klikke på knappen
i toppen af siden. Her kan I se alle jeres
søgninger. Læg mærke til at kriterierne for
hver søgning (i SRS' interne søgesprog) kan ses under
"Query Expression", og at antal hits i hver søgning også
er vist.
- Find den søgning der gav ekstremt korte ikke-fragmenter
og den søgning der gav alle humane proteiner. Vælg
dem ved at markere deres firkanter længst til venstre. Kombiner
dem således: Vælg "AND" ved "select queries with" og klik
"Combine". Hvor mange finder I nu? Hvilke funktioner har
disse proteiner?
SRS kan naturligvis bruges på mange flere måder end det
I har prøvet i dag. Bl.a. har vi endnu ikke prøvet
at søge specifikt i selve annoteringsfelterne - kommentarerne og
feature tabellen. Det vender vi tilbage til senere i kurset.
En anden styrke ved SRS er at man kan søge på links mellem forskellige
databaser, f.eks. udtrække alle de enzymer der er fundet i en
Swiss-Prot søgning ved at lave et link til ENZYME databasen.
Denne mulighed er dog mest interessant på EBI's SRS server, fordi
den indeholder mange flere databaser.
Hvis I har mere tid...
...så prøv nogle af søgningerne fra den frie del af
sidste uges øvelse, bare på proteindatabaser i stedet for
GenBank: alkohol-dehydrogenase, alpha-globin, actin og p53.
|