|
Øvelse: Translation og proteindatabaser
Øvelse skrevet af: Rasmus
Wernersson og Henrik
Nielsen
Translation - Virtual Ribosome
Til denne del af øvelsen skal vi bruge Virtual Ribosome - et stykke
software der tilbyder en række advancerede funktioner mht.
oversættelse af DNA til protein. Udover brug af de simple
funktioner til oversættelse af DNA med en kendt læserammen,
skal vi arbejde med computerbaseret analyse af mulige læserammer,
placering af START of STOP codons osv.
Trin 1: Basalt brug
- Åben Virtual Ribosome i et andet vindue (eller tab): www.cbs.dtu.dk/services/VirtualRibosome/.
Brug et minut eller to på at orientere dig på siden - hvor
skal input-data sættes ind, og hvilken slags indstillingsmuligheder (options)
findes.
- Hvis man bare har en enkelt
sekvens der skal oversættes, kan man paste den direkte ind
(evt. tal og mellemrum bliver automatisk ignoreret) - alternative kan
Virtual Ribosome læse en række andre fil-formater, hvor der
kan være flere sekvenser (fx. FASTA).
- Lad os starte med at kigge på en simpelt oversættelse
af et kendt gen: Actin (fra
gær). Kopiér nedenstående sekvens ind i
sekvens-feltet og tryk på "submit".
>Yeast_ACT1 ATGGATTCTGAGGTTGCTGCTTTGGTTATTGATAACGGTTCTGGTATGTGTAAAGCCGGT TTTGCCGGTGACGACGCTCCTCGTGCTGTCTTCCCATCTATCGTCGGTAGACCAAGACAC CAAGGTATCATGGTCGGTATGGGTCAAAAAGACTCCTACGTTGGTGATGAAGCTCAATCC AAGAGAGGTATCTTGACTTTACGTTACCCAATTGAACACGGTATTGTCACCAACTGGGAC GATATGGAAAAGATCTGGCATCATACCTTCTACAACGAATTGAGAGTTGCCCCAGAAGAA CACCCTGTTCTTTTGACTGAAGCTCCAATGAACCCTAAATCAAACAGAGAAAAGATGACT CAAATTATGTTTGAAACTTTCAACGTTCCAGCCTTCTACGTTTCCATCCAAGCCGTTTTG TCCTTGTACTCTTCCGGTAGAACTACTGGTATTGTTTTGGATTCCGGTGATGGTGTTACT CACGTCGTTCCAATTTACGCTGGTTTCTCTCTACCTCACGCCATTTTGAGAATCGATTTG GCCGGTAGAGATTTGACTGACTACTTGATGAAGATCTTGAGTGAACGTGGTTACTCTTTC TCCACCACTGCTGAAAGAGAAATTGTCCGTGACATCAAGGAAAAACTATGTTACGTCGCC TTGGACTTCGAACAAGAAATGCAAACCGCTGCTCAATCTTCTTCAATTGAAAAATCCTAC GAACTTCCAGATGGTCAAGTCATCACTATTGGTAACGAAAGATTCAGAGCCCCAGAAGCT TTGTTCCATCCTTCTGTTTTGGGTTTGGAATCTGCCGGTATTGACCAAACTACTTACAAC TCCATCATGAAGTGTGATGTCGATGTCCGTAAGGAATTATACGGTAACATCGTTATGTCC GGTGGTACCACCATGTTCCCAGGTATTGCCGAAAGAATGCAAAAGGAAATCACCGCTTTG GCTCCATCTTCCATGAAGGTCAAGATCATTGCTCCTCCAGAAAGAAAGTACTCCGTCTGG ATTGGTGGTTCTATCTTGGCTTCTTTGACTACCTTCCAACAAATGTGGATCTCAAAACAA GAATACGACGAAAGTGGTCCATCTATCGTTCACCACAAGTGTTTCTAA
- Kig resultatet grundig igennem. Bemærk at der bådes
vises DNA sekvens, proteinsekvens samt information om START og STOP
codons. Du kan klikke på linket til "instructions"
(både på hovedsiden og resultatsiden), for at få en
uddybende forklaring på hvad der vises. Bemærk at
også
at den "rå" protein-sekvens kan ses (og downloades) i FASTA
format.
- Inden du går videre skal du kunne svare på
følgende spørgsmål:
- Hvordan vises et STOP codon?
- Hvordan vises et START codon?
- Koder et start-codon altid for Methionine (M)?
- Hvad for forskellen på de to typer start codons?
Trin 2: Degenererede nucleotider
- I de næste på trin skal vi kigge lidt på brugen
af det degenererede DNA
alfabet i forbindelse med oversættelse. Det degenererede alfabet
bliver typisk brugt, hvis sekventeringen ikke har givet et entydig
resultat, men at man på den anden side ikke har lyst til at smide
hele sekvensen væk. Alfabetet er en IUPAC standard, og er
defineret som følger:
| Letter |
Description |
Bases
represented |
|
| A |
Adenine |
A |
| T |
Thymine |
T |
| G |
Guanine |
G |
| C |
Cytosine |
C |
| Y |
pYrimidine |
C T |
| R |
puRine |
A G |
| S |
Strong |
G C |
| W |
Weak |
A T |
| K |
Keto |
T G |
| M |
aMino |
A C |
| B |
Not A |
C G T |
| D |
Not C |
A G T |
| H |
Not G |
A C T |
| V |
Not T/U |
A C G |
| N |
aNy |
A C G T |
- Lad os arbejde videre med de atten første baser fra actin
genet, og se hvordan tilstædeværelsen af degenererede
postioner påvirker resultatet. Som et "trick" bruger vi her FASTA
formatet til at submitte flere sekvenser på een gang:
>seq1 ATGGATTCTGAGGTTGCT >seq2 ATGNATTCTGNGGTNGCT >seq3 ATGGAYTCNGARGTNGCN >seq3b HTGGAYTCNGARGTNGCN
- Oversæt de tre overstående sekvenser, og svar
på følgende:
- Hvad sker det med proteinsekvensen hvis DNA sekvensen er
tvetydig?
- I hvilken position i hvert codon vil du forvente at et "N" vil
påvirke protein-sekvensen mindst? Hvorfor?
- Hvor mange degenererede positioner er der i "seq3" - og hvad
betyder de?
- Hvad er forskellen på seq3 og seq3b?
- Ofte bliver det degenererede alfabet også brugt til at
"fylde ind" med ukendt sekvens, hvis man (fx. fra genetiske kort), ved
at der er en vis afstand mellem to sekvenser, som ikke er sekventeret
endnu. Fx. støder man ofte på lange sekvenser af "N"'er i
musens genome (i skrivende stund, 2007), som netop bare bliver brugt at
at vise at "her er noget". Vi vil nu se hvordan en sådan
række af N'er påvirker proteinsekvensen:
>seq1 ATGGATTCTGAGGTTGCT >seq4 ATGGATTCTNNNNNNNNNGAGGTTGCT >seq5 ATGGATTCTNNNNNNNNNNGAGGTTGCT >seq6 ATGGATTCTNNNNNNNNNNNGAGGTTGCT
- Oversæt de overstående sekvenser ("seq1" er som
før reference-sekvensen), og svar på følgende:
- Hvordan påvirkes protein-sekvensen opstrøms (altså
"før") for N'erne?
- Hvordan påvirkes protein-sekvensen nedstrøms ("efter") N'erne?
- Hvilken af seq4-seq6 er mindst
forstyrrende på den oprindelige proteinsekvensen? Hvorfor?
Trin 3: Genetisk kode
- Vi skal nu arbejde videre med endnu et gen fra gær. Denne
gang er det COX1 som koder for Cytochrome
C OXidase, subunit 1 (der er
mere information at hente her: COX1 -
Saccharomyces Genome Database). Bemærk at det er et
mitochondrie-gen. Prøv først at oversætte det med
standard instillinger.
>Yeast_COX1 ATGGTACAAAGATGATTATATTCAACAAATGCAAAAGATATTGCAGTATTATATTTTATG TTAGCTATTTTTAGTGGTATGGCAGGAACAGCAATGTCTTTAATCATTAGATTAGAATTA GCTGCACCTGGTTCACAATATTTACATGGTAATTCACAATTATTTAATGTTTTAGTAGTT GGTCATGCTGTATTAATGATTTTCTTCTTAGTAATGCCTGCTTTAATTGGAGGTTTTGGT AACTATTTATTACCATTAATAATTGGAGCTACAGATACAGCATTTCCAAGAATTAATAAC ATTGCTTTTTGAGTATTACCTATGGGGTTAGTATGTTTAGTTACATCAACTTTAGTAGAA TCAGGTGCTGGTACAGGGTGAACTGTCTATCCACCATTATCATCTATTCAGGCACATTCA GGACCTAGTGTAGATTTAGCAATTTTTGCATTACATTTAACATCAATTTCATCATTATTA GGTGCTATTAATTTCATTGTAACAACATTAAATATGAGAACAAATGGTATGACAATGCAT AAATTACCATTATTTGTATGATCAATTTTCATTACAGCGTTCTTATTATTATTATCATTA CCTGTATTATCTGCTGGTATTACAATGTTATTATTAGATAGAAACTTCAATACTTCATTC TTTGAAGTATCAGGAGGTGGTGACCCAATCTTATACGAGCATTTATTTTGATTCTTTGGT CACCCTGAAGTATATATTTTAATTATTCCTGGATTTGGTATTATTTCACATGTAGTATCA ACATATTCTAAAAAACCTGTATTTGGTGAAATTTCAATGGTATATGCTATGGCTTCAATT GGATTATTAGGATTCTTAGTATGATCACATCATATGTATATTGTAGGATTAGATGCAGAT CTTAGAGCATATTTCCTATCTGCACTAATGATTATTGCAATTCCAACAGGAATTAAAATT TTCTCATGATTAGCTCTAATCCATGGTGGTTCAATTAGATTAGCACTACCTATGTTATAT GCAATTGCATTCTTATTCTTATTCACAATGGGTGGTTTAACTGGTGTTGCCTTAGCTAAC GCCTCATTAGATGTAGCATTCCACGATACTTACTACGTGGTGGGACATTTTCACTATGTA TTATCAATGGGTGCTATTTTCTCTTTATTTGCAGGATACTATTATTGAAGTCCTCAAATT TTAGGTTTAAACTATAATGAAAAATTAGCTCAAATTCAATTCTGATTAATTTTCATTGGG GCTAATGTTATTTTCTTCCCAATGCATTTTTTAGGTATTAATGGTATGCCTAGAAGAATT CCTGATTATCCTGATGCTTTCGCAGGATGAAATTATGTCGCTTCTATTGGTTCATTCATT GCACTATTATCATTATTCTTATTTATCTATATTTTATATGATCAATTAGTTAATGGATTA AACAATAAAGTTAATAATAAATCAGTTATTTATAATAAAGCACCTGATTTTGTAGAATCT AATCTTATCTTTAATTTAAATACAGTTAAATCTTCATCTATCGAATTCTTATTAACTTCT CCACCAGCTGTACACTCATTTAATACACCAGCTGTACAATCTTAA
- Hvordan gik det med oversættelsen? Det er ikke noget i
vejen med DNA sekvensen - Hvorfor ser det ud som det gør?
- Behold resultatet af oversættelsen åben (vi skal
bruge den igen om lidt), og åben et nyt vindue (eller tab) med
Virtual Ribosome. Oversæt sekvensen en gang til, men vælg
en anden translations tabel under options (tænk selv over
hvilken vi skal bruge).
- Hvis du har valgt en rigtige translations-tabel, vil sekvensen
kunne oversættes uden problemer. Prøv at sammen ligne med
det første resultat, og svar på følgende:
- Hvad er forskellen mht. brug af STOP codons?
- Hvad er forskellem mht. brug af START codons?
- Er der nogen codons der koder for en helt anden amino-syre?
- Den præcise definition af de forskellige translations
tabeller kan man læse om her: The
Genetic Codes - NCBI. Som udgangspunkt vises tabellerne i
"komprimeret" format (som gør den nemme at sammenligne), men man
kan også få vist en mere traditionel codon-tabel ved at
klikke på "Click here to change
format". Bemærk:
- Brugen af START codons
er detaljeret beskrevet for alle genetiske
koder.
- Forskellen mellem standard-koden og
de andre koder og opsummeret i hvert enkelt afsnit.
Trin 4: Læserammer
(Husk
at gå tilbage til at bruge den standard genetiske kode, inden du
fortsætter med øvelsen)
- Indtil videre har vi antaget at læserammen for
DNA-sekvensen er kendt samt at den starter ved det første
nucleotid. Vi
skal i det følgende kigge lidt nærmere på hvordan
man coputermæssigt kan skyde sig ind på den korrekte
læseramme. Til denne del af øvelsen skal vi bruge
nedenstående sekvens som er hele
mRNA sekvensen for et
gær-gen (profilin). Ud fra din biologiske
viden så tænk over følgende:
- Gær har introns i nogle af generne - kan det være
et problem i dette tilfælde?
- Kan et mRNA molekyle indeholder mere sekvens end selve genet
(altså den protein-kodende sekvens)?
>gi|4226|emb|Y00469.1| Yeast mRNA for profilin GGCAAATTATGTCTTGGCAAGCATACACTGATAACTTAATAGGAACCGGTAAAGTCGACAAAGCTGTCAT CTACTCGAGAGCAGGTGACGCTGTTTGGGCTACTTCTGGTGGCCTATCTTTGCAACCAAACGAAATTGGT GAAATTGTTCAAGGCTTCGACAATCCAGCTGGTTTGCAAAGCAATGGTTTGCATATTCAAGGCCAAAAGT TCATGTTGTTGAGAGCTGACGATAGAAGTATCTACGGTAGACATGATGCTGAGGGTGTTGTTTGTGTAAG AACTAAGCAAACCGTTATTATTGCTCATTATCCACCAACCGTACAAGCCGGTGAGGCCACCAAGATTGTC GAGCAATTGGCTGACTACTTGATTGGTGTTCAATACTAATTTATGCAGGTAAAGTTTTCTTGCCTTATAC ACCACCTATTCTGGCATCTGCGGGATTTCGCTTCCTATTTTACAAATATTTTATTGATTGACGCTAATTA TCACTGTAAAAGGCGCACTTTTTATATGTAGTCACATCCGGTATTTAACATATTTACGAAACAGTCTTAA GAATATCGACATTTGATATACTTATGTTTAATTTATCTACATATTACAATCA
- Der er seks mulige læserammer: 1, 2, 3 (på
plus-strengen, dvs. sekvensen "som
den er") og -1, -2, -3 (på minus-strengen, dvs. på
den komplimentære DNA streng). Eftersom vi arbejder med en mRNA sekvens, behøver vi i
pricippet ikke kigge på læserammerne på den
komplimentære streng.
- Prøv i første omgang at oversætte sekvensen i
de tre positive læserammer: 1,
2 og 3 (det nemmeste er at holde
et vindue eller en tab åben til hver oversættelse -
så er det nemmere at sammenligne resultatet).
- Hvilken læseramme er sandsynligvis den rigtige?
- NB: husk at der for
hver oversættelse kun vises START og STOP
codons, som findes i lige netop denne læseramme.
- Bemærk at DNA-sekvensen vises ens i alle tre
oversættelse, men at protein-sekvensen er forskudt - hvorfor det?
- Det er også muligt at få flere læserammer vist
på en gang: vælg "Plus
(1,2,3)" som læseramme og
oversæt sekvensen igen.
- Bemærk:
amino-syre bogstavet er centeret over det enkelt codon (dvs. M
står over "T" i ATG).
- Oversættelsen fra læseramme 1 er vist lige henover
DNA sekvensen, derefter kommer læseramme 2 og 3.
- START og STOP codons for alle
tre læserammer er vist på en gang.
- For en god ordens skyld, skal vi lige undersøge hvordan
oversættelsen på minus strengen bliver vist: vælg
læseramme -1 og
oversæt igen
- Hvordan ser DNA sekvensen ud nu? I hvilken retning skal den
læses?
- I hvilken retning skal protein-sekvensen læses?
Prøv at sammenligne med protein-sekvensen i FASTA format.
- Det hele på en gang: vælg "All (6 reading frames)"
og oversæt igen.
- Hvor mange DNA strenges vises der? Hvorfor?
- Bemærk hvor mange fortolkningmuligheder
en enkelt DNA sekvens indeholder mht. oversættelse til protein.
Trin 5: ORF finder
- Nu har vi været igennem en manuel screening af de mulige
læserammer, og selv det kan være helt fint hvis man har en
enkelt DNA sekvens man lige skal have pudset af, så er det ofte
mere praktisk at bruge en computerbaseret ORF finder. En ORF (Open Reading Frame) er en DNA sekvens der ikke afbrydes af et STOP codon.
Ofte vil man i en given sekvens ledes efter den længste ORF, som
så typist vil starte med et START codon og slutte ved et STOP
codon.
- Den længste ORF
findes ved at oversætte DNA sekvensen i alle seks
læserammer, og så finde den længste protein sekvens.
- Vi vil nu bruge en indbyggede ORF finder, med de mest stringente
kriterier: vælg "Start codon:
strict" (tvinger ORF'en til at starte ved ATG) under "ORF finder" og vælg "All (6
reading frames)" under "Reading frame".
Oversæt derefter sekvensen igen.
- Passer resultatet med den læseramme du selv havde fundet?
- Vil det betyde noget hvis vi kun har en partiel sekvens hvor
det sidste stykke af sekvensen med STOP codon'en mangler?
- Hvad vil der ske hvis de første 50 nucleotider (med
START codon'et) mangler?
Proteindatabaser
I denne del af øvelsen skal vi finde information i
proteindatabaser, først og fremmest den vigtigste
internationale
database, UniProt. Den administreres af et samarbejde mellem Swiss Institute of
Bioinformatics
(SIB), European
Bioinformatics
Institute (EBI), og Georgetown
University.
UniProt, http://www.uniprot.org/,
består af tre dele:
- UniProt
Knowledgebase
(UniProtKB)
proteinsekvenser med annotering og
referencer - UniProt Reference Clusters
(UniRef)
homologi-reduceret database,
hvor sekvenser der ligner hinanden meget er slået sammen i
samme
entry - UniProt Archive (UniParc)
et arkiv der gemmer alle versioner
af alle proteinsekvenser der har eksisteret gennem tiden - uden
annoteringer
Heraf er det UniProtKB man i langt de fleste
tilfælde har
brug for, og det er også den vi skal bruge i dag.
Den
består igen af to dele:
- UniProtKB/Swiss-Prot
en manuelt annoteret proteindatabase. - UniProtKB/TrEMBL
et computer-annoteret
supplement til Swiss-Prot, som indeholder alle de translationer af EMBL
nukleotidsekvenser som endnu ikke er blevet integreret i Swiss-Prot.
Heraf vil vi
i dag koncentrere os om Swiss-Prot.
Den mest kendte indgang til databasen er websitet ExPASy,
der administreres
af SIB,
men det vil fremover blive afløst af et nyt interface. Da
dette kursus gerne skulle forberede jer til fremtiden, kaster vi os
frygtløst ud i beta-versionen af det nye interface, http://beta.uniprot.org/.
Simpel tekstsøgning
Først skal vi finde nogle Swiss-Prot entries ud fra ord i
deres
beskrivelse. Den første opgave går ud
på at
finde humant insulin, som vi også søgte efter i
GenBank i sidste
uge.
-
Åbn UniProt's
nye
hjemmeside: http://beta.uniprot.org/
(i et
nyt vindue eller en ny tab). -
Prøv at indtaste "human
insulin" i søgefeltet i toppen af
siden. Lad Search-menuen stå på "Protein
Knowledgebase (UniProtKB)",
som er default. Hvor mange hits kommer der?
Hvor
mange af disse hits er fra
Swiss-Prot? (tip: klik på "Show only reviewed") Kan
I finde det rigtige hit i listen? Bemærk: Det
kommer ret højt oppe, fordi det nye UniProt-interface kan
sortere resulaterne efter relevans, lidt i stil med Google. Det kan
GenBank ikke (som I så i sidste uge), og det
gamle UniProt-interface
på ExPASy kan heller ikke. Hvorfor
mon det hedder "Insulin precursor"?
Hvis I ikke kan svare på det nu, kommer der en forklaring
når I har
kigget nærmere på det i databasen (næste
del af øvelsen). Hvis
man ikke er så heldig at finde det rigtige hit med det samme,
er det godt at vide hvordan man kan indsnævre
søgningen. Vi
skal nu,
ligesom i sidste uge, bede om kun at få proteiner, der
faktisk kommer fra mennesker og hedder
noget med "insulin", og ikke bare indeholder ordene "human" og
"insulin" irrelevante steder i beskrivelsen. Det er nemt nok: - Ud for 'Restrict term "human" to'
klik på "organism". Hvor mange hits er der nu tilbage (stadig
kun
i Swiss-Prot)?
- Ud for 'Restrict term "insulin" to' klik
på "protein name". Hvor mange hits er der nu tilbage
(stadig
kun i Swiss-Prot)?
Bemærk,
at alle de valg I foretager med musen faktisk bliver vist i tekstformat
øverst på siden (i boksen "Query"). Det er muligt
at redigere sine søgninger i denne boks og gøre
dem bredere eller smallere. Prøv f.eks., ligesom i sidste
uge, at udelukke proteiner, der ikke er insulin men bare
insulin-lignende. Tilføj følgende til teksten i
boksen: NOT
name:insulin-like og klik
på Search-knappen. Hvor mange hits er der
nu tilbage? - Prøv på
lignende måde at udelukke de proteiner, der er
insulinreceptorer eller substrater for insulinreceptorer.
Hvor mange hits er der nu tilbage?
Prøv
gerne andre muligheder af på egen hånd. I kan finde
hjælp til mulighederne i Query-boksen her.
Indholdet af Swiss-Prot
Så skal vi se nærmere på hvilken
information der
egentlig er i et Swiss-Prot entry, og hvilke oplysninger man kan komme
til via links derfra..
-
Klik på
accession-nummeret
for insulin (den blå kode
i feltet "Accession") for at komme til selve insulin-entryet.
Orienter
jer på denne side og få overblik over hvilke
informationer
den indeholder.
Se
også på "flat-file"
versionen af
Swiss-Prot
entryet (dvs. det underliggende data uden alt det pæne
web-layout).
Åbn linket fra den orange boks mærket "TEXT" i et
nyt vindue eller en ny tab, så du kan sammenligne de to
versioner. Ved at studere tekstversionen nærmere kan
man finde ud af, at den
faktisk
indeholder præcis den samme information som web-versionen,
selv om formatet er mindre overskueligt.
Rækkefølgen af oplysningerne er dog anderledes
(men OBS: man
kan faktisk flytte
en gruppe oplysninger i web-versionen ved at trække i den
grå bjælke med musen!). - I
web-versionen kan man få en kort forklaring til et feltnavn
(f.eks. "Protein names") ved at holde musen over det et
øjeblik, og man kan få en detaljeret
forklaring (manual) ved at klikke
på
feltnavnet. Prøv det! Bemærk:
Eksemplerne i manualen stammer fra flat-file
versionen.
Blad ned til
referencerne - hvor mange er der? (Insulin er
et meget velundersøgt protein). Bemærk
hvad hver
enkelt reference har bidraget med ("Cited for"
eller RP linjerne i flat-file). Man kan
komme
videre til PubMed litteraturdatabasen på NCBI ved at
klikke på
linket mærket "PubMed" ved en reference - prøv
det. Abstractet til artiklen kan læses der (eller
direkte hos UniProt vha. "Abstract"-linket), hvis
der ellers er tale om en rigtig artikel og ikke en "direct
submission". For
nyere artikler er der ofte også et link fra PubMed
videre til fuld tekst
online, men for at få adgang til den kræves det i
mange
tilfælde at man er logget ind via et bibliotek (f.eks.
DTV).
Blad
tilbage til "Ontologies". Her finder I dels keywords (KW linjer i
flat-file), dels en masse "Gene Ontology" termer (DR GO linjer i
flat-file). Det er krydshenvisninger til en database
ved navn Gene
Ontology,
der
består af præcist definerede annoteringstermer for
gener og
proteiner, organiseret i et hierarkisk system. Der findes tre
typer termer: "biological process", "molecular function" og "cellular
component". Ved at klikke på de enkelte GO links
kommer man
dog ikke til selve Gene Ontology's webside, men til en browser der
hedder "QuickGO" på EBI.
Prøv det - f.eks.
det der hedder "hormone activity". Her kan I læse
en
definition af hvad et hormon egentlig er for noget, og man kan se
"parent terms" (hvilke overordnede kategorier hormonaktivitet
hører under) og "child terms" (hvilke underkategorier der
findes
af hormonaktivitet). Læs
"General annotation (Comments)" (CC linjerne i flat-file).
Her finder man noget af
selve den funktionelle og strukturelle annotering af proteinet - resten
er i "Features" (FT linjerne). Kommentarerne er inddelt i et
begrænset antal (p.t. 27) kommentartyper ("topics"), mens
selve
indholdet af hver kommentartype oftest er i frit format. En af de
vigtigste
kommentartyper er naturligvis "Function". Bemærk at
der
faktisk ikke står her, at insulin er et hormon - det
står
til gengæld i Keywords (KW linjerne) og i en af Gene Ontology
(GO)
henvisningerne
(som vi kommer til lidt senere). En anden kommentartype er "Subcellular
location" - hvor
finder man
insulin? Hvorfor er det der?
- Blad videre ned til "Sequence annotation (Features)" (FT
linjerne i flat-file).
Bemærk
følgende:
- Insulin
har både et signalpeptid og et
propeptid. Begge disse bliver klippet af
før
sekretionen. Det færdige insulin (A og B
kæderne) er
altså væsentlig mindre end det der bliver vist
under
"Sequence
information".
- Sekundærstrukturen er
specificeret som "HELIX"
(alpha-helix), "STRAND" (del af beta-pleated sheet) eller "TURN" (skarp
overgang mellem andre sekundærstrukturelementer) -
prøv at klikke på "Details...".
Der er
også tre disulfidbroer (kovalente bindinger mellem to
cysteiner), to af disse holder A- og B-kæderne sammen.
- Der er nogle beskrevne varianter
(mutationer) af insulin.
I visse tilfælde ved man præcis hvilken
fænotype
(forskellige varianter af sukkersyge) de forårsager.
-
Vi skal nu udforske nogle enkelte af
de databaser (ud over PubMed og GO) som Swiss-Prot
linker videre til. De findes under "Cross-references" (DR
linjerne i flat-file). I den pænt formaterede
udgave er de delt
op i en
række emner. Under "Sequence databases" finder man
først og fremmest links
til nukleotiddatabaserne. Bemærk at der er
adskillige
nukleotid-entries for dette ene protein-entry. Sæt
den lille menu til venstre til "GenBank" og klik
på et
af accession-numrene. Ligner det noget I har set sidste uge?
- For at se tertiærstrukturen
må man videre til en
anden database, RCSB
PDB
under "3D structure databases". Den kommer I til at
høre
meget mere om næste uge, men lad os lige tage et enkelt
kig. Som I kan se, er 3-D strukturen af insulin blevet
bestemt
adskillige gange. Vælg en af dem der er
mærket
"X-ray"
under "Method" og klik på Entry-linket. Ud over
diverse
information om
molekylet og den eksperimentelle procedure der er brugt, er der et
nydeligt lille billede af insulin tegnet i en
"ribbon"-repræsentation, hvor kun
sekundærstrukturelementerne, ikke de enkelte atomer, er
vist. Under "Display Options" kan man komme videre til flere
interaktive Java-baserede visualiseringsværktøjer,
hvor man med musen kan dreje molekylet rundt og se det fra forskellige
vinkler - prøv det evt. senere hvis I har tid til overs.
Under
"Family
and domain databases" er der en lang række
databaser der med forskellige metoder har samlet proteiner
der
ligner hinanden (familier). I nogle tilfælde ligner
proteiner hinanden i visse dele (domæner) af sekvensen, men
ikke
i andre, og i disse tilfælde kan sådanne databaser
fortælle hvilke dele af det aktuelle protein der er kendt i
andre
sammenhænge. Visse store proteiner kan
være sammensat
af mange dele med hver sin evolutionære historie!
Den
vigtigste af disse databaser er InterPro,
fordi den samler resultaterne fra stort set alle de andre.
Prøv at
klikke på det øverste InterPro link, der kommer I
til et
væld af oplysninger om insulin-familien med et fyldigt
abstract
og en lang litteraturliste.
Avanceret søgningUniProts
nye interface giver mulighed for at søge på de
fleste felter i databasen, ikke kun de mest oplagte som navn og
organisme, som vi prøvede før, men også
de funktionelle og strukturelle annoteringer. Nu skal vi
prøve nogle enkelte af dem.
Gå
tilbage til UniProt's
hjemmeside: http://beta.uniprot.org/. Klik
på ordet "Fields" til højre for
søgefeltet. Nu
skal vi se, hvor mange proteiner der er udskilt af cellen ("secreted")
ligesom insulin. Vælg "General annotation [CC]" i menuen
"Field". Nu dukker de endnu en menu op, kaldet "Topic".
Vælg "Subcellular location". indtast derefter "secreted"
i feltet "Term" og klik på "Add & Search"-knappen.
Hvor mange er der? - Kombinering af felter: Hvor
mange sekretoriske proteiner er der i mennesket? Klik
på "Fields" igen, lad menuen længst til venstre
stå på "AND", vælg "Organism [OS]" under
"Field", indtast "human" i feltet "Term" og klik på "Add
& Search"-knappen. Hvor mange er der nu? (Bemærk igen
hvordan man også kan løse opgaven ved at redigere i
søgningen i "Query"-boksen - men så er man
nødt til at vide hvad de enkelte felter hedder).
Numerisk felt: Hvilke
ekstremt korte proteiner findes der i UniProt? Slet den hidtidige
søgning ved at klikke på "Clear"-knappen. Klik
på "Fields" igen og vælg "Sequence length". Der
kommer nu to nye felter, hvor man kan indtaste nedre og øvre
grænse. Indtast henholdsvis 1 og 10 og søg. Hvor
mange er der? Ekstremt korte
proteiner i TrEMBL kan nemt være fejl, hvor der ikke er
egentlig evidens for at sekvensen er proteinkodende. Derfor vil vi
begrænse søgningen til Swiss-Prot (se ovenfor
hvordan man gjorde det).Hvor mange er der tilbage? Læg
mærke til at mange af de fundne proteiner er fragmenter
ifølge beskrivelsen. Lad os prøve at
udelukke
dem. Klik på "Fields" igen, lad menuen
længst til venstre stå på "AND",
sæt "Field" til "Fragment (yes/no)", vælg "no" og
søg. Hvor mange er der nu tilbage? - Og
med den erfaring, I nu har fået, skulle det være en
smal sag at svare på det sidste
spørgsmål: hvor mange af de disse ekstremt korte
ikke-fragment proteiner er fra mennesket? (svaret er 7!) Kig
nærmere på nogle af de hits, I nu har fundet, og se
hvilke funktioner de har.
Prøv
så til sidst at gemme hele resultatet af jeres sidste
søgning. Klik på den orange "Download..." knap
øverst til højre, så får I
muligheden for at få resultatet i én fil. Kig
på FASTA-formatet og Flat Text formatet (brug "Open"-linksene
i stedet for "Download").
Hvis
I har mere tid...
...så prøv nogle af søgningerne fra den
frie del af
sidste uges øvelse, bare på UniProt i
stedet for
GenBank: alkohol-dehydrogenase, alpha-globin, actin og p53.
|