Events News Research CBS CBS Publications Bioinformatics
Staff Contact About Internal CBS CBS Other

Søgning i GenBank

Øvelse skrevet af: Rasmus Wernersson


Introduktion

Denne øvelse har to formål:

1) At gøre dig fortrolig med den type DNA data det ligger i GenBank. (formatet, mulighed for visualisering, links til andre databaser, hvordan biologiske "features" såsom gener er beskrevet i forhold til den primære DNA sekvens).

2) Søgning i den online udgave af GenBenk hos NCBI. Eftersom antallet af sekvenser i GenBank er gigantisk, er det tvingende nødvendigt at kunne sortere alt det uønskede fra.


Start på øvelsen

GenBank databasen har hjemme hos NCBI (National Center for Biotechnology Information, USA) [Link: http://www.ncbi.nlm.nih.gov/]. Ud over selve GenBank databasen, har NCBI også en række andre biologiske databaser (herunder hele-genom databaser for menneske, chimpanse, mus, rotte mfl.). I denne øvelse vil vi koncentere os om selve GenBank. GenBanks hovedhjemmeside ligger her: http://www.ncbi.nlm.nih.gov/Genbank/index.html

  1. Åben "Entrez" søgesiden med fokus på GenBank:

    Søgning i alle NCBI databaser sker gennem et fælles søgesystem kaldet Entrez. På stort set alle sider på NCBI's website, er der et søgefelt i toppen af siden, hvor man direkte kan søge i de enkelte database (eller alle databser på en gang). Tryk på nedenstående link for at åbne et browser vindue, hvor vi allerede har valgt at søge i GenBank:

    http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide

    Bemærk at det ikke er nødvendigt at huske den kryptiske adresse, man kan nøjes med at gå til NCBI's hovedside, og så vælge "Nucleotide" som database i søgefeltet.


Om data i GenBank

Denne del af øvelsen handler om de typer af data der findes i GenBank

Søgning efter et specifikt ID

At søge på et specifik ID i GenBank vil typisk være i forbindelse med at man slår oplysninger op fra litteraturen, andre databaser, online lister af interessant gener mm. I denne del af øvelsen vil vi arbejde med at sæt af alpha-globin gener.

  1. Søg efter "AB001981" - Klik på link'et til resultatet.

    Som standard vises resultatet i GenBank format.

    1) Hvor mange gener er indeholdt i dette entry?
    2) Hvilken organisme er DNA'et fra?
    3) Brug noget tid på at kigge GenBank entry'et nærmere efter. Læg mærke til hvilke type af data der findes.
    Læg mærke til at der linkes direkte til den pulikation, hvor sekvensen stammer fra via et PubMED ID. Dette kan være af stor værdi, hvis der er viser sig at der er noget "underligt" ved sekvensen. Det kan fx. være at strukturen af genet simpelthed ikke giver mening, når man sammenligner med de tilsvarende gener fra nærtbeslægtede organismer. Det vil så være let at gå tilbage til den oprindelige pulikation og nærlæse præcis hvad de har gjort. Det sker ind imellem, at der ikke er 100% overenstemmelse mellem den/de sekvenser, der er submittet til GenBank, og hvad artiklen beskriver (fejl i forberedelse af data). Alternativ kan der simplthen være brugt dårlige metoder i det oprindelige arbejde - fx. i forbindelse med kloning af DNA fragmentet, oprensning eller sekventering.
    HUSK: data i biologiske databaser KAN være fejlbehæftede.
    4) Klik på PubMED id link'et.
    5) Bemærk at man via PubMED altid har adgang til at læse abstract'et til den pågældende artiklen, selvom adgang til artiklen kravet abonnement (fx. via DTV).
    6) Gå slutteligt tilbage til det oprindelige GenBank entry (eller søg igen, hvis du har lukket vinduet).
  2. Prøv at ændre formatet til FASTA (display -> FASTA)

    Nu er hele GenBank entry'et vist i FASTA format.

    1) Hvad er der sket med alpha-globin generne?
    2) Hvilken del af GenBank filen er blevet konverteret?
    Bemærk at navnet på sekvensen er sammensat af database ID's der henviser til det oprindelige GenBank entry.
  3. Gå tilbage til visning af GenBank format (display -> GenBank)

  4. Gem den rå GenBank fil til din egen computer:

    1) Display -> Genbank
    2) Send to -> Text
    Bemærk at nu vises kun det "rå" GenBank entry - ingen HTML mm. Herfra kan de rå data enten gemmes i en fil eller kopieres direkte ind i en text-editor.
    3a) Gem det rå text output under filnavnet "AB001981.gbk". Hvis din browser finder på at ændre filnavnet (fx. At sætte .txt eller .html bagved, så fjern denne tilføjelse).
    3b) Kopier hele teksten til en text-editor (fx. Notepad under Windows, NEdit under Unix eller BBedit på Mac), og gem til en fil (fx. "AB001981_copy.gbk"). Word er IKKE veleget til formålet: et tekstbehandlings program såsom Word gemmer som udgangpunkt ikke teksten som "rå tekst". I en ".doc" fil findes der også en masse information ang. skrifttyper mm.
    4) Sammenlign de to filer (fx i Notepad) - hvis de er ens, og ikke indeholder andet en selve GenBank teksten er der gået som det skal. Ellers prøv igen (gå tilbage til GenBank siden, og gentag 3a og/eller 3b).
  5. Klik på det føste "CDS" element (Alpha-D)

    CDS = CoDing Sequences : den del af et gen,der faktisk koder for protein. Hos Eukaryoter (som her) er generne ofte afbrudt af introns, som i cellen fjernes fra det oprindelige mRNA molekyle inden det bruges som "opskrift" på et protein. Dette gennemgåes yderligere i undervisningen, her er det blot vigtigt at bemærke at i GenBank består et CDS element af et (eller flere) intervaller som tilsammen repræsenterer den protein kodende del af genet.

    1) Hvad skete der nu med DNA sekvensen?
    2) Bemærk det nye interval 1..423
    3) Hvilke 3 nukleotider starter DNA sekvensen nu med?
    4) Hvilke 3 nukleotider slutter DNA sekvensen nu med?

    Den nye sekvens er kun "CDS" delen af den totale sekvens. Bemærk at introns er fjernet. Sekvensen svarer til den protein-kodende del af det færdige (splejsede) transcript (mRNA).

    5) Gå tilbage til det oprindelige GenBank entry, og vælg nu CDS element nummer 2 (Alpha-A)
    6) Hvilke 3 nukleotider starter DNA sekvensen nu med?
    7) Hvilke 3 nukleotider slutter DNA sekvensen nu med?
    8) Sammenlign resultater fra 6) + 7) med 3) + 4). Er der et mønster? Hvorfor?

    Vi kommer senere i kurset i detaljer ind på emnet protein-koding (translation).

  6. Skift til FASTA format for CDS'en (Display -> FASTA)

    Bemærk hvorledes det oprindelige ID på GenBank entry'et samt exon intervaller er bevaret i sekvensens navn.
  7. Graph view (Display -> Graph)

    Der vil nu blive vist en grafisk repræsentation af entry'et (der skiftes automatisk til visning af hele GenBank entry'et igen).

    1) Tryk på de grå kasser lige efter "Alpha-D" (den grafiske repræsentation af Alpha-D genet, med tre exons).
    2) Den viste DNA sekvens bliver nu centreret om Alpha-D genet.
    3) Bemærk hvorledes genet struktur vises sammen med DNA sekvensen.
    4) Bemærk at den tilhørende protein sekvens er flettet med ind under DNA sekvensen for de respektive exons.


Søgning i GenBank

Når man søger efter sekvenser i GenBank, er man meget let ved at drukne i data. Det vigtige er her at få skåret alt det uønskede fra, uden at miste det man ledte efter i første omgang.

I første del af øvelsen vil vi prøve at finde det humane gen for Insulin

  1. Søg efter ordet insulin

    1) Skriv "insulin" i søgefeltet og tryk "GO".
    2) Hvor mange sekvenser er fundet hvor insulin er nævnt et eller andet sted?
    3) Bemærk hvorledes vi får tilbudt data fra alle mulige (mærkelige) kilder: Fra patenter, fra forudsagte gener, fra partielle sekvenser osv.
  2. Om brug af specifikke søgefelter:

    Som udgangspunkt søges der efter det/de søgeord man har tastet ind i alle tænkelige felter. Man kan i princippet være så uheldig at få resultater med, hvor en af forfatterne hedder det samme som et af de gener med leder efter! Det er mulig at begrænse søgningen til specifikke felter, hvilket kan hjælpe gevaldigt når man skal have sorteret uønskede resultater fra. For at få en ide om hvilke felter man kan søge i, så prøve at kigge nærmere på HEADER delen af det GenBank entry, der er udleveret som handout (X01831). Læg særlig mærke til indholdet i felterne KEYWORDS og ORGANISM som vi vil bruge i det følgende.

    På NCBI's hjemmeside kan man finde en skematisk oversigt over søgefelterne her: Search Fields and Qualifiers (denne side kan også findes ved at man går ind under "HELP" i menubjælken og leder efter "Search Fields").

  3. Søg kun efter humant insulin:

    1) Søg efter: "human[organism] insulin"
    2) Vi får nu kun resultater som indeholder "human" i "organism" feltet. Bemærk at man kan bruge det engelske trival-navn for organismen. Vi ville have fået samme resultat, hvis vi havde brugt "Homo sapiens".
    3) Hvor mange sekvenser er vi nede på nu?
    4) Kig ned over listen af de første 20-30 hits.
    5) Bemærk at vi stadig ikke har fundet selve insulin genet.

    Problem er her, at vi får alle entries hvor "insulin" er nævnt et eller andet sted, og det kan også være i forkert context: Insulin-receptor, insulin inhibitor osv.

    Et godt eksempel på hvorfor vi får nogle VIRKELIGT underlige ting med, er entry NM_053056 (hit nummer to da øvelsen blevet skrevet). Dette entry er beskrevet som "Homo sapiens cyclin D1 (CCND1), mRNA". Hvorfor er det kommet med som insulin? Problemet viser sig at være, at en af artiklerne der refereres til hedder "Insulin-like growth factor I triggers nuclear accumulation of cyclin D1 in MCF-7S breast cancer cells".

  4. Søg kun efter resultater hvor "Insulin" specifikt er nævnt som "KEYWORD":

    1) Søg efter "human[organism] insulin[keyword]
    2) Bemærk at vi nu er nede på et antal sekvenser, det faktisk er mulig at gå igennem (selvom der stadig er en del junk).
    3) Prøv at finde de GenBank entries som er de bedste kandidater til at indeholde hele sekvensen for insulin-genet. Der er en god hjælp at inspicere det enkelte GenBank for at se flere detaljer.
    4) I skal i hver gruppe skrive de GenBank ID(s) ned som I mener indeholder det vi faktisk leder efter (genet humant insulin). Vi vil sammen gennemgå dem på tavlen efter øvelsen.

Brug af NOT, AND og OR:

Vi vil nu prøve at finde så mange komplette insulin gener fra så mange organismer som mulig.

  1. Start en ny søgning efter Insulin:

    1) Søg efter: "insulin[keyword]"

    Antallet af hits er begrænset (< 100) og kan i princippet tjekkes efter i hånden. I denne øvelse vil vi dog bruge søgetermer, der skal udelukkes istedet.

  2. Det første vi kan udelukke er gener der er "insulin-like":

    1) Søg efter: "Insulin[keyword] NOT insulin-like"

    Bemærk at listen reduceres - der er dog stadig en række uønskede resultater.

  3. Lad os som det næste komme af med de partielle gener:

    1) Søg efter: "Insulin[keyword] NOT (insulin-like OR part OR partial)
    Det vi foretager os her er faktisk en række søgninger som lagt til eller trukket fra hinanden. Resultaterne for de søgetermer der står inden mellem paranteserne bliver lagt sammen. OR-operatoren stiller det krav at et resultat bliver taget med, hvis det optræder ENTEN på højre eller venstre side (eller begge). NOT bruges til at UDELUKKE de resultater der står til venste - i dette tilfælde det samlede søgeresultat for alt det står mellem paranteserne. AND bruges til at kræve at de enkelte søgeresultater findes BÅDE i højre og venstre side.
  4. Fortsæt på egen hånd med at tilføje flere "KILL-WORDS" til listen af termer der skal udelukkes.

    1) Hver gruppe skal skrive en kort liste af "kill-words" ned. Vi vil gennemgå dem sammen på tavlen.
    2) Tænk over hvad der er af fordele of ulemper ved at bruge denne strategi ("kill-words") i forhold til bare at gå listen igennem i hånden.

"Fri øvelse"

Det er nu tid til at på egen hånd at øve sig i søgning i GenBank. Hver gruppe skal vælge en (eller flere, hvis tiden tillader det) opgaver på listen herunder, og prøve at løse den bedste muligt. Snak sammen i grupen om hvad den bedste strategi vil være.

  1. Find Insulin genet hos rotter og mus

  2. Find genet for alkohol-dehydrogenase hos flest mulige organismer.

  3. Find alpha-globin genet hos Capra hircus - Alpha-globin er en del af hæmoglobin.

  4. Find alpha-globin genet hos alle drøvtyggere - tip: kig ORGANISM linerne nærmere efter hos et dyr du ved er en drøvtygger. Tree of Life projektet har en side om placentale patterdyr, der måske også kan være til hjælp: http://tolweb.org/tree?group=Eutheria&contgroup=Mammalia.

  5. Find actin genet fra flest mulig organismer

    Undgå mRNA og entries der er en del af hele kromosomer, cosmider osv.
  6. Find det NORMALE p53 gen hos mennesket (svær)

    p53 er involveret i kræft, og der er derfor undersøgt et utal af muterede versioner af dette gen. Her skal vi finde det originale. Prøv som start at kigge nærmere på en af de muterede versioner: S66666. Læg mærke til hvor ordet "p53" optræder - samt at der IKKE er defineret noget i KEYWORD. Bemærk at dette gen også kan optræde under navnet "TP53". Det svære i denne øvelse er at finde det/de rigtige felter at søge i, samt et undgå at få smidt det rigtige entry ud med KILLWORDS.

    10 points for at finde mRNA versionen.
    100 points for at finde den fulde version med exons og introns (som ikke er en mutant, eller alternativ splejsnings-form).