Øvelse skrevet af: Thomas Salhøj Rask og Henrik Nielsen
Formålet med denne øvelse er at anvende de ting vi har lært indtil nu på en aktuel problemstilling: At undersøge hvordan en eventuel malaria vaccine kunne se ud, ved at udvælge proteiner eller dele heraf der kunne være egnede som vaccinemål, og som man kunne inkludere i en vaccine. Der vil blive introduceret nye begreber bl.a. dot-plots og forudsigelse af B-celle epitoper. Vi skal igennem de følgende punkter:
Hvilken organisme
forårsager malaria? Bakterie, protozoa
(enkeltcellet eukaryot), orm eller virus? Find
organismen i en af de to taxonomi-databaser vi kender.
NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/Taxonomy (Tip: Det
Tree of life: http://www.tolweb.org
1a) Find følgende taxonomiske klassifikationer for
organismen der
forårsager malaria:
-
Genus
-
Phylum
-
(Super)Kingdom
1b) Hvor tæt ligger organismen evolutionært
på: (Nævn
højeste fælles taxonomiske gruppe. Tip:
Brug NCBI
Taxonomy Common Tree funktionen)
-
Homo Sapiens
-
Babesia microti
(Overføres i
sjældne tilfælde ved
flåt-bid. Forårsager sygdommen babesiose,
hvor de røde blodceller (erythrocytter) invaderes ligesom i malaria
hvilket fører til anæmi (blodmangel). Se evt. billeder af
inficerede erythrocytter på ”Tree of life” siden.)
Læs
nærmere om malaria her WHO
og se nærmere på den komplicerede livscyclus her DPD .
1c) Nævn de fire forskellige arter der forårsager
human malaria.
Brug NCBI taxonomi databasen til at finde ud af om man har sekventeret
hele
genomer fra nogle af disse 4 arter.
1d) Er malaria forårsaget af en enkeltcellet eller en
flercellet
organisme?
Malaria forårsaget af Plasmodium falciparum (Pf) er langt den mest dødbringende form for malaria. Denne art er ansvarlig for 80-90% af de ~2 millioner dødsfald malaria forårsager hvert år. Vi vil derfor starte med at lave en vaccine mod denne type malaria.
Da man første gang skulle sekventere Pf
genomet engang i 90erne, valgte man at bruge malariaceller isoleret fra
blodet fra en hollandsk malariapatient der lige var hjemvendt fra hans
rejse, uheldigvis glemte man at notere sig hvor patienten havde været
henne. Dette isolat kaldes 3D7 og er, på trods af at man ikke ved hvor
i verden den oprindeligt kommer fra, den malariastamme vi ved mest om.
Find Pf 3D7 frem med NCBIs taxonomi browser.
Nederst
på siden ses bl.a. information
om Pf genomet. I den mangefarvede
tabel til højre i vinduet findes bl.a. et
punkt
der hedder “Gene”. Entrez Gene databasen indeholder både kuraterede
(manuelt
verificerede) gener, samt hypotetiske gener forudsagt med
bioinformatisk
software der er trænet til at finde gener. Entrez Gene giver
søgeresultater i tre faneblade: All
= alle gener inkl. gener som man ikke længere mener er gener (såkaldte discontinued gene records), Current Only = gener man for tiden
tror på, og Genes Genomes =
gener der kan henføres til et bestemt sted på referencesekvensen for
organismen (dvs. 3D7 kromosomerne for Pf).
2a) Hvor mange kromosomer har Pf? Hvor mange verificerede gener (dvs. IKKE hypotetiske) har Pf 3D7? (Tip: Følg “Gene” linket og tilføj “ NOT hypothetical” i søgefeltet. Obs. Der findes en post i databasen kaldet NEWENTRY som ikke er et rigtigt gen - det er en slags beholder til ekstra annoteringer, der endnu ikke er blevet placeret på det relevante gen.)
Der er forskellige stadier af
malaria inde i menneske-værten, hvilket har betydning for hvordan en
vaccine skal designes. Man
Vi
skal nu prøve om vi
I første omgang
skal vi
bare tælle hvor
mange hits vi får ved at søge efter disse
oplysninger (eller dele af
dem) i diverse UniProtKB felter.
Til dette vil vi
bruge samme søge-interface som i UniProt-øvelsen
tirsdag 19/2. Det vil måske være en god
ide at åbne et
browservindue med øvelsesvejledningen
fra dengang, for i dag vil proceduren ikke blive beskrevet i
nær
så mange detaljer!
2b) Gå
til UniProt. Undersøg
hvor mange Plasmodium falciparum proteiner der i
alt er i
UniProtKB. (Tip
1: Klik på "Fields »" og vælg "Organism"). Hvor
mange af disse er fra
Swiss-Prot og hvor
mange fra TrEMBL? (Tip 2: Klik
på hhv. "reviewed" og "unreviewed". Tip 3: For at komme
tilbage til den fulde søgning, kan man enten bruge
browserens "Tilbage" knap eller klikke på det lille "
" ud
for den
betingelse, man vil fjerne).
Hvis et protein skal secerneres fra parasitcellen, skal det have et sekretorisk signalpeptid, som fungerer som signal til at ribosomet under proteinsyntesen skal være bundet til ER-membranen, og at proteinet samtidig bliver ført gennem en kanal i denne membran. Dette gælder også mange af de proteiner der findes på ydersiden af parasitcellens membran. Signalpeptider bliver annoteret i UniProt's Feature Table (Sequence annotation [FT]) med featuretypen "Signal peptide".
2c) Hvor mange Pf proteiner med annoterede signalpeptider finder I? Hvor mange fra hver del af databasen? (Bemærk: selv om der er mange flere TrEMBL end Swiss-Prot proteiner i alt, er der nu flere hits fra Swiss-Prot end fra TrEMBL - Swiss-Prot entries indeholder simpelthen i gennemsnit mange flere annoteringer end TrEMBL entries).
Selv om et protein har signalpeptid, er der ingen garanti for at det secerneres - det kan evt. blive holdt tilbage i et organel som ER eller Golgi før det når til plasmamembranen. Vi skal derfor se om vi i stedet for Feature Table kan bruge oplysninger om subcellulær lokalisering i kommentarfeltet.
2d) Undersøg først hvor mange Pf proteiner der overhovedet har kommentartypen (General annotation [CC]) "subcellular location".
2e) Hvor mange af disse er secernerede ("secreted")? (Tip: det skal stå i feltet "Term", når "Topic" samtidig er "subcellular location"). Det var sandelig ikke mange! Og yderligere er halvdelen af disse få hits næppe brugbare - hvorfor ikke?
Vi må altså lede efter andre nøgleord i "subcellular location". Det kunne jo tænkes at "subcellular location" var angivet som "surface" eller "membrane".
2f) Hvor mange er der af hver af disse?
Der er flest med "membrane"; men langt fra alle disse proteiner er er egnede som vaccinationsmål. For at være interessante, skal de sidde i cellemembranen (plasmamembranen) af enten parasitten eller værtscellen. For at undersøge, hvor ofte det er tilfældet, skal I prøve endnu en funktion i UniProt's interface: klik på "Customize display" (længst til højre i linjen under søgestrengen) og tilføj "subcellular location" til de viste felter ("Columns"). Sæt samtidig "Rows" til den størst mulige værdi, så I får alle resultaterne på én gang. Klik på "Save" og kig nu på resultaterne af søgningen, hvor "subcellular location" indeholdt "membrane".
2g) Se på feltet "Subcellular Locations". Giv nogle eksempler på hits, der måske er brugbare, og hits, der i hvert fald ikke er (mindst to af hver). Hvor mange af dem indeholder udtrykket "cell membrane"?
Lad os nu koncentrere os om de vaccinationsmål, der findes i værtscellens plasmamembran. Der skulle altså gerne stå noget i retning af "erythrocyte membrane", "erythrocytic membrane" eller "membranes of erythrocytes" under "subcellular location" - eller tilsvarende muligheder med hepatocytter. (Tip: Her får I brug for wildcards ('*'): udtrykket "erythrocyt*" matcher både "erythrocytes" og "erythrocytic"!).
2h) Hvor mange hits kommer der nu, for henholdsvis erythrocytter og hepatocytter?
Vi prøver nu noget helt andet: hvis det vi leder efter nu slet ikke forekommer i Feature Table eller kommentarerne, kunne det jo være det var en del af selve beskrivelsen. Find derfor alle Pf proteiner, der har "erythrocyt*" eller "hepatocyt*" i Protein Name [DE] feltet.
2i) Hvor mange er det for hver celletype? Hvor mange af disse er fra Swiss-Prot (reviewed)?
Som I
2j) Hvor mange komplette sekvenser er der? (Tip: nu skal I søge på proteiner, der kommer fra Pf OG er beskrevet som "erythrocyt*" MEN IKKE er beskrevet som "fragment" - se pkt. 6 under "Avanceret søgning" i den gamle UniProt øvelse).
2k) Som afslutning på denne del af øvelsen skal I lige prøve at gemme resultatet af den sidste søgning. Klik på det orange "Download..." felt længst til højre og download hele sættet i tre forskellige formater: "Tab-Delimited", "FASTA" og "Flat Text". Kig på disse tre filer med en text editor.
(NB: Luk ikke vinduet, klik tilbage til resultat-listen, vi skal bruge et af resultaterne nedenfor).
Bemærk at rigtig mange af
de
proteiner vi har fundet nu hedder PfEMP1. Det er dem vi
vil gå videre med i den resterende
PfEMP1 proteinerne
som vi nu har fundet frem til
er en gruppe af proteiner som malaria parasitten udtrykker og
transporterer til
ydermembranen af den invaderede erythrocyt (se figur 1 – de rød-orange
pinde er PfEMP1 proteiner).
Funktionen af
PfEMP1 proteinerne på overfladen af de inficerede erythrocytter er at
mediere binding til receptorer på endothelceller (de celler som danner
væggene i blodårer). På denne måde kan malaria
parasitten få de inficerede erythrocytter til at hænge fast
på væggen af blodårene rundt omkring i kroppen, og dermed kan
den undgå at blive transporteret igennem milten, som
fjerner syge erythrocyter fra blodet og
er en af
hovedaktørerne i at generere et immunrespons mod malaria.
Hvis vi med en
vaccine kan generere antistoffer der binder til PfEMP1 proteinerne, så
de
inficerede erythrocytter ikke kan binde til endothelcellerne, vil
kroppen
hurtigere kunne danne et bredere immunrespons mod Pf.
Symptomer så som anæmi vil dermed ikke nå at
blive så seriøse.
Vi skal nu
undersøge nærmere hvordan PfEMP1 proteinerne er opbygget.
I resultat-listen
fra ovenstående øvelse, klik på linket ud for PfEMP1
proteinet med accession nummer Q8I1V6
(Tip: vælg evt. view
“names only” og brug browserens søgefunktion (ctrl+f) til at
finde proteinet). Scroll ned til punktet
“Family
and domain databases”, her er tre services der giver mulighed for at
søge efter kendte domænetyper i det valgte protein. InterPro og Pfam minder meget om hinanden og har stort set
det samme
repertoire af domænetyper. Udover en stor mængde verificerede
domænetyper, inkluderer begge databaser domæner fra
den tredje database ProDom, som er baseret udelukkende på domæner
der er automatisk genereret ved similaritetsøgning mellem proteiner. Følg Pfam linket “graphical view”.
3a) Hvilke
to kendte domænetyper findes i PfEMP1 proteinet Q8I1V6? (Tip: PfamA består af kendte
verificerede domæner og PfamB af automatisk genererede domæner.)
Klik på det
første domæne fra venstre. Til højre ses en 3D struktur af et domæne af samme type,
men fra
et andet protein. Nederst på siden er der et
punkt der hedder Gene
Ontology (GO) hvor domænets funktioner vises med GO-termer. GO
er en database over proteinfunktioner.
3b) Hvad
siger GO om domænetypen?
Underbygger disse informationer vores
valg af vaccinemål?
Undersøg
nu det andet domæne.
3c) Hvad
er “rosetting”?
De to typer
domæner er ifølge Pfam begge medlemmer af en klan af domæner som kaldes Duffy binding-like domæner,
hvilket forkortes til DBL domæner, og
de findes i forskellige antal i alle PfEMP1 proteinerne.
Klik nu tilbage
til UniProt entryet Q8I1V6.
Under punktet "Sequences" ses
aminosyresekvensen for
Q8I1V6, og
Vi skal også bruge et andet PfEMP1 protein, nemlig acc. nummer Q8I639. Find dette protein i vores resultatliste, og tjek som før domænestrukturen i dette PfEMP1.
3d) Hvor mange DBL domæner findes i dette protein? Noter start og slut position for første domæne fra venstre.
Gem nu også aminosyresekvensen i FASTA-format for dette protein.
DotPlot
Vi skal nu se nærmere
på sekvensligheder både internt i de enkelte proteiner og mellem de
to proteiner, dette
http://athena.bioc.uvic.ca/tool/jdotter/jdotter.jnlp [ jDotter beskrivelse og link til manual ]
Åben jDotter. Vi vil have begge PfEMP1 proteiner på begge
akser,
så vi både
3e) Hvis man
nummererer DBL domænerne i begge proteiner fra
venstre, så Q8I1V6 f.eks har DBL1
og DBL2, hvilke to DBL domæner ligner så mest hinanden
mellem de to proteiner. (Tip:
Farveskalaen
Den intracellulære
3f) Hvilken scoringsmatrix er brugt til at lave parvis alignment med? (Tip: Se “Plot Info” vinduet)
3g) Er denne matrix optimal til at finde sekvensligheder mellem DBL domæner hvor sekvensligheden på aminosyre-niveau tit ligger i omegnen 25-30% identitet?
Q8I639 kaldes også VAR2CSA, og proteinet er specielt fordi det menes at være ansvarlig for det man kalder graviditets associeret malaria (Pregnancy associated malaria eller PAM). Gravide kvinder er specielt modtagelige overfor malaria, og af denne grund dør der hvert år 10.000 mødre og 200.000 nyfødte/fostre. En af grundende til at der ikke er blevet udviklet en succesfuld malaria vaccine endnu, er at hver malaria parasit har 60 PfEMP1 proteiner, og man skal have antistoffer mod mange af dem for at være immun. Det interessante ved PAM er at her er der kun ét ansvarligt PfEMP1, og derfor er en PAM vaccine lettere at gå til.
Vi kan lige så godt prøve at slå så mange fluer med et smæk som muligt… lad os derfor tage det DBL domæne i VAR2CSA der har størst lighed med andre PfEMP1 DBL domæner (det vi fandt i spørgsmål 3e), og håbe på at hvis vi laver en vaccine mod dette, så vil antistofferne også kunne binde nogen af de andre PfEMP1 proteiner.
Når man laver en vaccine er det essentielt at den
indeholder nogle epitoper. Epitoper er de dele af sygdomsproteinerne
som
immunforsvaret genkender, f.eks de dele af malariaproteinet som
antistofferne binder
til (disse kaldes mere specifikt B-celle epitoper. Der findes også
T-celle epitoper, og dem
Vi har på CBS lavet en B-celle epitop forudsiger kaldet BepiPred, og vi vil nu prøve at finde ud af om det domæne vi vil vaccinere med/imod indeholder nogle brugbare epitoper.
BepiPred findes her: http://www.cbs.dtu.dk/services/bepipred/
Til forudsigelsen skal vi
bruge
aminosyresekvensen for VAR2CSA DBL domænet. Følg linket til
BepiPred, load FASTA-sekvensfilen Q8I639.fas og
sæt grænseværdien til 0.9, hvilket indikerer en lav
sensitivitet og høj specificitet (vi vil kun have de mest lovende
epitoper). Tryk “submit”. Vi skal bruge epitoperne i næste
4a) Hvor mange epitoper (>5 aminosyrer) forudsiger BepiPred i VAR2CSA DBL1 domænet?
Vi vil nu gerne
finde ud af om de epitoper vi har fundet ligger på overfladen af det
domæne vi har valgt. At epitoperne er overfladeeksponerede på det
enkelte domæne er dog ikke ensbetydende med at de er tilgængelige
for antistoffer på det native PfEMP1, men vi kan i hvert fald lave en
grovsortering af de epitoper vi har fundet.
Det er endnu ikke
lykkedes at lave en krystalstruktur af et PfEMP1 protein endnu, så vi
kender ikke 3D-struktur for VAR2CSA. Heldigvis er det lykkedes at
bestemme
3D-strukturen af to andre malaria proteiner der indeholder et DBL
domæner. Vi kan derfor prøve at modellere 3D-strukturen af det
valgte VAR2CSA domæne ud fra de kendte DBL strukturer, denne proces
kaldes homologi modellering, og der findes en del værktøjer til dette
formål. En god og simpel omend langsom server er Zhang’s I-Tasser
server, en anden god server er hhPred der giver
mulighed for
lidt flere brugervalgte indstillinger, og redigering af det parvise
alignment
mellem query og template sekvenserne. Homologi modellering ligger lidt
uden for
pensum (I kan høre meget mere om emnet i kursus 27617 - Protein
Structure and
Computational Biology), og så er det rimeligt tidskrævende,
så vi har allerede lavet en strukturmodel for VAR2CSA DBL1
domænet:
hhPred_VAR2CSA_DBL1.pdb
(Bemærk: Man
skal være opmærksom på at strukturer der er lavet med
homologi modellering kun er modeller. Højst sandsynligt findes der
områder i strukturen for modelleringen er usikker. Der findes en del
værktøjer til at vurdere kvaliteten af homologi modellerede
strukturer f.eks. VERIFY3D, SOLVX og ANOLEA)
Åben nu
PyMol som vi brugte i forrige øvelse, hent ovenstående fil til
harddisken og åben den i PyMol. Default visningsmåden kan
være lidt uoverskuelig, så farv molekylet en neutral gråhvid
farve og skift til ”cartoon” visning, ved at skrive følgende
kommandoer i kommandolinien (man kan copy-paste
alle tre
sekvenser på en gang. Man er også velkommen til at
udføre disse ting manuelt v.hj.a. brugerinterfacet i Viewer vinduet.):
color
gray80, hhPred_VAR2CSA_DBL1
hide
all
show
cartoon, hhPred_VAR2CSA_DBL1
Vi skal nu have
farvet epitoperne. Man kan farve en aminosyre på position 1 eller
aminosyre intervallet 1-3 med kommandoerne:
color
blue, i. 1
color
blue, i. 1-3
color
blue, i. 1+2+3
eller man kan lave
et selection og farve det bagefter:
select
epitop1, i. 1-3
color
blue, epitop1
Farv nu hver af
de forudsagte epitoper i forskellige farver så man kan adskille dem
visuelt. Husk at tilpasse BepiPred positionerne så de passer med
positionerne i 3D modellen (Tip: Vi
fandt første position af domænet i øvelse 3d). Man kan
få en idé om hvilke farver der er tilgængelige ude til
venstre i Viewer vinduet, ved at trykke på den
farvede”C”-knap. Bemærk:
Man kan få vist aminosyre sekvensen ved at trykke på knappen med
det lyserøde ”S” nederst til højre i Viewer vinduet.
Man kan få
PyMol til at beregne overfladen at proteinet med kommandoen:
show
surface
Lad os antage at
den homologimodellerede struktur er korrekt (normalt vil man bruge de
nævnte evalueringsprogrammer til at se hvilke regioner af strukturen
der
er tvivlsomme).
5a) Hvilke to epitoper er mest skjult og dermed mest
tvivlsomme
vaccinemål?
BepiPred er en
lineær epitop forudsiger, hvilket vil sige at den finder epitoper
dannet
af aminosyrer der i primærsekvensen sidder i forlængelse af
hinanden. En konformationel epitop er en epitop der består af flere
forskellige dele af primærsekvensen (hvor antistoffet binder til
aminosyrer der ikke sidder ved siden af hinanden i primærsekvensen).
5b) Er der nogen af de lineære epitoper der tilsammen
kunne se ud til at
danne en konformationel epitop? Og i så fald hvor mange
overfladeeksponerede strukturelle epitoper og lineære epitoper er der
forudsagt i VAR2CSA DBL1 domænet?
Så mangler
vi bare at klone VAR2CSA DBL1 domænet ind i en ekspressionsvektor,
udtrykke det rekombinant og blande det sammen med lidt adjuvant… så
har vi vores vaccine mod graviditets associeret malaria! (med en smule
held måske… ;o)