Øvelse skrevet af: Thomas Salhøj Rask og Henrik Nielsen
Formålet med denne øvelse er at anvende de ting vi har lært indtil nu på en aktuel problemstilling: At undersøge hvordan en eventuel malaria vaccine kunne se ud, ved at udvælge proteiner eller dele heraf der kunne være egnede som vaccinemål, og som man kunne inkludere i en vaccine. Der vil blive introduceret nye begreber bl.a. dot-plots og forudsigelse af B-celle epitoper. Vi skal igennem de følgende punkter:
Hvilken organisme forårsager malaria? Bakterie, protozoa (enkeltcellet eukaryot), orm eller virus? Find
organismen i en af de to taxonomi-databaser vi kender.
NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/Taxonomy (Tip: Det
Tree of life: http://www.tolweb.org
1a) Find følgende taxonomiske klassifikationer for organismen der
forårsager malaria:
- Genus
- Phylum
- (Super)Kingdom
1b) Hvor tæt ligger organismen evolutionært på: (nævn
højeste fælles taxonomiske gruppe)
- Homo Sapiens
- Babesia microti (Overføres i sjældne tilfælde ved
flåt-bid. Forårsager sygdommen babesiose,
hvor de røde blodceller (erythrocytter) invaderes ligesom i malaria
hvilket fører til anæmi (blodmangel). Se evt. billeder af inficerede
erythrocytter på ”Tree of life” siden.)
Læs
nærmere om malaria her WHO
og se nærmere på den komplicerede livscyclus her DPD .
1c) Nævn de fire forskellige arter der forårsager human malaria.
Brug NCBI taxonomi databasen til at finde ud af om man har sekventeret hele
genomer fra nogle af disse 4 arter.
1d) Er malaria forårsaget af en enkeltcellet eller en flercellet
organisme?
Malaria forårsaget af Plasmodium falciparum (Pf) er langt den mest dødbringende form for malaria. Denne art er ansvarlig for 80-90% af de ~2 millioner dødsfald malaria forårsager hvert år. Vi vil derfor starte med at lave en vaccine mod denne type malaria.
Find Pf frem med NCBIs taxonomi browser. Nederst på siden ses bl.a. information om Pf genomet. I den mangefarvede tabel til højre i vinduet findes bl.a. et link der hedder “Gene”. Gene databasen indeholder både kuraterede (manuelt verificerede) gener, samt hypotetiske gener forudsagt med bioinformatisk software der er trænet til at finde gener.
2a) Hvor mange kromosomer har Pf? Hvor mange verificerede gener (dvs. IKKE hypotetiske) har Pf? (Tip: Følg “Gene” linket og tilføj “ NOT hypothetical” i søgefeltet.)
Der er forskellige stadier af
malaria inde i menneske-værten, hvilket har betydning for hvordan en
vaccine skal designes. Man
Vi skal nu prøve om vi
Når man skal lave en vaccine, er det nødvendigt at have et vaccinemål, som rent faktisk er tilgængeligt
for immunsystemets celler. Vores opgave er at finde frem til en liste af proteiner der befinder sig på overfladen af enten sporozoites,
merozoites eller værtsceller, dvs. inficerede
erythrocytter og hepatocytter. I sidste tilfælde leder vi altså efter proteiner der:
I første omgang skal vi bare tælle hvor
mange hits vi får ved at søge efter disse oplysninger (eller dele af
dem) i diverse UniProtKB felter.
Gå til SRS
serveren på ExPASy og start en ny
session. Vælg både SWISS_PROT og
TREMBL som databaser - vi
Undersøg
først hvor mange Plasmodium falciparum proteiner der i alt er i
UniProtKB.
2b) Hvor mange af disse er fra Swiss-Prot og hvor
mange fra TrEMBL? (Tip: I behøver ikke at ændre
valget af database for at finde ud af det - bare kig
på Query Manager siden).
Hvis et protein skal secerneres fra parasitcellen, skal det have
et sekretorisk signalpeptid, som fungerer som signal til at ribosomet
under proteinsyntesen skal være bundet til ER-membranen, og at proteinet
samtidig bliver ført gennem en kanal i denne membran. Dette
gælder også mange af de proteiner der
findes på ydersiden af parasitcellens membran. Signalpeptider
bliver annoteret i UniProt's Feature Table med featuretypen (FtKey) SIGNAL.
2c) Hvor mange Pf proteiner med annoterede signalpeptider finder I? Hvor mange fra
hver
Selv om et protein har signalpeptid, er der ingen garanti for at
det secerneres - det
2d) Undersøg først hvor mange Pf proteiner der
overhovedet har kommentartypen (CommentType) "subcellular location".
2e) Hvor mange af disse er secernerede
("secreted")? (Tip: det står i
feltet Comment, når der samtidig findes kommentartypen "subcellular
location"). Det var sandelig ikke mange! Og yderligere er disse få hits næppe brugbare -
hvorfor ikke?
Vi må altså lede efter andre
nøgleord i "subcellular location". Det kunne det jo
tænkes at "subcellular location" var angivet som
"membrane" eller "surface".
2f) Hvor mange er der af hver af disse? Der
er flest med "membrane"; men dette datasæt indeholder nok
også en
Lad os nu
koncentrere os om de vaccinationsmål, der findes
i værtscellens plasmamembran. Der skulle altså gerne stå
noget i retning af "erythrocyte membrane", "erythrocytic
membrane" eller "membranes of erythrocytes" under
"subcellular location" - eller tilsvarende muligheder med
hepatocytter. Søg derfor på entries hvor både
"membrane*" og "erythrocyt*" forekommer i kommentarfeltet, og bagefter det samme med "hepatocyt*". (Tip: Hvis feltet "Append wildcard '*' to words"
er markeret, behøver I ikke skrive stjernerne). For at
kunne se i detaljer hvad det er I finder i denne søgning, skal I nu
ændre på outputformatet, så I får felterne Description og Comment med. (Tip: for at vælge mere
end et felt, hold Ctrl nede når I
klikker). Vælg "Display in list" i stedet for
"table" - kommentarfeltet er simpelthen for stort til at kunne rummes
i en tabel på en fornuftig måde. (Bemærk: man
2g) Hvor mange hits kommer der nu, for henholdsvis erythrocytter og hepatocytter? Se nærmere på resultatet
(det af dem der gav noget) - er det nu en ren
samling af værtscelle-membranproteiner vi har?
Vi prøver nu noget helt andet: hvis det
vi leder efter nu slet ikke forekommer i Feature Table eller kommentarerne,
kunne det jo være det var en
2h) Hvor mange er det for hver celletype? Hvor mange fra hver
Som I
2i) Hvor mange komplette sekvenser er der? (Tip: nu skal I søge
på proteiner, der kommer fra Pf OG er
beskrevet som "erythrocyt*" MEN IKKE er beskrevet som
"fragment" - så er I nødt til at gøre det ad to
omgange og bruge "Query Manager" lige som i pkt. 8 i den gamle SRS øvelse).
2j) Som
afslutning på SRS-delen skal I lige prøve at gemme resultatet af den sidste søgning. På Query Result
siden skal I først sætte "entries in chunks of" til
noget mere end 100 for at få alle hits med i samme fil. Tryk
derefter på "save". Så skal I sætte "Use
view" til "Complete entries" for at få alle annoteringer
med og trykke på "save" igen. Nu
Bemærk at rigtig mange af de
proteiner vi har fundet nu hedder PfEMP1. Det er dem vi
vil gå videre med i den resterende
PfEMP1 proteinerne som vi nu har fundet frem til
er en gruppe af proteiner som malaria parasitten udtrykker og transporterer til
ydermembranen af den invaderede erythrocyt (se figur 1 – de
rød-orange pinde er PfEMP1 proteiner).
Funktionen af
PfEMP1 proteinerne på overfladen af de inficerede erythrocytter er at
mediere binding til receptorer på endothelceller (de celler som danner
væggene i blodårer). På denne måde kan malaria
parasitten få de inficerede erythrocytter til at hænge fast
på væggen af blodårene rundt omkring i kroppen, og dermed kan
den undgå at blive transporteret igennem milten, som er en af
hovedaktørerne i at generere et immunrespons mod malaria.
Hvis vi med en
vaccine kan generere antistoffer der binder til PfEMP1 proteinerne, så de
inficerede erythrocytter ikke kan binde til endothelcellerne, vil kroppen
hurtigere kunne danne et bredere immunrespons mod Pf. Symptomer så som anæmi vil dermed ikke nå at
blive så seriøse.
Vi skal nu
undersøge nærmere hvordan PfEMP1 proteinerne er opbygget.
I resultat-listen
fra ovenstående øvelse, klik på linket ud for PfEMP1
proteinet med accession nummer Q8I1V6
(Tip: vælg evt. view
“names only” og brug browserens søgefunktion (ctrl+f) til at
finde proteinet). Scroll ned til punktet “Family
and domain databases”, her er tre services der giver mulighed for at
søge efter kendte domænetyper i det valgte protein. InterPro og Pfam minder meget om hinanden og har stort set det samme
repetoire af domænetyper. Udover en stor mængde verificerede
domænetyper, inkluderer begge databaser domæner fra
den tredje database ProDom, som er baseret udelukkende på domæner
der er automatisk genereret ved similaritetsøgning mellem proteiner. Følg linket “Pfam graphical view of domain structure”.
3a) Hvilke to kendte domænetyper findes i PfEMP1 proteinet Q8I1V6?
Klik på det
første domæne fra venstre. Til venstre ses en 3D struktur af et domæne af samme type, men fra
et andet protein. Nederst på siden er der et
punkt der hedder quickGO. GO står for Gene Ontology, og
er en database over proteinfunktioner.
3b) Hvad
siger GO om domænetypen? Underbygger disse informationer vores
valg af vaccinemål?
Denne type
domæner forkortes ofte til DBL-domæner, og
de findes i forskellige antal i alle PfEMP1 proteinerne.
Undersøg
nu det andet domæne.
3c) Hvad er “rosetting”?
Klik nu tilbage
til UniProt entryet Q8I1V6. Nederst på siden ses aminosyresekvensen for Q8I1V6, og i nederste
højre hjørne
Vi skal også bruge et andet PfEMP1 protein, nemlig acc. nummer Q8I639. Find dette protein i vores resultatliste, og tjek som før domænestrukturen i dette PfEMP1.
3d) Hvor mange DBL domæner findes i dette protein? Noter start og slut position for første domæne fra venstre.
Gem nu også aminosyresekvensen i FASTA-format for dette protein.
DotPlot
Vi skal nu se nærmere
på sekvensligheder både internt i de enkelte proteiner og mellem de
to proteiner, dette
http://athena.bioc.uvic.ca/tool/jdotter/jdotter.jnlp [ jDotter beskrivelse og link til manual ]
Åben jDotter. Vi vil have begge PfEMP1 proteiner på begge akser,
så vi både
3e) Hvis man
nummererer DBL domænerne i begge proteiner fra
venstre, så Q8I1V6 f.eks har DBL1
og DBL2, hvilke to DBL domæner ligner så mest hinanden
mellem de to proteiner. (Tip:
Farveskalaen
Den intracellulære
3f) Hvilken scoringsmatrix er brugt til at lave parvis alignment med? (Tip: Se “Plot Info” vinduet)
3g) Er denne matrix optimal til at finde sekvensligheder mellem DBL domæner hvor sekvensligheden på aminosyre-niveau tit ligger i omegnen 25-30% identitet?
Q8I639 kaldes også VAR2CSA, og proteinet er specielt fordi det menes at være ansvarlig for det man kalder graviditets associeret malaria (Pregnancy associated malaria eller PAM). Gravide kvinder er specielt modtagelige overfor malaria, og af denne grund dør der hvert år 10.000 mødre og 200.000 nyfødte/fostre. En af grundende til at der ikke er blevet udviklet en succesfuld malaria vaccine endnu, er at hver malaria parasit har 60 PfEMP1 proteiner, og man skal have antistoffer mod mange af dem for at være immun. Det interessante ved PAM er at her er der kun ét ansvarligt PfEMP1, og derfor er en PAM vaccine lettere at gå til.
Vi kan lige så godt prøve at slå så mange fluer med et smæk som muligt… lad os derfor tage det DBL domæne i VAR2CSA der har størst lighed med andre PfEMP1 DBL domæner (det vi fandt i spørgsmål 3e), og håbe på at hvis vi laver en vaccine mod dette, så vil antistofferne også kunne binde nogen af de andre PfEMP1 proteiner.
Når man laver en vaccine er det essentielt at den
indeholder nogle epitoper. Epitoper er de dele af sygdomsproteinerne som
immunforsvaret genkender, f.eks de dele af malariaproteinet som antistofferne
binder til (disse kaldes mere specifikt B-celle epitoper. Der findes også
T-celle epitoper, og dem
Vi har på CBS lavet en B-celle epitop forudsiger kaldet BepiPred, og vi vil nu prøve at finde ud af om det domæne vi vil vaccinere med/imod indeholder nogle brugbare epitoper.
BepiPred findes her: http://www.cbs.dtu.dk/services/bepipred/
Til forudsigelsen skal vi bruge
aminosyresekvensen for VAR2CSA DBL domænet. Følg linket til
BepiPred, load FASTA-sekvensfilen Q8I639.fas og
sæt grænseværdien til 0.9, hvilket indikerer en lav
sensitivitet og høj specificitet (vi vil kun have de mest lovende
epitoper). Tryk “submit”. Vi skal bruge epitoperne i næste
4a) Hvor mange epitoper (>5 aminosyrer) forudsiger BepiPred i VAR2CSA DBL1 domænet?
Vi vil nu gerne
finde ud af om de epitoper vi har fundet ligger på overfladen af det
domæne vi har valgt. At epitoperne er overfladeeksponerede på det
enkelte domæne er dog ikke ensbetydende med at de er tilgængelige
for antistoffer på det native PfEMP1, men vi kan i hvert fald lave en
grovsortering af de epitoper vi har fundet.
Det er endnu ikke
lykkedes at lave en krystalstruktur af et PfEMP1 protein endnu, så vi kender
ikke 3D-struktur for VAR2CSA. Heldigvis er det lykkedes at bestemme
3D-strukturen af to andre malaria proteiner der indeholder et DBL
domæner. Vi kan derfor prøve at modellere 3D-strukturen af det
valgte VAR2CSA domæne ud fra de kendte DBL strukturer, denne proces
kaldes homologi modellering, og der findes en del værktøjer til
dette formål. En god og simpel omend langsom server er Zhang’s I-Tasser
server, en anden god server er hhPred der giver mulighed for
lidt flere brugervalgte indstillinger, og redigering af det parvise alignment
mellem query og template sekvenserne. Homologi modellering ligger lidt uden for
pensum (I kan høre meget mere om emnet i kursus 27617 - Protein Structure and
Computational Biology), og så er det rimeligt tidskrævende,
så vi har allerede lavet en strukturmodel for VAR2CSA DBL1
domænet:
hhPred_VAR2CSA_DBL1.pdb (Bemærk: Man
skal være opmærksom på at strukturer der er lavet med
homologi modellering kun er modeller. Højst sandsynligt findes der
områder i strukturen for modelleringen er usikker. Der findes en del
værktøjer til at vurdere kvaliteten af homologi modellerede
strukturer f.eks. VERIFY3D, SOLVX og ANOLEA)
Åben nu
PyMol som vi brugte i forrige øvelse, hent ovenstående fil til
harddisken og åben den i PyMol. Default visningsmåden kan
være lidt uoverskuelig, så farv molekylet en neutral gråhvid
farve og skift til ”cartoon” visning, ved at skrive følgende
kommandoer i kommandolinien (man kan copy-paste alle tre
sekvenser på en gang. Man er også velkommen til at
udføre disse ting manuelt v.hj.a. brugerinterfacet i Viewer vinduet.):
color
gray80, hhPred_VAR2CSA_DBL1
hide
all
show
cartoon, hhPred_VAR2CSA_DBL1
Vi skal nu have
farvet epitoperne. Man kan farve en aminosyre på position 1 eller
aminosyre intervallet 1-3 med kommandoerne:
color
blue, i. 1
color blue, i. 1-3
color blue, i. 1+2+3
eller man kan
lave et selection og farve det bagefter:
select
epitop1, i. 1-3
color
blue, epitop1
Farv nu hver af
de forudsagte epitoper i forskellige farver så man kan adskille dem
visuelt. Husk at tilpasse BepiPred positionerne så de passer med
positionerne i 3D modellen (Tip: Vi
fandt første position af domænet i øvelse 3d). Man kan
få en idé om hvilke farver der er tilgængelige ude til
venstre i Viewer vinduet, ved at trykke på den
farvede”C”-knap. Bemærk:
Man kan få vist aminosyre sekvensen ved at trykke på knappen med
det lyserøde ”S” nederst til højre i Viewer vinduet.
Man kan få
PyMol til at beregne overfladen at proteinet med kommandoen:
show
surface
Lad os antage at den
homologimodellerede struktur er korrekt (normalt vil man bruge de nævnte
evalueringsprogrammer til at se hvilke regioner af strukturen der er
tvivlsomme).
5a) Hvilke to epitoper er mest skjult og dermed mest tvivlsomme
vaccinemål?
BepiPred er en
lineær epitop forudsiger, hvilket vil sige at den finder epitoper dannet
af aminosyrer der i primærsekvensen sidder i forlængelse af
hinanden. En konformationel epitop er en epitop der består af flere
forskellige dele af primærsekvensen (hvor antistoffet binder til
aminosyrer der ikke sidder ved siden af hinanden i primærsekvensen).
5b) Er der nogen af de lineære epitoper der tilsammen kunne se ud til at
danne en konformationel epitop? Og i så fald hvor mange
overfladeeksponerede strukturelle epitoper og lineære epitoper er der
forudsagt i VAR2CSA DBL1 domænet?
Så mangler
vi bare at klone VAR2CSA DBL1 domænet ind i en ekspressionsvektor,
udtrykke det rekombinant og blande det sammen med lidt adjuvant… så
har vi vores vaccine mod graviditets associeret malaria! (med en smule held måske… ;o)