Opsamlende computerøvelse:

Malaria vaccine udvikling

 

Øvelse skrevet af: Thomas Salhøj Rask og Henrik Nielsen


Introduktion

Formålet med denne øvelse er at anvende de ting vi har lært indtil nu på en aktuel problemstilling: At undersøge hvordan en eventuel malaria vaccine kunne se ud, ved at udvælge proteiner eller dele heraf der kunne være egnede som vaccinemål, og som man kunne inkludere i en vaccine. Der vil blive introduceret nye begreber bl.a. dot-plots og forudsigelse af B-celle epitoper. Vi skal igennem de følgende punkter:

  1. Hvad er malaria?
  2. Bestemmelse af membranproteiner (potentielle vaccinemål)
  3. Analyse af membranprotein domænestruktur
  4. Forudsigelse af B-celle epitoper i et membranprotein
  5. Modellering/visualisering af forudsagte epitoper i membranprotein-domæne

1 - Hvad er malaria?

Hvilken organisme forårsager malaria? Bakterie, protozoa (enkeltcellet eukaryot), orm eller virus? Find organismen i en af de to taxonomi-databaser vi kender.

 

NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/Taxonomy   (Tip: Det kan være en fordel at kende til Token set søgemuligheden, hvis man ikke kender det korrekte latinske navn for en art.)

Tree of life: http://www.tolweb.org

 

1a) Find følgende taxonomiske klassifikationer for organismen der forårsager malaria:

- Genus

- Phylum

- (Super)Kingdom

 

1b) Hvor tæt ligger organismen evolutionært på: (nævn højeste fælles taxonomiske gruppe)

- Homo Sapiens

- Babesia microti (Overføres i sjældne tilfælde ved flåt-bid. Forårsager sygdommen babesiose, hvor de røde blodceller (erythrocytter) invaderes ligesom i malaria hvilket fører til anæmi (blodmangel). Se evt. billeder af inficerede erythrocytter på ”Tree of life” siden.)

 

Læs nærmere om malaria her WHO og se nærmere på den komplicerede livscyclus her DPD .

 

1c) Nævn de fire forskellige arter der forårsager human malaria. Brug NCBI taxonomi databasen til at finde ud af om man har sekventeret hele genomer fra nogle af disse 4 arter.

 

1d) Er malaria forårsaget af en enkeltcellet eller en flercellet organisme?

 


2 - Bestemmelse af membranproteiner (potentielle vaccinemål)

Malaria forårsaget af Plasmodium falciparum (Pf) er langt den mest dødbringende form for malaria. Denne art er ansvarlig for 80-90% af de ~2 millioner dødsfald malaria forårsager hvert år. Vi vil derfor starte med at lave en vaccine mod denne type malaria.

 

Find Pf frem med NCBIs taxonomi browser. Nederst på siden ses bl.a. information om Pf genomet. I den mangefarvede tabel til højre i vinduet findes bl.a. et link der hedder “Gene”. Gene databasen indeholder både kuraterede (manuelt verificerede) gener, samt hypotetiske gener forudsagt med bioinformatisk software der er trænet til at finde gener.

 

2a) Hvor mange kromosomer har Pf? Hvor mange verificerede gener (dvs. IKKE hypotetiske) har Pf? (Tip: Følg “Gene” linket og tilføj “ NOT hypothetical” i søgefeltet.)

 

Der er forskellige stadier af malaria inde i menneske-værten, hvilket har betydning for hvordan en vaccine skal designes. Man kan dele sygdomsforløbet op i 2 faser: lever-stadiet og blod-stadiet. Lever-stadiet består af sporozoites, injiceret af malariamyggen, som invaderer hepatocytter (leverceller). Blod-stadiet starter efter lever-stadiet og består af merozoites, udviklet i de inficerede leverceller, som bliver spredt i blodbanen og invaderer erythrocytter. Mange grupper rundt om i verden prøver i øjeblikket at fremstille en malaria vaccine, og de fire mål man hovedsageligt går efter er netop proteiner på overfladen af sporozoites, merozoites, erythrocytter og proteiner i og på de inficerede hepatocytter.

 

Vi skal nu prøve om vi kan bruge annoteringene i UniProt til at finde potentielle vaccinemål. Til dette vil vi bruge SRS, som vi også brugte i UniProt-øvelsen tirsdag 20/2.  Det vil måske være en god ide at åbne et browservindue med øvelsesvejledningen fra dengang, for i dag vil proceduren ikke blive beskrevet i nær så mange detaljer!


Når man skal lave en vaccine, er det nødvendigt at have et vaccinemål, som rent faktisk er tilgængeligt for immunsystemets celler. Vores opgave er at finde frem til en liste af proteiner der befinder sig på overfladen af enten sporozoites, merozoites eller værtsceller, dvs. inficerede erythrocytter og hepatocytter. I sidste tilfælde leder vi altså efter proteiner der:

  1. secerneres (udskilles) fra parasitcellen til den vakuole det befinder sig i inde i værtscellen,
  2. optages fra vakuolen til værtscellen,
  3. transporteres til overfladen (membranen) af erythrocytten eller hepatocytten.


I første omgang skal vi bare tælle hvor mange hits vi får ved at søge efter disse oplysninger (eller dele af dem) i diverse UniProtKB felter.

Gå til SRS serveren på ExPASy og start en ny session.  Vælg både SWISS_PROT  og TREMBL som databaser - vi kan langt fra være sikre på at alle de oplysninger vi har brug for er kommet med i Swiss-Prot delen. 

Undersøg først hvor mange Plasmodium falciparum proteiner der i alt er i UniProtKB. 

 

2b) Hvor mange af disse er fra Swiss-Prot og hvor mange fra TrEMBL?  (Tip: I behøver ikke at ændre valget af database for at finde ud af det - bare kig på Query Manager siden).

 

Hvis et protein skal secerneres fra parasitcellen, skal det have et sekretorisk signalpeptid, som fungerer som signal til at ribosomet under proteinsyntesen skal være bundet til ER-membranen, og at proteinet samtidig bliver ført gennem en kanal i denne membran.  Dette gælder også mange af de proteiner der findes på ydersiden af parasitcellens membran.  Signalpeptider bliver annoteret i UniProt's Feature Table med featuretypen (FtKey) SIGNAL. 

 

2c) Hvor mange Pf proteiner med annoterede signalpeptider finder I?  Hvor mange fra hver del af databasen? (Bemærk: selv om der er mange flere TrEMBL end Swiss-Prot proteiner i alt, er der nu flere hits fra Swiss-Prot end fra TrEMBL - Swiss-Prot entries indeholder simpelthen i gennemsnit mange flere annoteringer end TrEMBL entries).

 

Selv om et protein har signalpeptid, er der ingen garanti for at det secerneres - det kan evt. blive holdt tilbage i et organel som ER eller Golgi før det når til plasmamembranen.  Vi skal derfor se om vi i stedet for Feature Table kan bruge oplysninger om subcellulær lokalisering i kommentarfeltet. 

 

2d) Undersøg først hvor mange Pf proteiner der overhovedet har kommentartypen (CommentType) "subcellular location".

 

2e) Hvor mange af disse er secernerede ("secreted")?  (Tip: det står i feltet Comment, når der samtidig findes kommentartypen "subcellular location").  Det var sandelig ikke mange! Og yderligere er disse få hits næppe brugbare - hvorfor ikke?

 

Vi må altså lede efter andre nøgleord i "subcellular location".  Det kunne det jo tænkes at "subcellular location" var angivet som "membrane" eller "surface". 

 

2f) Hvor mange er der af hver af disse?  Der er flest med "membrane"; men dette datasæt indeholder nok også en del proteiner der slet ikke er egnede som vaccinationsmål - hvorfor det?  (Kig gerne nærmere på nogle hits for at svare på dette).

 

Lad os nu koncentrere os om de vaccinationsmål, der findes i værtscellens plasmamembran. Der skulle altså gerne stå noget i retning af "erythrocyte membrane", "erythrocytic membrane" eller "membranes of erythrocytes" under "subcellular location" - eller tilsvarende muligheder med hepatocytter.  Søg derfor på entries hvor både "membrane*" og "erythrocyt*" forekommer i kommentarfeltet, og bagefter det samme med "hepatocyt*".  (Tip: Hvis feltet "Append wildcard '*' to words" er markeret, behøver I ikke skrive stjernerne).  For at kunne se i detaljer hvad det er I finder i denne søgning, skal I nu ændre på outputformatet, så I får felterne Description og Comment med.  (Tip: for at vælge mere end et felt, hold Ctrl nede når I klikker).  Vælg "Display in list" i stedet for "table" - kommentarfeltet er simpelthen for stort til at kunne rummes i en tabel på en fornuftig måde.  (Bemærk: man kan kun vælge at få hele kommentarfeltet med, der er ikke nogen mulighed for at få kun "subcellular location" kommentaren). 

 

2g) Hvor mange hits kommer der nu, for henholdsvis erythrocytter og hepatocytter?  Se nærmere på resultatet (det af dem der gav noget) - er det nu en ren samling af værtscelle-membranproteiner vi har?

 

Vi prøver nu noget helt andet: hvis det vi leder efter nu slet ikke forekommer i Feature Table eller kommentarerne, kunne det jo være det var en del af selve beskrivelsen.  Find derfor alle Pf proteiner, der har "erythrocyt*" eller "hepatocyt*" i Description feltet. 

 

2h) Hvor mange er det for hver celletype?  Hvor mange fra hver del af databasen?

 

Som I kan se af resultatsiden, er temmelig mange af de hits I fandt fragmenter. 

 

2i) Hvor mange komplette sekvenser er der?  (Tip: nu skal I søge på proteiner, der kommer fra Pf OG er beskrevet som "erythrocyt*" MEN IKKE er beskrevet som "fragment" - så er I nødt til at gøre det ad to omgange og bruge "Query Manager" lige som i pkt. 8 i den gamle SRS øvelse).

 

2j) Som afslutning på SRS-delen skal I lige prøve at gemme resultatet af den sidste søgning.  På Query Result siden skal I først sætte "entries in chunks of" til noget mere end 100 for at få alle hits med i samme fil.  Tryk derefter på "save".  Så skal I sætte "Use view" til "Complete entries" for at få alle annoteringer med og trykke på "save" igen.  Nu kan I så gemme resultatet på jeres egen harddisk ved at vælge "Save Page As" i browserens filmenu, eller hvis I ikke bruger jeres egen maskine kan I sende resultatet til jeres egen e-mail ved at vælge "Send Page” (Bemærk: Luk ikke vinduet, klik tilbage til resultat-listen, vi skal bruge resultaterne nedenfor).

 

Bemærk at rigtig mange af de proteiner vi har fundet nu hedder PfEMP1.  Det er dem vi vil gå videre med i den resterende del af øvelsen.

 


3 - Analyse af membranprotein domænestruktur

PfEMP1 proteinerne som vi nu har fundet frem til er en gruppe af proteiner som malaria parasitten udtrykker og transporterer til ydermembranen af den invaderede erythrocyt (se figur 1 – de rød-orange pinde er PfEMP1 proteiner).

 

Funktionen af PfEMP1 proteinerne på overfladen af de inficerede erythrocytter er at mediere binding til receptorer på endothelceller (de celler som danner væggene i blodårer). På denne måde kan malaria parasitten få de inficerede erythrocytter til at hænge fast på væggen af blodårene rundt omkring i kroppen, og dermed kan den undgå at blive transporteret igennem milten, som er en af hovedaktørerne i at generere et immunrespons mod malaria.

 

Hvis vi med en vaccine kan generere antistoffer der binder til PfEMP1 proteinerne, så de inficerede erythrocytter ikke kan binde til endothelcellerne, vil kroppen hurtigere kunne danne et bredere immunrespons mod Pf. Symptomer så som anæmi vil dermed ikke nå at blive så seriøse.

 

Vi skal nu undersøge nærmere hvordan PfEMP1 proteinerne er opbygget.

 

I resultat-listen fra ovenstående øvelse, klik på linket ud for PfEMP1 proteinet med accession nummer Q8I1V6 (Tip: vælg evt. view “names only” og brug browserens søgefunktion (ctrl+f) til at finde proteinet). Scroll ned til punktet “Family and domain databases”, her er tre services der giver mulighed for at søge efter kendte domænetyper i det valgte protein. InterPro og Pfam minder meget om hinanden og har stort set det samme repetoire af domænetyper. Udover en stor mængde verificerede domænetyper, inkluderer begge databaser domæner fra den tredje database ProDom, som er baseret udelukkende på domæner der er automatisk genereret ved similaritetsøgning mellem proteiner. Følg linket “Pfam graphical view of domain structure”.

 

3a) Hvilke to kendte domænetyper findes i PfEMP1 proteinet Q8I1V6?

 

Klik på det første domæne fra venstre. Til venstre ses en 3D struktur af et domæne af samme type, men fra et andet protein. Nederst på siden er der et punkt der hedder quickGO. GO står for Gene Ontology, og er en database over proteinfunktioner.

 

3b) Hvad siger GO om domænetypen?  Underbygger disse informationer vores valg af vaccinemål?

 

Denne type domæner forkortes ofte til DBL-domæner, og de findes i forskellige antal i alle PfEMP1 proteinerne.

Undersøg nu det andet domæne.

 

3c) Hvad er “rosetting”?

 

Klik nu tilbage til UniProt entryet Q8I1V6. Nederst på siden ses aminosyresekvensen for Q8I1V6, og i nederste højre hjørne kan man få sekvensen i FASTA-filformat. Højreklik på FASTA-linket og vælg “save target as…”, og gem sekvensfilen et sted hvor I kan finde den igen, f.eks. skrivebordet.

 

Vi skal også bruge et andet PfEMP1 protein, nemlig acc. nummer Q8I639. Find dette protein i vores resultatliste, og tjek som før domænestrukturen i dette PfEMP1.

 

3d) Hvor mange DBL domæner findes i dette protein? Noter start og slut position for første domæne fra venstre.

 

Gem nu også aminosyresekvensen i FASTA-format for dette protein.

 

DotPlot

 

Vi skal nu se nærmere på sekvensligheder både internt i de enkelte proteiner og mellem de to proteiner, dette kan gøres med et DotPlot. Et DotPlot er en graf hvor man ud af hver akse har en aminosyre/nukleotid-sekvens, og i de punkter hvor der er samme aminosyre/nukleotid på x og y koordinaten sættes der en prik. Da man ofte er interesseret i sekvensligheder der er længere end en enkelt aminosyre/nukleotid, sammenligner man dog ofte længere stykker af sekvens ad gangen. Til dette bruges parvis alignment som blev introduceret i sidste øvelse. En glimrende java applikation til at lave DotPlots er jDotter:

http://athena.bioc.uvic.ca/tool/jdotter/jdotter.jnlp  [ jDotter beskrivelse og link til manual ]

 

Åben jDotter. Vi vil have begge PfEMP1 proteiner på begge akser, så vi både kan se ligheder mellem de to proteiner og internt i hvert protein. Under “Horizontal Sequence” importer først Q8I1V6.fas sekvensfilen og der efter Q8I639.fas. Gør derefter det samme under “Vertical Sequence” i samme rækkefølge. Tryk derefter “Run Dot Plot” og tryk “Continue” når den spørger om plot præferencer, vi bruger default som er en parvis alignment længde på 50 aminosyrer; Vi vil gerne se lange sekvensligheder. På hver akse har vi nu først Q8I1V6 og der efter Q8I639. Prøv at regulér grænseværdierne for farveskalaen i vinduet “GreyMap Tool” så sekvenslighederne træder tydeligere frem.

 

3e) Hvis man nummererer DBL domænerne i begge proteiner fra venstre, så Q8I1V6 f.eks har DBL1 og DBL2, hvilke to DBL domæner ligner så mest hinanden mellem de to proteiner. (Tip: Farveskalaen kan evt. bruges til at gøre forskelle tydeligere)

 

Den intracellulære del af PfEMP1 proteinerne lader også til at være meget konserveret, kan i gætte hvilken del af proteinerne det er?

 

3f) Hvilken scoringsmatrix er brugt til at lave parvis alignment med? (Tip: Se “Plot Info” vinduet)

 

3g) Er denne matrix optimal til at finde sekvensligheder mellem DBL domæner hvor sekvensligheden på aminosyre-niveau tit ligger i omegnen 25-30% identitet?

 


4 - Forudsigelse af B-celle epitoper i et membranprotein

Q8I639 kaldes også VAR2CSA, og proteinet er specielt fordi det menes at være ansvarlig for det man kalder graviditets associeret malaria (Pregnancy associated malaria eller PAM). Gravide kvinder er specielt modtagelige overfor malaria, og af denne grund dør der hvert år 10.000 mødre og 200.000 nyfødte/fostre. En af grundende til at der ikke er blevet udviklet en succesfuld malaria vaccine endnu, er at hver malaria parasit har 60 PfEMP1 proteiner, og man skal have antistoffer mod mange af dem for at være immun. Det interessante ved PAM er at her er der kun ét ansvarligt PfEMP1, og derfor er en PAM vaccine lettere at gå til.

 

Vi kan lige så godt prøve at slå så mange fluer med et smæk som muligt… lad os derfor tage det DBL domæne i VAR2CSA der har størst lighed med andre PfEMP1 DBL domæner (det vi fandt i spørgsmål 3e), og håbe på at hvis vi laver en vaccine mod dette, så vil antistofferne også kunne binde nogen af de andre PfEMP1 proteiner.

 

Når man laver en vaccine er det essentielt at den indeholder nogle epitoper. Epitoper er de dele af sygdomsproteinerne som immunforsvaret genkender, f.eks de dele af malariaproteinet som antistofferne binder til (disse kaldes mere specifikt B-celle epitoper. Der findes også T-celle epitoper, og dem kan du høre meget mere om hvis du tager kurset 27685 - Immunological Bioinformatics).

 

Vi har på CBS lavet en B-celle epitop forudsiger kaldet BepiPred, og vi vil nu prøve at finde ud af om det domæne vi vil vaccinere med/imod indeholder nogle brugbare epitoper.

 

BepiPred findes her: http://www.cbs.dtu.dk/services/bepipred/

 

Til forudsigelsen skal vi bruge aminosyresekvensen for VAR2CSA DBL domænet. Følg linket til BepiPred, load FASTA-sekvensfilen Q8I639.fas og sæt grænseværdien til 0.9, hvilket indikerer en lav sensitivitet og høj specificitet (vi vil kun have de mest lovende epitoper). Tryk “submit”. Vi skal bruge epitoperne i næste del af øvelsen, så hold vinduet åbent, eller noter for det valgte DBL domæne de positioner hvor BepiPred forudsiger potentielle B-celle epitoper (de positioner hvor der står E i kolonnen yderst til højre) der er længere end 5 aminosyrer.

 

4a) Hvor mange epitoper (>5 aminosyrer) forudsiger BepiPred i VAR2CSA DBL1 domænet?

 


5 - Visualisering af forudsagte epitoper i membranprotein-domæne

Vi vil nu gerne finde ud af om de epitoper vi har fundet ligger på overfladen af det domæne vi har valgt. At epitoperne er overfladeeksponerede på det enkelte domæne er dog ikke ensbetydende med at de er tilgængelige for antistoffer på det native PfEMP1, men vi kan i hvert fald lave en grovsortering af de epitoper vi har fundet.

 

Det er endnu ikke lykkedes at lave en krystalstruktur af et PfEMP1 protein endnu, så vi kender ikke 3D-struktur for VAR2CSA. Heldigvis er det lykkedes at bestemme 3D-strukturen af to andre malaria proteiner der indeholder et DBL domæner. Vi kan derfor prøve at modellere 3D-strukturen af det valgte VAR2CSA domæne ud fra de kendte DBL strukturer, denne proces kaldes homologi modellering, og der findes en del værktøjer til dette formål. En god og simpel omend langsom server er Zhang’s I-Tasser server, en anden god server er hhPred der giver mulighed for lidt flere brugervalgte indstillinger, og redigering af det parvise alignment mellem query og template sekvenserne. Homologi modellering ligger lidt uden for pensum (I kan høre meget mere om emnet i kursus 27617 - Protein Structure and Computational Biology), og så er det rimeligt tidskrævende, så vi har allerede lavet en strukturmodel for VAR2CSA DBL1 domænet:  

 

hhPred_VAR2CSA_DBL1.pdb   (Bemærk: Man skal være opmærksom på at strukturer der er lavet med homologi modellering kun er modeller. Højst sandsynligt findes der områder i strukturen for modelleringen er usikker. Der findes en del værktøjer til at vurdere kvaliteten af homologi modellerede strukturer f.eks. VERIFY3D, SOLVX og ANOLEA)

 

Åben nu PyMol som vi brugte i forrige øvelse, hent ovenstående fil til harddisken og åben den i PyMol. Default visningsmåden kan være lidt uoverskuelig, så farv molekylet en neutral gråhvid farve og skift til ”cartoon” visning, ved at skrive følgende kommandoer i kommandolinien (man kan copy-paste alle tre sekvenser på en gang. Man er også velkommen til at udføre disse ting manuelt v.hj.a. brugerinterfacet i Viewer vinduet.):

           

            color gray80, hhPred_VAR2CSA_DBL1

            hide all

            show cartoon, hhPred_VAR2CSA_DBL1

 

Vi skal nu have farvet epitoperne. Man kan farve en aminosyre på position 1 eller aminosyre intervallet 1-3 med kommandoerne:

 

            color blue, i. 1

color blue, i. 1-3

color blue, i. 1+2+3

 

eller man kan lave et selection og farve det bagefter:

 

            select epitop1, i. 1-3

            color blue, epitop1

 

Farv nu hver af de forudsagte epitoper i forskellige farver så man kan adskille dem visuelt. Husk at tilpasse BepiPred positionerne så de passer med positionerne i 3D modellen (Tip: Vi fandt første position af domænet i øvelse 3d). Man kan få en idé om hvilke farver der er tilgængelige ude til venstre i Viewer vinduet, ved at trykke på den farvede”C”-knap. Bemærk: Man kan få vist aminosyre sekvensen ved at trykke på knappen med det lyserøde ”S” nederst til højre i Viewer vinduet.

 

Man kan få PyMol til at beregne overfladen at proteinet med kommandoen:

 

            show surface

 

Lad os antage at den homologimodellerede struktur er korrekt (normalt vil man bruge de nævnte evalueringsprogrammer til at se hvilke regioner af strukturen der er tvivlsomme).

 

5a) Hvilke to epitoper er mest skjult og dermed mest tvivlsomme vaccinemål?

 

BepiPred er en lineær epitop forudsiger, hvilket vil sige at den finder epitoper dannet af aminosyrer der i primærsekvensen sidder i forlængelse af hinanden. En konformationel epitop er en epitop der består af flere forskellige dele af primærsekvensen (hvor antistoffet binder til aminosyrer der ikke sidder ved siden af hinanden i primærsekvensen).

 

5b) Er der nogen af de lineære epitoper der tilsammen kunne se ud til at danne en konformationel epitop? Og i så fald hvor mange overfladeeksponerede strukturelle epitoper og lineære epitoper er der forudsagt i VAR2CSA DBL1 domænet?

 

 

Så mangler vi bare at klone VAR2CSA DBL1 domænet ind i en ekspressionsvektor, udtrykke det rekombinant og blande det sammen med lidt adjuvant… så har vi vores vaccine mod graviditets associeret malaria! (med en smule held måske… ;o)