Opsamlende computerøvelse:

Malaria vaccine udvikling

 

Øvelse skrevet af: Thomas Salhøj Rask og Henrik Nielsen


Introduktion

Formålet med denne øvelse er at anvende de ting vi har lært indtil nu på en aktuel problemstilling: At undersøge hvordan en eventuel malaria vaccine kunne se ud, ved at udvælge proteiner eller dele heraf der kunne være egnede som vaccinemål, og som man kunne inkludere i en vaccine. Der vil blive introduceret nye begreber bl.a. dot-plots og forudsigelse af B-celle epitoper. Vi skal igennem de følgende punkter:

  1. Hvad er malaria?
  2. Bestemmelse af membranproteiner (potentielle vaccinemål)
  3. Analyse af membranprotein domænestruktur
  4. Forudsigelse af B-celle epitoper i et membranprotein
  5. Modellering/visualisering af forudsagte epitoper i membranprotein-domæne

1 - Hvad er malaria?

Hvilken organisme forårsager malaria? Bakterie, protozoa (enkeltcellet eukaryot), orm eller virus? Find organismen i en af de to taxonomi-databaser vi kender.

 

NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/Taxonomy   (Tip: Det kan være en fordel at kende til Token set søgemuligheden, hvis man ikke kender det korrekte latinske navn for en art.)

Tree of life: http://www.tolweb.org

 

1a) Find følgende taxonomiske klassifikationer for organismen der forårsager malaria:

- Genus

- Phylum

- (Super)Kingdom

 

1b) Hvor tæt ligger organismen evolutionært på:    (Nævn højeste fælles taxonomiske gruppe. Tip: Brug NCBI Taxonomy Common Tree funktionen)

- Homo Sapiens

- Babesia microti    (Overføres i sjældne tilfælde ved flåt-bid. Forårsager sygdommen babesiose, hvor de røde blodceller (erythrocytter) invaderes ligesom i malaria hvilket fører til anæmi (blodmangel). Se evt. billeder af inficerede erythrocytter på ”Tree of life” siden.)

 

Læs nærmere om malaria her WHO og se nærmere på den komplicerede livscyclus her DPD .

 

1c) Nævn de fire forskellige arter der forårsager human malaria. Brug NCBI taxonomi databasen til at finde ud af om man har sekventeret hele genomer fra nogle af disse 4 arter.

 

1d) Er malaria forårsaget af en enkeltcellet eller en flercellet organisme?

 


2 - Bestemmelse af membranproteiner (potentielle vaccinemål)

Malaria forårsaget af Plasmodium falciparum (Pf) er langt den mest dødbringende form for malaria. Denne art er ansvarlig for 80-90% af de ~2 millioner dødsfald malaria forårsager hvert år. Vi vil derfor starte med at lave en vaccine mod denne type malaria.


Da man første gang skulle sekventere Pf genomet engang i 90erne, valgte man at bruge malariaceller isoleret fra blodet fra en hollandsk malariapatient der lige var hjemvendt fra hans rejse, uheldigvis glemte man at notere sig hvor patienten havde været henne. Dette isolat kaldes 3D7 og er, på trods af at man ikke ved hvor i verden den oprindeligt kommer fra, den malariastamme vi ved mest om.


Find Pf 3D7 frem med NCBIs taxonomi browser. Nederst på siden ses bl.a. information om Pf genomet. I den mangefarvede tabel til højre i vinduet findes bl.a. et punkt der hedder “Gene”. Entrez Gene databasen indeholder både kuraterede (manuelt verificerede) gener, samt hypotetiske gener forudsagt med bioinformatisk software der er trænet til at finde gener. Entrez Gene giver søgeresultater i tre faneblade: All = alle gener inkl. gener som man ikke længere mener er gener (såkaldte discontinued gene records), Current Only = gener man for tiden tror på, og Genes Genomes = gener der kan henføres til et bestemt sted på referencesekvensen for organismen (dvs. 3D7 kromosomerne for Pf).

 

2a) Hvor mange kromosomer har Pf? Hvor mange verificerede gener (dvs. IKKE hypotetiske) har Pf 3D7?   (Tip: Følg “Gene” linket og tilføj “ NOT hypothetical” i søgefeltet. Obs. Der findes en post i databasen kaldet NEWENTRY som ikke er et rigtigt gen - det er en slags beholder til ekstra annoteringer, der endnu ikke er blevet placeret på det relevante gen.)

 

Der er forskellige stadier af malaria inde i menneske-værten, hvilket har betydning for hvordan en vaccine skal designes. Man kan dele sygdomsforløbet op i 2 faser: lever-stadiet og blod-stadiet. Lever-stadiet består af sporozoites, injiceret af malariamyggen, som invaderer hepatocytter (leverceller). Blod-stadiet starter efter lever-stadiet og består af merozoites, udviklet i de inficerede leverceller, som bliver spredt i blodbanen og invaderer erythrocytter. Mange grupper rundt om i verden prøver i øjeblikket at fremstille en malaria vaccine, og de fire mål man hovedsageligt går efter er netop proteiner på overfladen af sporozoites, merozoites, erythrocytter og proteiner i og på de inficerede hepatocytter.

Vi skal nu prøve om vi kan bruge annoteringerne i UniProt til at finde potentielle vaccinemål. Når man skal lave en vaccine, er det nødvendigt at have et vaccinemål, som rent faktisk er tilgængeligt for immunsystemets celler. Vores opgave er at finde frem til en liste af proteiner der befinder sig på overfladen af enten sporozoites, merozoites eller værtsceller, dvs. inficerede erythrocytter og hepatocytter. I sidste tilfælde leder vi altså efter proteiner der:

  1. secerneres (udskilles) fra parasitcellen til den vakuole det befinder sig i inde i værtscellen,
  2. optages fra vakuolen til værtscellen,
  3. transporteres til overfladen (membranen) af erythrocytten eller hepatocytten.


I første omgang skal vi bare tælle hvor mange hits vi får ved at søge efter disse oplysninger (eller dele af dem) i diverse UniProtKB felter.
Til dette vil vi bruge samme søge-interface som i UniProt-øvelsen tirsdag 19/2.  Det vil måske være en god ide at åbne et browservindue med øvelsesvejledningen fra dengang, for i dag vil proceduren ikke blive beskrevet i nær så mange detaljer!

 

2b) Gå til UniProt. Undersøg hvor mange Plasmodium falciparum proteiner der i alt er i UniProtKB. (Tip 1: Klik på "Fields »" og vælg "Organism"). Hvor mange af disse er fra Swiss-Prot og hvor mange fra TrEMBL?  (Tip 2: Klik på hhv.  "reviewed" og "unreviewed". Tip 3: For at komme tilbage til den fulde søgning, kan man enten bruge browserens "Tilbage" knap eller klikke på det lille "Drop" ud for den betingelse, man vil fjerne).

Hvis et protein skal secerneres fra parasitcellen, skal det have et sekretorisk signalpeptid, som fungerer som signal til at ribosomet under proteinsyntesen skal være bundet til ER-membranen, og at proteinet samtidig bliver ført gennem en kanal i denne membran.  Dette gælder også mange af de proteiner der findes på ydersiden af parasitcellens membran.  Signalpeptider bliver annoteret i UniProt's Feature Table (Sequence annotation [FT]) med featuretypen "Signal peptide". 

 

2c) Hvor mange Pf proteiner med annoterede signalpeptider finder I?  Hvor mange fra hver del af databasen? (Bemærk: selv om der er mange flere TrEMBL end Swiss-Prot proteiner i alt, er der nu flere hits fra Swiss-Prot end fra TrEMBL - Swiss-Prot entries indeholder simpelthen i gennemsnit mange flere annoteringer end TrEMBL entries).

 

Selv om et protein har signalpeptid, er der ingen garanti for at det secerneres - det kan evt. blive holdt tilbage i et organel som ER eller Golgi før det når til plasmamembranen.  Vi skal derfor se om vi i stedet for Feature Table kan bruge oplysninger om subcellulær lokalisering i kommentarfeltet. 

 

2d) Undersøg først hvor mange Pf proteiner der overhovedet har kommentartypen (General annotation [CC]) "subcellular location".

 

2e) Hvor mange af disse er secernerede ("secreted")? (Tip: det skal stå i feltet "Term", når "Topic" samtidig er "subcellular location").  Det var sandelig ikke mange! Og yderligere er halvdelen af disse få hits næppe brugbare - hvorfor ikke?

 

Vi må altså lede efter andre nøgleord i "subcellular location".  Det kunne jo tænkes at "subcellular location" var angivet som "surface" eller "membrane". 

 

2f) Hvor mange er der af hver af disse?  

Der er flest med "membrane"; men langt fra alle disse proteiner er er egnede som vaccinationsmål. For at være interessante, skal de sidde i cellemembranen (plasmamembranen) af enten parasitten eller værtscellen. For at undersøge, hvor ofte det er tilfældet, skal I prøve endnu en funktion i UniProt's interface: klik på "Customize display" (længst til højre i linjen under søgestrengen) og tilføj "subcellular location" til de viste felter ("Columns"). Sæt samtidig "Rows" til den størst mulige værdi, så I får alle resultaterne på én gang. Klik  på "Save" og kig nu på resultaterne af søgningen, hvor "subcellular location" indeholdt "membrane".

2g) Se på feltet "Subcellular Locations". Giv nogle eksempler på hits, der måske er brugbare, og hits, der i hvert fald ikke er (mindst to af hver). Hvor mange af dem indeholder udtrykket "cell membrane"?

Lad os nu koncentrere os om de vaccinationsmål, der findes i værtscellens plasmamembran. Der skulle altså gerne stå noget i retning af "erythrocyte membrane", "erythrocytic membrane" eller "membranes of erythrocytes" under "subcellular location" - eller tilsvarende muligheder med hepatocytter.   (Tip: Her får I brug for wildcards ('*'): udtrykket "erythrocyt*" matcher både "erythrocytes" og "erythrocytic"!).

 

2h) Hvor mange hits kommer der nu, for henholdsvis erythrocytter og hepatocytter?  

 

Vi prøver nu noget helt andet: hvis det vi leder efter nu slet ikke forekommer i Feature Table eller kommentarerne, kunne det jo være det var en del af selve beskrivelsen.  Find derfor alle Pf proteiner, der har "erythrocyt*" eller "hepatocyt*" i Protein Name [DE] feltet.

 

2i) Hvor mange er det for hver celletype?  Hvor mange af disse er fra Swiss-Prot (reviewed)?

 

Som I kan se af resultatsiden, er temmelig mange af de hits I fandt (af erythrocyt-proteinerne) fragmenter. 

 

2j) Hvor mange komplette sekvenser er der?  (Tip: nu skal I søge på proteiner, der kommer fra Pf OG er beskrevet som "erythrocyt*" MEN IKKE er beskrevet som "fragment" - se pkt. 6 under "Avanceret søgning" i den gamle UniProt øvelse).

 

2k) Som afslutning på denne del af øvelsen skal I lige prøve at gemme resultatet af den sidste søgning.  Klik på det orange "Download..." felt længst til højre og download hele sættet i tre forskellige formater: "Tab-Delimited", "FASTA" og "Flat Text". Kig på disse tre filer med en text editor.

(NB: Luk ikke vinduet, klik tilbage til resultat-listen, vi skal bruge et af resultaterne nedenfor).

 

Bemærk at rigtig mange af de proteiner vi har fundet nu hedder PfEMP1.  Det er dem vi vil gå videre med i den resterende del af øvelsen.

 


3 - Analyse af membranprotein domænestruktur

Transport af membranproteiner i den malariainficerede erythrocyt.PfEMP1 proteinerne som vi nu har fundet frem til er en gruppe af proteiner som malaria parasitten udtrykker og transporterer til ydermembranen af den invaderede erythrocyt (se figur 1 – de rød-orange pinde er PfEMP1 proteiner).

 

Funktionen af PfEMP1 proteinerne på overfladen af de inficerede erythrocytter er at mediere binding til receptorer på endothelceller (de celler som danner væggene i blodårer). På denne måde kan malaria parasitten få de inficerede erythrocytter til at hænge fast på væggen af blodårene rundt omkring i kroppen, og dermed kan den undgå at blive transporteret igennem milten, som fjerner syge erythrocyter fra blodet og er en af hovedaktørerne i at generere et immunrespons mod malaria.

 

Hvis vi med en vaccine kan generere antistoffer der binder til PfEMP1 proteinerne, så de inficerede erythrocytter ikke kan binde til endothelcellerne, vil kroppen hurtigere kunne danne et bredere immunrespons mod Pf. Symptomer så som anæmi vil dermed ikke nå at blive så seriøse.

 

Vi skal nu undersøge nærmere hvordan PfEMP1 proteinerne er opbygget.

 

I resultat-listen fra ovenstående øvelse, klik på linket ud for PfEMP1 proteinet med accession nummer Q8I1V6 (Tip: vælg evt. view “names only” og brug browserens søgefunktion (ctrl+f) til at finde proteinet). Scroll ned til punktet “Family and domain databases”, her er tre services der giver mulighed for at søge efter kendte domænetyper i det valgte protein. InterPro og Pfam minder meget om hinanden og har stort set det samme repertoire af domænetyper. Udover en stor mængde verificerede domænetyper, inkluderer begge databaser domæner fra den tredje database ProDom, som er baseret udelukkende på domæner der er automatisk genereret ved similaritetsøgning mellem proteiner. Følg Pfam linket “graphical view”.

 

3a) Hvilke to kendte domænetyper findes i PfEMP1 proteinet Q8I1V6?   (Tip:  PfamA består af kendte verificerede domæner og PfamB af automatisk genererede domæner.)

 

Klik på det første domæne fra venstre. Til højre ses en 3D struktur af et domæne af samme type, men fra et andet protein. Nederst på siden er der et punkt der hedder Gene Ontology (GO) hvor domænets funktioner vises med GO-termer. GO er en database over proteinfunktioner.

 

3b) Hvad siger GO om domænetypen?  Underbygger disse informationer vores valg af vaccinemål?

 

Undersøg nu det andet domæne.

 

3c) Hvad er “rosetting”?


De to typer domæner er ifølge Pfam begge medlemmer af en klan af domæner som kaldes Duffy binding-like domæner, hvilket forkortes til DBL domæner, og de findes i forskellige antal i alle PfEMP1 proteinerne.

Klik nu tilbage til UniProt entryet Q8I1V6. Under punktet "Sequences" ses aminosyresekvensen for Q8I1V6, og man kan få sekvensen i FASTA-filformat. Højreklik på FASTA-linket og vælg “save target as…”, og gem sekvensfilen et sted hvor I kan finde den igen, f.eks. skrivebordet.

 

Vi skal også bruge et andet PfEMP1 protein, nemlig acc. nummer Q8I639. Find dette protein i vores resultatliste, og tjek som før domænestrukturen i dette PfEMP1.

 

3d) Hvor mange DBL domæner findes i dette protein? Noter start og slut position for første domæne fra venstre.

 

Gem nu også aminosyresekvensen i FASTA-format for dette protein.

 

DotPlot

 

Vi skal nu se nærmere på sekvensligheder både internt i de enkelte proteiner og mellem de to proteiner, dette kan gøres med et DotPlot. Et DotPlot er en graf hvor man ud af hver akse har en aminosyre/nukleotid-sekvens, og i de punkter hvor der er samme aminosyre/nukleotid på x og y koordinaten sættes der en prik. Da man ofte er interesseret i sekvensligheder der er længere end en enkelt aminosyre/nukleotid, sammenligner man dog ofte længere stykker af sekvens ad gangen. Til dette bruges parvis alignment som blev introduceret i en tidligere øvelse. En glimrende java applikation til at lave DotPlots er jDotter:

http://athena.bioc.uvic.ca/tool/jdotter/jdotter.jnlp  [ jDotter beskrivelse og link til manual ]

 

Åben jDotter. Vi vil have begge PfEMP1 proteiner på begge akser, så vi både kan se ligheder mellem de to proteiner og internt i hvert protein. Under “Horizontal Sequence” importer først Q8I1V6.fas sekvensfilen og der efter Q8I639.fas. Gør derefter det samme under “Vertical Sequence” i samme rækkefølge. Tryk derefter “Run Dot Plot” og tryk “Continue” når den spørger om plot præferencer, vi bruger default som er en parvis alignment længde på 50 aminosyrer; Vi vil gerne se lange sekvensligheder. På hver akse har vi nu først Q8I1V6 og der efter Q8I639. Prøv at regulér grænseværdierne for farveskalaen i vinduet “GreyMap Tool” så sekvenslighederne træder tydeligere frem.

 

3e) Hvis man nummererer DBL domænerne i begge proteiner fra venstre, så Q8I1V6 f.eks har DBL1 og DBL2, hvilke to DBL domæner ligner så mest hinanden mellem de to proteiner. (Tip: Farveskalaen kan evt. bruges til at gøre forskelle tydeligere)

 

Den intracellulære del af PfEMP1 proteinerne lader også til at være meget konserveret, kan i gætte hvilken del af proteinerne det er?

 

3f) Hvilken scoringsmatrix er brugt til at lave parvis alignment med? (Tip: Se “Plot Info” vinduet)

 

3g) Er denne matrix optimal til at finde sekvensligheder mellem DBL domæner hvor sekvensligheden på aminosyre-niveau tit ligger i omegnen 25-30% identitet?

 


4 - Forudsigelse af B-celle epitoper i et membranprotein

Q8I639 kaldes også VAR2CSA, og proteinet er specielt fordi det menes at være ansvarlig for det man kalder graviditets associeret malaria (Pregnancy associated malaria eller PAM). Gravide kvinder er specielt modtagelige overfor malaria, og af denne grund dør der hvert år 10.000 mødre og 200.000 nyfødte/fostre. En af grundende til at der ikke er blevet udviklet en succesfuld malaria vaccine endnu, er at hver malaria parasit har 60 PfEMP1 proteiner, og man skal have antistoffer mod mange af dem for at være immun. Det interessante ved PAM er at her er der kun ét ansvarligt PfEMP1, og derfor er en PAM vaccine lettere at gå til.

 

Vi kan lige så godt prøve at slå så mange fluer med et smæk som muligt… lad os derfor tage det DBL domæne i VAR2CSA der har størst lighed med andre PfEMP1 DBL domæner (det vi fandt i spørgsmål 3e), og håbe på at hvis vi laver en vaccine mod dette, så vil antistofferne også kunne binde nogen af de andre PfEMP1 proteiner.

 

Når man laver en vaccine er det essentielt at den indeholder nogle epitoper. Epitoper er de dele af sygdomsproteinerne som immunforsvaret genkender, f.eks de dele af malariaproteinet som antistofferne binder til (disse kaldes mere specifikt B-celle epitoper. Der findes også T-celle epitoper, og dem kan du høre meget mere om hvis du tager kurset 27685 - Immunological Bioinformatics).

 

Vi har på CBS lavet en B-celle epitop forudsiger kaldet BepiPred, og vi vil nu prøve at finde ud af om det domæne vi vil vaccinere med/imod indeholder nogle brugbare epitoper.

 

BepiPred findes her: http://www.cbs.dtu.dk/services/bepipred/

 

Til forudsigelsen skal vi bruge aminosyresekvensen for VAR2CSA DBL domænet. Følg linket til BepiPred, load FASTA-sekvensfilen Q8I639.fas og sæt grænseværdien til 0.9, hvilket indikerer en lav sensitivitet og høj specificitet (vi vil kun have de mest lovende epitoper). Tryk “submit”. Vi skal bruge epitoperne i næste del af øvelsen, så hold vinduet åbent, eller noter for det valgte DBL domæne de positioner hvor BepiPred forudsiger potentielle B-celle epitoper (de positioner hvor der står E i kolonnen yderst til højre) der er længere end 5 aminosyrer.

 

4a) Hvor mange epitoper (>5 aminosyrer) forudsiger BepiPred i VAR2CSA DBL1 domænet?

 


5 - Visualisering af forudsagte epitoper i membranprotein-domæne

Vi vil nu gerne finde ud af om de epitoper vi har fundet ligger på overfladen af det domæne vi har valgt. At epitoperne er overfladeeksponerede på det enkelte domæne er dog ikke ensbetydende med at de er tilgængelige for antistoffer på det native PfEMP1, men vi kan i hvert fald lave en grovsortering af de epitoper vi har fundet.

 

Det er endnu ikke lykkedes at lave en krystalstruktur af et PfEMP1 protein endnu, så vi kender ikke 3D-struktur for VAR2CSA. Heldigvis er det lykkedes at bestemme 3D-strukturen af to andre malaria proteiner der indeholder et DBL domæner. Vi kan derfor prøve at modellere 3D-strukturen af det valgte VAR2CSA domæne ud fra de kendte DBL strukturer, denne proces kaldes homologi modellering, og der findes en del værktøjer til dette formål. En god og simpel omend langsom server er Zhang’s I-Tasser server, en anden god server er hhPred der giver mulighed for lidt flere brugervalgte indstillinger, og redigering af det parvise alignment mellem query og template sekvenserne. Homologi modellering ligger lidt uden for pensum (I kan høre meget mere om emnet i kursus 27617 - Protein Structure and Computational Biology), og så er det rimeligt tidskrævende, så vi har allerede lavet en strukturmodel for VAR2CSA DBL1 domænet:  

 

hhPred_VAR2CSA_DBL1.pdb   (Bemærk: Man skal være opmærksom på at strukturer der er lavet med homologi modellering kun er modeller. Højst sandsynligt findes der områder i strukturen for modelleringen er usikker. Der findes en del værktøjer til at vurdere kvaliteten af homologi modellerede strukturer f.eks. VERIFY3D, SOLVX og ANOLEA)

 

Åben nu PyMol som vi brugte i forrige øvelse, hent ovenstående fil til harddisken og åben den i PyMol. Default visningsmåden kan være lidt uoverskuelig, så farv molekylet en neutral gråhvid farve og skift til ”cartoon” visning, ved at skrive følgende kommandoer i kommandolinien (man kan copy-paste alle tre sekvenser på en gang. Man er også velkommen til at udføre disse ting manuelt v.hj.a. brugerinterfacet i Viewer vinduet.):

           

            color gray80, hhPred_VAR2CSA_DBL1

            hide all

            show cartoon, hhPred_VAR2CSA_DBL1

 

Vi skal nu have farvet epitoperne. Man kan farve en aminosyre på position 1 eller aminosyre intervallet 1-3 med kommandoerne:

 

            color blue, i. 1

color blue, i. 1-3

color blue, i. 1+2+3

 

eller man kan lave et selection og farve det bagefter:

 

            select epitop1, i. 1-3

            color blue, epitop1

 

Farv nu hver af de forudsagte epitoper i forskellige farver så man kan adskille dem visuelt. Husk at tilpasse BepiPred positionerne så de passer med positionerne i 3D modellen (Tip: Vi fandt første position af domænet i øvelse 3d). Man kan få en idé om hvilke farver der er tilgængelige ude til venstre i Viewer vinduet, ved at trykke på den farvede”C”-knap. Bemærk: Man kan få vist aminosyre sekvensen ved at trykke på knappen med det lyserøde ”S” nederst til højre i Viewer vinduet.

 

Man kan få PyMol til at beregne overfladen at proteinet med kommandoen:

 

            show surface

 

Lad os antage at den homologimodellerede struktur er korrekt (normalt vil man bruge de nævnte evalueringsprogrammer til at se hvilke regioner af strukturen der er tvivlsomme).

 

5a) Hvilke to epitoper er mest skjult og dermed mest tvivlsomme vaccinemål?

 

BepiPred er en lineær epitop forudsiger, hvilket vil sige at den finder epitoper dannet af aminosyrer der i primærsekvensen sidder i forlængelse af hinanden. En konformationel epitop er en epitop der består af flere forskellige dele af primærsekvensen (hvor antistoffet binder til aminosyrer der ikke sidder ved siden af hinanden i primærsekvensen).

 

5b) Er der nogen af de lineære epitoper der tilsammen kunne se ud til at danne en konformationel epitop? Og i så fald hvor mange overfladeeksponerede strukturelle epitoper og lineære epitoper er der forudsagt i VAR2CSA DBL1 domænet?

 

 

Så mangler vi bare at klone VAR2CSA DBL1 domænet ind i en ekspressionsvektor, udtrykke det rekombinant og blande det sammen med lidt adjuvant… så har vi vores vaccine mod graviditets associeret malaria! (med en smule held måske… ;o)