Åpen Leseramme Fylogenetisk Analyse på Skyen
Abstrakt
Fylogenetisk analyse har blitt viktig for å undersøke evolusjonære forhold mellom virus. Disse relasjonene er avbildet på fylogenetiske trær, hvor virus er gruppert basert på sekvenslikhet. Virale evolusjonære relasjoner identifiseres fra åpne leserammer i stedet for fra komplette sekvenser. Nylig har cloud computing blitt populært for å utvikle internettbaserte bioinformatikkverktøy. Biocloud er en effektiv, skalerbar og robust databehandlingstjeneste for bioinformatikk. I dette papiret foreslår vi en skybasert åpen leseramme fylogenetisk analysetjeneste. Den foreslåtte tjenesten integrerer Hadoop framework, virtualiseringsteknologi og fylogenetiske analysemetoder for å gi en høy tilgjengelighet, storskala bioservice. I en casestudie analyserer vi fylogenetiske forhold mellom Norovirus. Evolusjonære relasjoner er belyst ved å samkjøre ulike åpne leseramme sekvenser. Den foreslåtte plattformen identifiserer riktig evolusjonære forhold mellom medlemmer Av Norovirus.
1. Introduksjon
Forståelse av evolusjonære relasjoner mellom grupper av organismer har blitt stadig mer avhengig av fylogenetisk analyse. Fylogenier er vanligvis presentert som tre diagrammer, kjent som fylogenetiske trær. Disse trærne er konstruert fra genetiske likheter og forskjeller mellom ulike organismer. Sammenlignende sekvensanalyse er en nyttig metode der man kan identifisere gen, utlede funksjonen til et genprodukt og identifisere nye funksjonelle elementer. Ved å sammenligne flere sekvenser langs hele lengden, kan forskere finne konserverte rester som sannsynligvis er bevart ved naturlig utvalg. Rekonstruere forfedre sekvenser kan avsløre timing og retning av mutasjoner. Disse komparative analysene er avhengige av fylogenetisk trekonstruksjon.
en leseramme er et sett av sammenhengende, ikke-overlappende tripletter av tre påfølgende nukleotider. Et kodon er en triplett som tilsvarer en aminosyre eller stoppsignal under oversettelse. En åpen leseramme (orf) er delen av leserammen som inneholder ingen stoppkodoner. Et protein kan ikke gjøres hvis rna transkripsjon opphører før du når stoppkodonet. Derfor, for å sikre at stoppkodonet er oversatt i riktig posisjon, er transkripsjonsavslutningsstedet plassert etter ORF. ORFs kan identifisere oversatte regioner I DNA-sekvenser. Lange ORFs indikerer kandidatproteinkodende regioner i EN DNA-sekvens. ORFs har også blitt brukt til å klassifisere ulike virus familier, inkludert Medlemmer Av Norovirus . THE Open Reading Frame Finder (ORF Finder) er et grafisk analyseverktøy som søker etter åpne leserammer I DNA-sekvenser. ORF Investigator programmet gir informasjon om koding og ikke-kodende sekvenser og utfører parvis justering av ULIKE DNA regioner. Dette verktøyet identifiserer Effektivt ORFs og konverterer dem til aminosyrekoder, og erklærer deres respektive posisjoner i sekvensen. Parvis justering oppdager også mutasjoner, inkludert enkeltnukleotidpolymorfismer mellom sekvenser. StarORF muliggjør identifisering av proteinet(e) kodet i EN DNA-sekvens. FOR DET FØRSTE blir DNA-sekvensen transkribert TIL RNA, og alle potensielle ORFs blir identifisert. Disse ORFs er kodet i hver av de seks oversettelse rammer (3 i retning fremover og 3 i motsatt retning), slik at brukerne kan identifisere oversettelse rammen gir den lengste protein koding sekvens.
Flere biologiske organisasjoner har implementert bioinformatikkverktøy på nettsteder. NASJONALT Senter For Bioteknologisk Informasjon (NCBI) gir mange verktøy for å sammenligne databaselagrede nukleotid-eller proteinsekvenser, inkludert de kjente BLASTALGORITMENE. NCBI gir også flere databaser, For Eksempel GenBank OG SNP, der biologer kan søke homologi eller spesifikke funksjoner. EUROPEAN Molecular Biology Laboratory (EMBL) gir fritt tilgjengelige data og elektroniske bioinformatikkverktøy til alle fasetter av det vitenskapelige samfunn. Disse dataene og verktøyene er uunnværlige i medisinske og biologiske studier. De fleste av disse tjenestene er tilgjengelig via Internett og benyttes på nettet. Cloud computing Er et nylig utviklet konsept som leverer databehandlingsressurser, enten maskinvare eller programvare, over Internett. Mange typer cloud computing har blitt foreslått, for eksempel infrastruktur som en tjeneste (iaas), plattform Som en tjeneste (paas), programvare Som en tjeneste (saas), nettverk Som En tjeneste (NaaS) og lagring som En tjeneste (STaaS). De fleste av disse tjenestene er avhengige av virtualiseringsteknologi-opprettelsen av virtuelle maskinvareplattformer—operativsystemer, lagringsenheter og nettverksressurser. Cloud computing er velkommen for sin brukervennlighet, virtualisering, Internett-sentrisk fokus, ressursvariasjon, automatisk tilpasning, skalerbarhet, ressursoptimalisering, pay-per-use, Service Sla (Service-Level Agreements) og infrastruktur Sla . Mange cloud computing leverandører distribuere disse ressursene på forespørsel fra store ressursutvalg installert i datasentre. Amazon EC2 leverer en infrastrukturtjeneste, Mens Google App Engine og Microsofts Azure-Tjenesteplattform leverer plattformtjenester. I akademia er mange cloud computing-prosjekter under bygging eller i full drift .
Cloud computing er i hovedsak et distribusjonssystem som muliggjør parallell databehandling. Hadoop er en åpen kildekode-programvare rammeverk som støtter dataintensiv distribuert beregning. Under Hadoop kan applikasjoner implementeres på store klynger av vare datamaskiner. Hadoop-klyngen inneholder en enkelt master og flere slave noder. Hovednoden tilordner jobber til slavenoder, som fullfører de tildelte oppgavene. Hadoop gir MapReduce programmeringsmodell for parallell behandling av store datasett. Beregningsoppgaven er delt inn i mange små oppgaver, som hver kan utføres eller reexecuted på en beregningsnode I Hadoop-klyngen. MapReduce tilbyr også et distribuert filsystem, Hadoop Distributed File System (HDFS), som lagrer dataene på beregningsnoder , noe som muliggjør en svært høy samlet båndbredde over hele klyngen. Både map / redusere og det distribuerte filsystemet er robuste mot feil. Flere sekvensanalyseverktøy har blitt ombygget som skyverktøy basert På Hadoop-arkitekturen, for eksempel CloudBlast og CrossBow . Derfor kan standard elektroniske verktøy porteres til skyarkitekturen. Slik import av eksisterende verktøy utgjør hovedmålet for bioinformatikk som en tjeneste (BaaS).
i denne artikkelen utvikler vi EN høy tilgjengelighet, storskala ORF fylogenetisk analyse skytjeneste basert på virtualiseringsteknologi og Hadoop. Denne tjenesten gir fylogenetiske analyser fra ORFs basert På Hadoop-klynger for å støtte flere forespørsler. Essensen av cloud computing miljøet er virtualisering. Den fysiske datakraften regnes som et brukerbetalingsverktøy som brukerne kan be om etter ønske. Verktøyet er også kjent som en virtuell maskin. Hver node i En Hadoop-klynge er en virtuell maskin. Brukere kan laste opp sekvensdata eller filer via hovednoden (webportalen) og deretter sende inn en jobb. Jobben tilordnes slave-noden som inneholder de opplastede dataene, og slave-noden fullfører jobben. SIDEN orf sammenligninger har entydig etablert homologi Av Norovirus, vi her vedta Norovirus som en case-studie. Resultatene viser at det foreslåtte skybaserte analyseverktøyet, i kraft av virtualiseringsteknologi og Hadoop-rammeverket, lett kan lette BaaS. Det foreslåtte skybaserte ORF-fylogenetiske verktøyet er tilgjengelig på http://bioinfo.cs.pu.edu.tw/CloudORF/.
2. Metoder
i dette papiret foreslår vi en skybasert ORF-fylogenetisk analysetjeneste som kombinerer Hadoop-rammeverk, virtualiseringsteknologi, fylogenetisk treverktøy og mangfoldsanalyse. Som nevnt tidligere er skyplattformen konstruert fra virtualisering og Hadoop-rammeverk. Hadoop utføres På VMs opprettet av virtualiseringsteknologi som Kjernebasert Virtuell Maskin (KVM). Hadoop utfører fylogenetisk analyse i en distribuert databehandling måte. Den underliggende arkitekturen sikrer elastisitet, skalerbarhet og tilgjengelighet for den foreslåtte skybaserte tjenesten.
2.1. Fylogenetisk Analyse
den foreslåtte skytjenesten integrerer ORF-søkeprosessen, fylogenetiske trekontraksjoner og orf-mangfoldsanalyse for å generere en komplett fylogenetisk analyse. Fremgangsmåten for analysen er beskrevet nedenfor og vist I Figur 1.
Trinn 1: Oppdage Åpne Leserammer. Funksjonelle ORFs er hentet fra sekvenser. Selv om mange ORFs eksisterer i en proteinsekvens, er de fleste ubetydelige. ORF finder finner alle åpne leserammer av en angitt minimumsstørrelse i en sekvens. I denne studien, ORF Finder ofte brukt PÅ NCBI tools nettstedet ble vedtatt. Dette verktøyet identifiserer alle åpne leserammer ved hjelp av standard eller alternative genetiske koder. Trinn 2: Konstruere Fylogenetisk Tre Basert På Åpne Leserammer. Et fylogenetisk tre (eller evolusjonært tre) er et forgreningsdiagram som viser de utledede evolusjonære relasjonene mellom biologiske arter eller andre enheter basert på likheter og forskjeller i deres fysiske og/eller genetiske egenskaper. Den taxa gruppert sammen i treet er antagelig stammer fra en felles stamfar. Fylogenetisk analyse justerer vanligvis hele lengdesekvenser. Imidlertid kan forskjellige ORFs gi forskjellige fylogenetiske trær. Virus ORF justeringer kan avsløre en felles viral stamfar eller EN ORF som er felles for alle virus. En slik oppdagelse vil i stor grad hjelpe viral drug design.
det fylogenetiske treet beregnes Ved Hjelp Av ClustalW . Denne algoritmen bygger to fylogenetiske trær; en basert på full sekvenser og den andre For ORFs bare, og dermed avsløre variansen mellom de to trærne.
Trinn 3: Mangfoldsanalyse blant Åpne Leserammer. Mangfold viser vanligvis antall forskjellige identiteter i en gruppe. I dette papiret demonstrerer mangfold artsvarians i en bestemt posisjon i proteinsekvensen. Liten mangfoldsverdi i en posisjon innebærer at proteinsekvenser er svært like i den posisjonen. Derimot angir en høy mangfoldsverdi lav likhet i den posisjonen. En ramme med høy varians indikerer også at denne rammen muterer lett. Slike høyvariansrammer kan brukes til å observere proteinstrukturelle forskjeller og for å hjelpe til med vaksineutvikling. I dette papiret beregnes mangfold ut fra entropien som følger: hvor er verdien av entropi og er sannsynligheten for å finne en spesifisert aminosyre i posisjon . For å finne den betydelige posisjonen filtreres entropiverdier under en bestemt terskel ut. I denne studien ble terskelen satt til 1.4.
2.2. Cloud Platform Basert På Virtaulization Og Hadoop Framework
skyplattformen for foreslått fylogenetisk analyseverktøy er konstruert på to viktige teknologier: virtualisering og Hadoop framework. Hadoop er et svært skalerbart og tilgjengelig distribuert system. Skalerbarheten og tilgjengeligheten garanteres av HDFS, ET selvhelbredende distribuert lagringssystem og MapReduce, en spesifikk feiltolerant distribuert prosessalgoritme . Arkitekturen Til En Hadoop-klynge er vist I Figur 2.
Hadoop-klyngen utgjør en enkelt master og flere slave noder. Master node består av en jobb tracker, oppgave tracker, navn node, og data node. En slave node, eller computing node, består av en data node og en oppgave tracker. Jobbsporeren tilordner kart / reduser oppgaver til bestemte noder i klyngen, ideelt sett de som allerede inneholder dataene eller i det minste innenfor samme rack. En oppgave-tracker node aksepterer kart, redusere, og shuffle operasjoner fra en jobb-tracker. Kart – / reduksjonsoperasjonen er vist i Figur 3.
2.3. Cloud-Basert ORF Phylogenetic Analysis service
Cloud-basert ORF phylogenetic analysis service ble utviklet på en virtualiseringsplattform Med Hadoop framework som beskrevet ovenfor. Prosedyren for den foreslåtte tjenesten er vist i Figur 5. Master node (navn node) og slave node (data node) er master VM og slave VM, henholdsvis. Når en fylogenetisk analyseforespørsel sendes, lagres den i en jobbkø. Hovednoden trekker periodisk ut jobbene fra jobbkøen og tilordner dem til slavenoder( eller mapper), som utfører oppgaven. Når alle jobber er fullført, samler reduksjonen resultatene og lagrer dem i Network File System storage (NFS). Et enkelt sammenligningsresultat av en fylogenetisk jobb lagres i EN enkelt fil AV NFS. Som vist i Figur 5, utfører en datanode som kjører I VM2 en fylogenetisk analyse og en navnenode kjører I VM1. Reduksjonsmidlet, som kjører inn, samler resultatene fra datanoderne som utfører de fylogenetiske analysene. I denne tjenesten laster brukeren opp proteinsekvenser og sender inn en fylogenetisk analyseforespørsel på nettstedportalen. Alle innsendte analysejobber samles i jobbkøen, og sekvensdata lagres i FORSKJELLIGE verter AV HDFS. Fylogenetiske analyser tilordnes datanoder som allerede inneholder sekvensdata. Analyseresultatene sendes til både data node og reducer for å produsere det endelige resultatet lagret I NFS. Brukeren henter det endelige resultatet ved å logge inn på nettstedet. Tjenesten er implementert som følger.
Trinn 1: Innsending Av Jobb. Brukere sender jobben sin online via webportalen til den foreslåtte skytjenesten. Brukere skriver enten inn de komparative DNA / RNA-sekvensene på webportalen eller laster opp en fil som inneholder komparative RNA-sekvenser fra en webportal.
Trinn 2: Sekvensoversettelse. For å oppdage ORF-regionene blir alle input RNA-sekvenser oversatt til proteinsekvenser basert på den genetiske koden. Den genetiske koden er settet av regler hvor RNA-sekvensinformasjon oversettes til proteiner. Hver kodon i en RNA-sekvens representerer vanligvis en enkelt aminosyre spesifisert av den tilsvarende genetiske koden. Koden angir aminosyren som skal tilsettes neste under proteinsyntese. De genetiske kodene vises i Tabell 1.
|
Step 3: Phylogenetic Analysis. Dette trinnet identifiserer funksjonelle ORFs, husk at signifikante ORFs er sjeldne. I vår tjeneste kan brukeren oppgi LENGDEN PÅ ORF som han / hun anser som meningsfylt. Tjenesten lokaliserer deretter de betydelige ORFs. Et Eksempel På ORFs er vist i Figur 6. I dette eksemplet strekker den første ORF (betegnet SOM AB447445_1) fra posisjon 3 til 5099 I sekvensen AB447445. I dette trinnet er to typer fylogenetiske trær bygget, en med full sekvenslengde og den andre bruker Bare ORFs. Fra de tre ORF regioner identifisert i analysen, tre ORF fylogenetiske trær er bygget. Disse trærne registreres i ph-format og overføres deretter til og lagres i portalen. I mellomtiden beregnes mangfoldsverdien av hver posisjon i sekvensen. Disse verdiene lagres i en fil.
Trinn 4: Rapporter Resultat. I dette trinnet tegnes ph-formaterte trær som tre diagrammer og vises på portalen. Brukeren observerer disse diagrammene på nettet eller laster dem ned fra nettstedet. På samme måte vises et søylediagram over samlet mangfold på nettstedet.
3. Eksperiment
den foreslåtte skytjenesten for virusanalyse ble utført på fire IBM bladservere. Hver server var utstyrt med To Quad-Core Intel Xeon 2.26 GHz Cpuer, 24 GB RAM og 296 GB harddisk, som kjører Under Ubuntu operativsystem versjon 10.4, med 8 virtuelle maskiner på hver server. Hadoop versjon 0.2 MapReduce plattform ble installert på hver server. EN VM utgjorde jobbsporeren og navnnoden; de andre er oppgavesporere og datanoder. Jobbsporeren er også portalen til vår skytjeneste. Portalen er avbildet I Figur 7.
vårt nåværende skymiljø tillater åtte virtuelle maskiner. To Av Disse Vm-ene er navn node og data node som kjører Reduksjonsmidlet; de resterende seks er ansvarlige for kartoperasjon. For forsøket produserte vi tilfeldig tre datasett, som hver inneholdt 20 sekvenser av forskjellige lengder (300, 400 og 600 nukleotider). Alle sekvenser i hvert datasett ble sammenlignet med fylogenetiske analysemetoder. ClustalW og den foreslåtte tjenesten ble brukt tre ganger, for å simulere tre ORF fylogenetiske analyser.
beregningstiden for den foreslåtte tjenesten illustrert i Figur 8 er proporsjonal med antall mapper. Utførelsestiden reduseres betydelig når seks mappere brukes, i forhold til to mappere. Figur 9 sammenligner ytelsen mellom sekvensielle fylogenetiske analysemetoder Som ClustalW og den foreslåtte tjeneste med seks mappers, for forskjellige sekvenslengder. Det er klart at den foreslåtte tjenesten i Hadoop-rammen oppnår bedre ytelse enn standard sekvensiell fylogenetisk analyse.
4. Case Study
Norovirus (NoV) er et viktig etiologisk middel for akutt gastroenteritt over hele verden. Det forårsaker diare i alle aldre, spesielt I Taiwan. NoV-genomet er en enkeltstrenget, positiv sans, polyadenylert RNA som koder for tre åpne leserammer, ORF1, ORF2 og ORF3 . ORF1 koder for et langt polypeptid som spaltes intracellulært i seks proteiner av viral proteinase . Disse proteinene gjør At NoV kan replikere i vertsceller . ORF2 koder for et viralt kapsidprotein, VP1, MENS ORF3 koder FOR ET VP2-protein som regnes som en mindre strukturell komponent av viruspartikler, tilsynelatende ansvarlig for uttrykk og stabilisering AV VP1 . Som de fleste RNA-virus Er NoV genetisk og antigenisk mangfoldig . Viruset er foreløpig delt inn i fem genogrupper og mer enn 25 genotyper, basert på likheter MELLOM ORF2-sekvenser . Derfor kan homologien til denne typen virus identifiseres fra orf-likheter. Identifisere denne homologi vil bistå i viral narkotika og vaksine design. Derfor Ble November valgt som en casestudie i våre eksperimenter. Vi valgte femten November som har blitt oppdaget I Taiwan. Disse NoV sekvenser kan lastes ned fra NCBI.
fylogenetiske trær konstruert fra full lengde sekvenser og tre ORFs er vist I Figur 10. Tydeligvis er disse trærne forskjellige fra hverandre. Treet konstruert fra full lengdesekvensene (Figur 10 (a)) demonstrerer et evolusjonært forhold mellom virusene. Imidlertid gir Forskjellige ORFs tydelig forskjellige trær (Figur 10 (b) -10 (d)), noe som tyder på at virus kan kopiere ORFs fra andre virus og endre deres funksjon ved å integrere dem i sine egne sekvenser. Derfor, ved å etablere evolusjonære relasjoner for HVER ORF, kan virologer analysere sykdommene forårsaket av spesifikke ORFs. Figur 11 viser mangfoldet søylediagram generert av plattformen. Restposisjonen for høy entropi er gitt i Figur 12, som viser fire fylogenetiske trær og mangfoldslinjediagrammet. The positions (also the amino acids) of high diversity are shown in the box.
(a)
(b)
(c)
(d)
(a)
(b)
(c)
(d)
Phylogenetic trees for full length and different ORF regions: (a) full lengde, (b) ORF1, (c) ORF2, og (d) ORF3.
5. Konklusjon
Cloud computing er online levering av dataressurser, for eksempel maskinvare og programvare. Brukere kan få tilgang til skybaserte applikasjoner via en nettleser eller via applikasjoner på mobile enheter. Selv om mange bioinformatikk verktøy har blitt utviklet som web-applikasjoner, disse er vanligvis utplassert i en server, som har begrenset datakraft. For tiden har noen verktøy blitt ombygget som distribuerte databehandlingsverktøy basert På Hadoop-rammeverket. Disse verktøyene er lett utplassert på en klynge levert av en cloud computing leverandør Som Amazon EC2. Distribusjon av eksisterende verktøy til skymiljøet er den nåværende trenden med bioinformatikk som en tjeneste.
i dette papiret foreslår vi en høyskala, tilgjengelig skybasert åpen leseramme fylogenetisk analysetjeneste basert på En Hadoop-klynge ved hjelp av virtualiseringsteknologi. Virtualisering gjør det mulig for den foreslåtte tjenesten å kopiere store mengder jobber. Fordi Hadoop er sterkt bufret mot feil, garanterer den foreslåtte skytjenesten at innsendte jobber gjenopprettes ved oppgaveoverføring, noe som sikrer en skytjeneste med høy tilgjengelighet. Vår case studie viste at vår tjeneste kan konstruere forskjellige fylogenetiske trær fra sammenligninger av forskjellige ORFs. Disse relasjonene kan betydelig hjelpe biologer til å observere sekvensutviklinger i forskjellige ORFs. Den foreslåtte tjenesten kan også hjelpe forskere til å utvikle nye stoffer mot patogene virus.
Interessekonflikt
det er ingen konkurrerende interesser for dette papiret.
Bekreftelse
En Del av dette arbeidet ble støttet Av National Science Council Under Grants NSC-99-2632-E-126-001-MY3 OG NSC-100-2221-E-126-007-MY3.