åben læseramme fylogenetisk analyse på skyen
abstrakt
fylogenetisk analyse er blevet afgørende for at undersøge de evolutionære forhold mellem vira. Disse forhold er afbildet på fylogenetiske træer, hvor vira er grupperet baseret på sekvenslighed. Virale evolutionære forhold identificeres fra åbne læserammer snarere end fra komplette sekvenser. For nylig er cloud computing blevet populært til udvikling af internetbaserede bioinformatikværktøjer. Biocloud er en effektiv, skalerbar og robust bioinformatik computing service. I dette papir, Vi foreslår en skybaseret åben læseramme fylogenetisk analysetjeneste. Den foreslåede service integrerer Hadoop-rammen, virtualiseringsteknologi og fylogenetiske analysemetoder for at give en stor tilgængelighed, storskala bioservice. I en casestudie analyserer vi de fylogenetiske forhold mellem Norovirus. Evolutionære forhold belyses ved at tilpasse forskellige åbne læserammesekvenser. Den foreslåede platform identificerer korrekt de evolutionære forhold mellem medlemmer af Norovirus.
1. Introduktion
forståelse af de evolutionære forhold mellem grupper af organismer er blevet mere og mere afhængig af fylogenetisk analyse. Fylogenier præsenteres normalt som trædiagrammer, kendt som fylogenetiske træer. Disse træer er konstrueret ud fra genetiske ligheder og forskelle mellem forskellige organismer. Sammenlignende sekvensanalyse er en nyttig metode, hvormed man kan identificere gen, udlede funktionen af et gens produkt og identificere nye funktionelle elementer. Ved at sammenligne flere sekvenser langs hele deres længde kan forskere finde konserverede rester, der sandsynligvis bevares ved naturlig selektion. Rekonstruktion af forfædresekvenser kan afsløre timingen og retningen af mutationer. Disse sammenlignende analyser er afhængige af den fylogenetiske trækonstruktion.
en læseramme er et sæt på hinanden følgende, ikke-overlappende tripletter af tre på hinanden følgende nukleotider. Et codon er en triplet svarende til en aminosyre eller stop signal under oversættelse. En åben læseramme (ORF) er den del af læserammen, der ikke indeholder stopkodoner. Et protein kan ikke fremstilles, hvis RNA-transkription ophører, før man når stopkodonet. For at sikre, at stopkodonet oversættes i den rigtige position, er transkriptionsafslutningspausestedet placeret efter ORF. ORF ‘ erne kan identificere oversatte regioner i DNA-sekvenser. Lange Orf ‘ er angiver kandidatproteinkodende regioner i en DNA-sekvens. Orf ‘ er er også blevet brugt til at klassificere forskellige virusfamilier , herunder medlemmer af Norovirus . Open Reading Frame Finder (ORF Finder) er et grafisk analyseværktøj, der søger efter åbne læserammer i DNA-sekvenser. ORF Investigator-programmet giver information om de kodende og ikke-kodende sekvenser og udfører parvis tilpasning af forskellige DNA-regioner. Dette værktøj identificerer effektivt Orf ‘ er og konverterer dem til aminosyrekoder og erklærer deres respektive positioner i sekvensen. Parvis justering registrerer også mutationer, herunder enkeltnukleotidpolymorfier mellem sekvenser. StarORF letter identifikation af proteinet(e) kodet i en DNA-sekvens. For det første transkriberes DNA-sekvensen til RNA, og alle potentielle Orf ‘ er identificeres. Disse Orf ‘ er er kodet inden for hver af de seks oversættelsesrammer (3 i fremadgående retning og 3 i omvendt retning), så brugerne kan identificere oversættelsesrammen, der giver den længste proteinkodningssekvens.
flere biologiske organisationer har implementeret bioinformatikværktøjer på hjemmesider. National Center for Biotechnology Information (NCBI) giver mange værktøjer til sammenligning af databaselagrede nukleotid-eller proteinsekvenser, herunder de velkendte BLASTALGORITMER. NCBI leverer også flere databaser, såsom GenBank og SNP, hvor biologer kan søge homologi eller specifikke funktioner. Det Europæiske molekylærbiologiske laboratorium (EMBL) leverer frit tilgængelige data og online bioinformatikværktøjer til alle aspekter af det videnskabelige samfund. Disse data og værktøjer er uundværlige i medicinske og biologiske studier. De fleste af disse tjenester er tilgængelige via Internettet og udnyttes online.
Cloud computing er et nyligt udviklet koncept, der leverer computerressourcer, enten udstyr eller Programmer, over Internettet. Mange typer cloud computing er blevet foreslået, såsom infrastruktur som en service (IaaS), platform som en service (PaaS), programmel som en service (SaaS), netværk som en service (NaaS) og opbevaring som en service (STaaS). De fleste af disse tjenester er afhængige af virtualiseringsteknologi-oprettelse af virtuelle maskinplatforme, operativsystemer, lagerenheder og netværksressourcer. Cloud computing er velkommen for sin brugervenlighed, virtualisering, Internet-centreret fokus, ressource sort, automatisk tilpasning, skalerbarhed, ressourceoptimering, pay-per-use, service SLA ‘er (Service-Level Agreements) og infrastruktur SLA’ er . Mange cloud computing-leverandører distribuerer disse ressourcer efter behov fra store ressourcepuljer installeret i datacentre. EC2 leverer en infrastrukturtjeneste, mens Google App Engine og Microsofts platform leverer platformtjenester. I den akademiske verden er adskillige cloud computing-projekter under opførelse eller fuldt operationelle .
Cloud computing er i det væsentlige et distributionssystem, der muliggør parallel computing. Hadoop er en open source – ramme, der understøtter dataintensiv distribueret beregning. Under Hadoop kan applikationer implementeres på store klynger af råvarecomputere. Hadoop-klyngen inkluderer en enkelt master og flere slave-noder. Master node tildeler job til slave noder, som udfører de tildelte opgaver. Hadoop leverer MapReduce-programmeringsmodellen til parallel behandling af store datasæt. Beregningsopgaven er opdelt i mange små opgaver, som hver kan udføres eller genudføres på en computernode i Hadoop-klyngen. MapReduce leverer også et distribueret filsystem, Hadoop Distributed File System (HDFS), der gemmer dataene på computernoder , hvilket muliggør en meget høj samlet båndbredde på tværs af klyngen. Både map / reducer og det distribuerede filsystem er robuste mod fejl. Flere sekvensanalyseværktøjer er blevet ombygget som skyværktøjer baseret på Hadoop-arkitekturen, såsom CloudBlast og armbrøst . Derfor kan standard online-værktøjer overføres til skyarkitekturen. Sådan import af allerede eksisterende værktøjer udgør hovedmålet med bioinformatik som en tjeneste (BaaS).
i dette papir udvikler vi en høj tilgængelighed, storskala ORF fylogenetisk analyse cloud service baseret på virtualiseringsteknologi og Hadoop. Denne service leverer fylogenetiske analyser fra Orf ‘ er baseret på Hadoop-klynger for at understøtte flere anmodninger. Essensen af cloud computing-miljøet er virtualisering. Den fysiske computerkraft betragtes som et bruger-betaler værktøj, som brugerne kan anmode om efter ønske. Værktøjet er også kendt som en virtuel maskine. Hver knude i en Hadoop-klynge er en virtuel maskine. Brugere kan uploade deres sekvensdata eller filer via masternoden (internetportalen) og derefter indsende et job. Jobbet tildeles slaveknudepunktet, der indeholder de uploadede data, og slaveknudepunktet afslutter jobbet. Da ORF-sammenligninger utvetydigt har fastslået homologien for Norovirus, vedtager vi her Norovirus som en casestudie. Resultaterne viser, at det foreslåede skybaserede analyseværktøj i kraft af virtualiseringsteknologi og Hadoop-rammer let kan lette BaaS. Det foreslåede skybaserede ORF fylogenetiske værktøj er tilgængeligt på http://bioinfo.cs.pu.edu.tw/CloudORF/.
2. Metoder
i dette papir foreslår vi en skybaseret ORF fylogenetisk analysetjeneste, der kombinerer Hadoop-rammer, virtualiseringsteknologi, fylogenetisk træværktøj og mangfoldighedsanalyse. Som tidligere nævnt er skyplatformen konstrueret ud fra virtualisering og Hadoop-rammer. Hadoop udføres på VM ‘ er skabt af virtualiseringsteknologi som kernelbaseret virtuel maskine (KVM). Hadoop udfører fylogenetisk analyse på en distribueret computermåde. Den underliggende arkitektur sikrer elasticitet, skalerbarhed og tilgængelighed af den foreslåede skybaserede service.
2.1. Fylogenetisk analyse
den foreslåede skytjeneste integrerer ORF-findeprocessen, fylogenetiske trækontraktioner og Orf-mangfoldighedsanalyse for at generere en komplet fylogenetisk analyse. Analyseproceduren er beskrevet nedenfor og vist i Figur 1.
Trin 1: Registrering af åbne læserammer. Funktionelle Orf ‘ er ekstraheres fra sekvenser. Selvom mange Orf ‘ er findes i en proteinsekvens, er de fleste ubetydelige. ORF finder lokaliserer alle åbne læserammer af en bestemt minimumsstørrelse i en sekvens. I denne undersøgelse blev ORF Finder almindeligt anvendt på NCBI tools hjemmeside vedtaget. Dette værktøj identificerer alle åbne læserammer ved hjælp af standard eller alternative genetiske koder.
Trin 2: konstruktion af fylogenetisk træ baseret på åbne læserammer. Et fylogenetisk træ (eller evolutionært træ) er et forgreningsdiagram (træ), der viser de udledte evolutionære forhold mellem biologiske arter eller andre enheder baseret på ligheder og forskelle i deres fysiske og/eller genetiske egenskaber. Taksaen, der er samlet i træet, stammer formodentlig fra en fælles forfader. Fylogenetisk analyse justerer normalt sekvenser i hele længden. Imidlertid kan forskellige Orf ‘ er give forskellige fylogenetiske træer. Virus ORF justeringer kan afsløre en fælles viral forfader eller en ORF, der er fælles for alle vira. En sådan opdagelse ville i høj grad hjælpe viral lægemiddeldesign.
det fylogenetiske træ beregnes ved hjælp af Clustalv . Denne algoritme bygger to fylogenetiske træer; den ene er baseret på fulde sekvenser og den anden kun for Orf ‘ er og afslører derved variansen mellem de to træer.
Trin 3: Diversitetsanalyse blandt åbne læserammer. Mangfoldighed viser normalt antallet af forskellige identiteter i en gruppe. I dette papir demonstrerer mangfoldighed artsvarians på en bestemt position i proteinsekvensen. Lille diversitetsværdi ved en position indebærer, at proteinsekvenser er meget ens i den position. I modsætning hertil angiver en høj mangfoldighedsværdi lav lighed i den position. En ramme med høj varians indikerer også, at denne ramme muterer let. Sådanne rammer med høj varians kan bruges til at observere proteinstrukturelle forskelle og til at hjælpe vaccineudviklingen. I dette papir beregnes mangfoldighed ud fra entropien som følger: hvor er værdien af entropi og er sandsynligheden for at finde en specificeret aminosyre i position . For at finde den signifikante position filtreres entropiværdier under en bestemt tærskel. I denne undersøgelse blev tærsklen sat til 1,4.
2, 2. Cloud-Platform baseret på Virtaulisering og Hadoop-ramme
skyplatformen til det foreslåede fylogenetiske analyseværktøj er konstrueret på to vigtige teknologier: virtualisering og Hadoop-rammen. Hadoop er et meget skalerbart og tilgængeligt distribueret system. Skalerbarheden og tilgængeligheden garanteres af HDFS, et selvhelbredende distribueret lagersystem og MapReduce, en specifik fejltolerant distribueret behandlingsalgoritme . Arkitekturen i en Hadoop-klynge er vist i figur 2.
Hadoop-klyngen udgør en enkelt master og flere slave-noder. Master node består af en job tracker, opgave tracker, navn node og data node. En slave node, eller computing node, omfatter en data node og en opgave tracker. Jobtrackeren tildeler kort / Reducer opgaver til specifikke noder i klyngen, ideelt set dem, der allerede indeholder dataene eller i det mindste inden for det samme rack. En opgave-tracker node accepterer kort, reducere og shuffle operationer fra en job-tracker. Kortet / reducere operation er vist i figur 3.
HDFS er det primære distributionsfilsystem, der bruges af Hadoop-rammen. Hver inputfil er opdelt i datablokke, der distribueres til datanoder. Hadoop opretter også flere replikaer af datablokke og distribuerer dem til dataknudepunkter i en klynge for at muliggøre pålidelige, ekstremt hurtige beregninger. Navnet node fungerer som både en mappe namespace manager og en node metadata manager for HDFS. HDFS-arkitekturen indeholder en enkelt node.
et ønskeligt kendetegn ved Hadoop er dets høje fejltolerance. HDFS giver dataene mulighed for at sprede sig over hundreder eller tusinder af noder eller maskiner, og opgaverne beregnes på dataholdende noder. Hadoop replikerer data, så hvis en replika går tabt, findes der sikkerhedskopier. Når en node fejler under beregningen, genstarter Hadoop den stoppede opgave på en anden node, der indeholder replikatdata. I Hadoop-rammen registreres knudefejl ved hjælp af hjerteslagsmekanismen, hvorved individuelle opgavenoder (task trackers) konstant kommunikerer med jobtrackeren. Hvis en opgavetracker ikke kommunikerer med jobtrackeren i en periode, antager jobtrackeren, at opgavetrackeren er gået ned . Job tracker ved, hvilke task trackers (data noder) indeholder replikere data, og det udsteder en genstart opgave. I dette papir blev den foreslåede skytjeneste implementeret ved at kombinere Hadoop-klyngedistribution med en styringsmodel. I vores cloud-server beregnes et indsendt job i en dataknude. I stedet for at behandle parallelle data paralleliseres job selv. Derfor distribueres indsendte data til en dataknude af HDFS, mens computerprocessen leveres til task tracker og kopieres med de indsendte data. Virtualisering er en kritisk komponent i cloud computing-miljøet. Den fysiske computerkraft er i det væsentlige et værktøj, som brugerne kan købe efter behov. Det sædvanlige mål med virtualisering er at forbedre skalerbarheden og den samlede ressourceudnyttelse. Virtualisering tillader parallel kørsel af flere operativsystemer på en enkelt fysisk computer. Mens en fysisk computer i klassisk forstand udgør en komplet og faktisk maskine, er en virtuel maskine (VM) en fuldstændig isoleret maskine, der kører et gæsteoperativsystem inden for den fysiske computer. For at sikre skalerbarhed og effektivitet fungerer alle komponenter—job tracker, task tracker, name node og data node—i vores cloud service som virtuelle maskiner. Figur 4 viser VM-arkitekturen for vores foreslåede service.
Cloud computing service baseret på virtualiseringsteknologi.
2.3. Cloud – baseret ORF fylogenetisk analysetjeneste
Cloud-baseret ORF fylogenetisk analysetjeneste blev udviklet på en virtualiseringsplatform med Hadoop-rammen som beskrevet ovenfor. Proceduren for den foreslåede tjeneste er vist i figur 5. Master node (navn node) og slave node (data node) er henholdsvis master VM og slave VM. Når en fylogenetisk analyseanmodning indsendes, gemmes den i en jobkø. Masternoden udtrækker jævnligt jobene fra jobkøen og tildeler dem til slaveknuder (eller kortlæggere), som udfører opgaven. Ved afslutningen af alle job samler reduceren resultaterne og gemmer dem i Netværksfilsystemlageret (NFS). Et enkelt sammenligningsresultat af et fylogenetisk job gemmes i en enkelt fil med NFS. Som vist i figur 5 udfører en dataknude, der kører i VM2, en fylogenetisk analyse, og en navneknude kører i VM1. Reduceren, der løber ind, samler resultaterne fra de dataknudepunkter, der udfører de fylogenetiske analyser. I denne tjeneste uploader brugeren proteinsekvenser og sender en fylogenetisk analyseanmodning på hjemmesiden portal. Alle indsendte analysejob samles i jobkøen, og sekvensdata gemmes i forskellige værter af HDFS. Fylogenetiske analyser tildeles de dataknudepunkter, der allerede indeholder sekvensdata. Analyseresultaterne sendes til både dataknude og reducer for at producere det endelige resultat gemt i NFS. Brugeren henter det endelige resultat ved at logge ind på hjemmesiden. Tjenesten implementeres som følger.
rutediagram over skybaseret ORF fylogenetisk analysetjeneste.
Trin 1: Job indsendelse. Brugere indsender deres job online via internetportalen for den foreslåede skytjeneste. Brugere indtaster enten de komparative DNA / RNA-sekvenser på internetportalen eller uploader en fil, der indeholder komparative RNA-sekvenser fra en internetportal.
Trin 2: Sekvensoversættelse. For at detektere ORF-regionerne oversættes alle input-RNA-sekvenser til proteinsekvenser baseret på den genetiske kode. Den genetiske kode er det sæt regler, hvormed RNA-sekvensinformation oversættes til proteiner. Hvert kodon i en RNA-sekvens repræsenterer normalt en enkelt aminosyre specificeret af den tilsvarende genetiske kode. Koden angiver den aminosyre, der skal tilsættes næste under proteinsyntese. De genetiske koder er vist i tabel 1.
|
Step 3: Phylogenetic Analysis. Dette trin identificerer de funktionelle Orf ‘er, husk at signifikante Orf’ er er sjældne. I vores service kan brugeren angive længden af ORF, som han/hun betragter som meningsfuld. Tjenesten lokaliserer derefter de betydelige Orf ‘ er. Et eksempel på ORFs er vist i figur 6. I dette eksempel strækker den første ORF (betegnet som AB447445_1) sig fra positioner 3 til 5099 i sekvensen AB447445. I dette trin bygges to typer fylogenetiske træer, den ene bruger den fulde sekvenslængde og den anden kun bruger Orf ‘ er. Fra de tre ORF-regioner, der er identificeret i analysen, bygges tre ORF-fylogenetiske træer. Disse træer registreres i ph-format og overføres derefter til og gemmes i portalen. I mellemtiden beregnes diversitetsværdien af hver position i sekvensen. Disse værdier gemmes i en fil.
Trin 4: rapport resultat. I dette trin tegnes de ph-formaterede træer som tre diagrammer og vises på portalen. Brugeren observerer disse diagrammer online eller henter dem fra hjemmesiden. Tilsvarende vises en søjlediagram over samlet mangfoldighed på hjemmesiden.
3. Eksperiment
den foreslåede skytjeneste til virusanalyse blev udført på fire IBM blade-servere. Hver server var udstyret med to fire-Core Intel 2.26 CPU ‘ er, 24 GB RAM og 296 GB harddisk, der kører under Ubuntu-operativsystemet version 10.4, med 8 virtuelle maskiner på hver server. Hadoop version 0.2 MapReduce platform blev installeret på hver server. En VM udgjorde Job tracker og navn node; de andre er opgave trackere og data noder. Jobtrackeren er også portalen til vores skytjeneste. Portalen er afbildet i Figur 7.
Portal for skybaseret ORF fylogenetisk analysetjeneste.
vores nuværende skymiljø tillader otte virtuelle maskiner. To af disse VM ‘ er er navneknude og dataknude, der kører reduceren; de resterende seks er ansvarlige for kortdrift. Til eksperimentet producerede vi tilfældigt tre datasæt, der hver indeholdt 20 sekvenser af forskellige længder (300, 400 og 600 nukleotider). Alle sekvenser i hvert datasæt blev sammenlignet ved hjælp af fylogenetiske analysemetoder. Den foreslåede tjeneste blev anvendt tre gange til simulering af tre ORF fylogenetiske analyser.
beregningstiden for den foreslåede tjeneste illustreret i figur 8 er proportional med antallet af kortlæggere. Udførelsestiden reduceres betydeligt, når der anvendes seks kortlæggere i forhold til to kortlæggere. Figur 9 sammenligner ydeevnen mellem sekventielle fylogenetiske analysemetoder såsom Klustalv og den foreslåede service med seks kortlæggere, til forskellige sekvenslængder. Det er klart, at den foreslåede service i Hadoop-rammen opnår bedre ydeevne end standard sekventiel fylogenetisk analyse.
beregningstid for skybaseret ORF fylogenetisk analyse med forskellige antal kortlæggere og sekvenslængder.
4. Casestudie
Norovirus (NoV) er et vigtigt etiologisk middel til akut gastroenteritis over hele verden. Det forårsager diarre i alle aldre, især i Danmark. NoV-genomet er en enkeltstrenget, positiv sans, polyadenyleret RNA, der koder for tre åbne læserammer, ORF1, ORF2 og ORF3 . ORF1 koder for et langt polypeptid, der spaltes intracellulært i seks proteiner af den virale proteinase . Disse proteiner gør det muligt for NoV at replikere i værtsceller . ORF2 koder for et viralt kapsidprotein, VP1, mens ORF3 koder for et VP2-protein , der betragtes som en mindre strukturel komponent af viruspartikler, tilsyneladende ansvarlig for ekspression og stabilisering af VP1 . Ligesom størstedelen af RNA-vira er NoV genetisk og antigenisk forskelligartet . Virussen er foreløbigt opdelt i fem genogrupper og mere end 25 genotyper, baseret på ligheder mellem ORF2-sekvenser . Derfor kan homologien for denne type virus identificeres ud fra ORF-ligheder. At identificere denne homologi vil hjælpe med viral lægemiddel-og vaccinedesign. Derfor, NoV blev valgt som et casestudie i vores eksperimenter. Vi valgte femten NoV, der er blevet opdaget i Danmark. Disse NoV sekvenser kan hentes fra NCBI.
de fylogenetiske træer konstrueret ud fra sekvenser i fuld længde og tre Orf ‘ er er vist i Figur 10. Det er klart, at disse træer adskiller sig fra hinanden. Træet konstrueret ud fra sekvenserne i fuld længde (Figur 10(a)) demonstrerer et evolutionært forhold mellem viraerne. Imidlertid giver forskellige Orf ‘er tydeligt forskellige træer (Figur 10(b)-10(d)), hvilket antyder, at vira kan kopiere Orf’ er fra andre vira og ændre deres funktion ved at integrere dem i deres egne sekvenser. Derfor kan virologer ved at etablere evolutionære forhold for hver ORF analysere sygdomme forårsaget af specifikke Orf ‘ er. Figur 11 viser mangfoldigheden søjlediagram genereret af platformen. Restpositionen for høj entropi er tilvejebragt i Figur 12, der viser fire fylogenetiske træer og søjlediagrammet for mangfoldighed. The positions (also the amino acids) of high diversity are shown in the box.
(a)
(b)
(c)
(d)
(a)
(b)
(c)
(d)
Phylogenetic trees for full length and different ORF regions: a) Fuld længde, b) ORF1, c) ORF2 og d) ORF3.
5. Konklusion
Cloud computing er online levering af computerressourcer, som f.eks. Brugere kan få adgang til skybaserede applikationer via en internetsøgemaskine eller via applikationer på mobile enheder. Selvom mange bioinformatikværktøjer er udviklet som internetapplikationer, implementeres disse typisk på en server, der har begrænset computerkraft. I øjeblikket er nogle værktøjer blevet ombygget som distribuerede computerværktøjer baseret på Hadoop-rammen. Disse værktøjer implementeres let på en klynge leveret af en cloud computing-leverandør som f.eks. Implementering af allerede eksisterende værktøjer til skymiljøet er den aktuelle tendens inden for bioinformatik som en service.
i dette papir foreslår vi en højskala, tilgængelig skybaseret åben læseramme fylogenetisk analysetjeneste baseret på en Hadoop-klynge ved hjælp af virtualiseringsteknologi. Virtualisering gør det muligt for den foreslåede tjeneste at kopiere store mængder job. Fordi Hadoop er stærkt bufferet mod fejl, garanterer den foreslåede skytjeneste, at indsendte job gendannes ved opgavetildeling, hvilket sikrer en cloud-tjeneste med høj tilgængelighed. Vores casestudie viste, at vores service kan konstruere forskellige fylogenetiske træer fra sammenligninger af forskellige Orf ‘ er. Disse forhold kan betydeligt hjælpe biologer med at observere sekvensudviklinger i forskellige Orf ‘ er. Den foreslåede tjeneste kan også hjælpe forskere med at udvikle nye lægemidler mod patogene vira.
interessekonflikt
der er ingen konkurrerende interesser for dette papir.
anerkendelse
en del af dette arbejde blev støttet af National Science Council under Grants NSC-99-2632-E-126-001-MY3 og NSC-100-2221-E-126-007-MY3.