öppen Läsram fylogenetisk analys på molnet

Abstrakt

fylogenetisk analys har blivit väsentlig för att undersöka de evolutionära relationerna mellan virus. Dessa förhållanden avbildas på fylogenetiska träd, där virus grupperas baserat på sekvenslikhet. Virala evolutionära relationer identifieras från öppna läsramar snarare än från kompletta sekvenser. Nyligen har cloud computing blivit populärt för att utveckla internetbaserade bioinformatikverktyg. Biocloud är en effektiv, skalbar och robust databehandlingstjänst för bioinformatik. I detta dokument föreslår vi en molnbaserad öppen läsram fylogenetisk analystjänst. Den föreslagna tjänsten integrerar Hadoop-ramverket, virtualiseringstekniken och fylogenetiska analysmetoder för att ge en storskalig bioservice med hög tillgänglighet. I en fallstudie analyserar vi de fylogenetiska förhållandena mellan Norovirus. Evolutionära relationer belyses genom att anpassa olika öppna läsramsekvenser. Den föreslagna plattformen identifierar korrekt de evolutionära relationerna mellan medlemmar av Norovirus.

1. Introduktion

att förstå de evolutionära förhållandena mellan grupper av organismer har blivit alltmer beroende av fylogenetisk analys. Fylogenier presenteras vanligtvis som träddiagram, kända som fylogenetiska träd. Dessa träd är konstruerade av genetiska likheter och skillnader mellan olika organismer. Jämförande sekvensanalys är en användbar metod genom vilken man kan identifiera gen, härleda funktionen hos en gens produkt och identifiera nya funktionella element. Genom att jämföra flera sekvenser längs hela sin längd kan forskare hitta konserverade rester som sannolikt bevaras genom naturligt urval. Rekonstruera förfädernas sekvenser kan avslöja tidpunkten och riktningen för mutationer. Dessa jämförande analyser är beroende av den fylogenetiska trädkonstruktionen.

en läsram är en uppsättning på varandra följande, nonoverlapping triplets av tre på varandra följande nukleotider. Ett kodon är en triplett som motsvarar en aminosyra eller stoppsignal under översättning. En öppen läsningsram (ORF) är den del av läsningsramen som inte innehåller några stoppkodoner. Ett protein kan inte göras om RNA-transkription upphör innan det når stoppkodonet. Därför, för att säkerställa att stoppkodonet översätts i rätt läge, ligger transkriptionsavslutningspausplatsen efter ORF. ORF: erna kan identifiera översatta regioner i DNA-sekvenser. Långa ORF: er indikerar kandidatproteinkodande regioner i en DNA-sekvens. ORFs har också använts för att klassificera olika virusfamiljer, inklusive medlemmar av Norovirus . Open Reading Frame Finder (ORF Finder) är ett grafiskt analysverktyg som söker efter öppna läsramar i DNA-sekvenser. ORF Investigator-programmet ger information om kodande och icke-kodande sekvenser och utför parvis anpassning av olika DNA-regioner. Detta verktyg identifierar effektivt ORFs och omvandlar dem till aminosyrakoder och förklarar deras respektive positioner i sekvensen. Parvis inriktning detekterar också mutationer, inklusive enkelnukleotidpolymorfismer mellan sekvenser. StarORF underlättar identifiering av proteinet(s) kodade i en DNA-sekvens. Först transkriberas DNA-sekvensen till RNA, och alla potentiella ORF identifieras. Dessa ORF: er kodas inom var och en av de sex översättningsramarna (3 i framåtriktningen och 3 i omvänd riktning), så att användare kan identifiera översättningsramen som ger den längsta proteinkodningssekvensen.

flera biologiska organisationer har implementerat bioinformatikverktyg på webbplatser. National Center for Biotechnology Information (NCBI) tillhandahåller många verktyg för att jämföra databaslagrad nukleotid eller proteinsekvenser, inklusive de välkända BLASTALGORITMERNA. NCBI tillhandahåller också flera databaser, såsom GenBank och SNP, där biologer kan söka homologi eller specifika funktioner. European Molecular Biology Laboratory (EMBL) tillhandahåller fritt tillgängliga data och online bioinformatikverktyg till alla aspekter av det vetenskapliga samfundet. Dessa data och verktyg är oumbärliga i medicinska och biologiska studier. De flesta av dessa tjänster nås via Internet och används online.

Cloud computing är ett nyutvecklat koncept som levererar datorresurser, antingen hårdvara eller mjukvara, över Internet. Många typer av cloud computing har föreslagits, såsom infrastruktur som en tjänst (IaaS), plattform som en tjänst (PaaS), programvara som en tjänst (SaaS), nätverk som en tjänst (NaaS) och lagring som en tjänst (STaaS). De flesta av dessa tjänster är beroende av virtualiseringsteknik—skapandet av virtuella hårdvaruplattformar, operativsystem, lagringsenheter och nätverksresurser. Cloud computing välkomnas för sin användarvänlighet, virtualisering, Internet-centrerad fokus, resurs variation, automatisk anpassning, skalbarhet, resursoptimering, pay-per-use, service SLA (Service-Level Agreements), och infrastruktur SLA . Många cloud computing-leverantörer distribuerar dessa resurser på begäran från stora resurspooler installerade i datacenter. Amazon EC2 levererar en infrastrukturtjänst, medan Google App Engine och Microsofts Azure Services Platform levererar plattformstjänster. I akademin är många cloud computing-projekt under uppbyggnad eller fullt fungerande .

Cloud computing är i huvudsak ett distributionssystem som möjliggör parallell databehandling. Hadoop är ett ramverk med öppen källkod som stöder dataintensiv distribuerad beräkning. Under Hadoop kan applikationer implementeras på stora kluster av råvarudatorer. Hadoop-klustret innehåller en enda master och flera slavnoder. Huvudnoden tilldelar jobb till slavnoder, som slutför de tilldelade uppgifterna. Hadoop tillhandahåller MapReduce-programmeringsmodellen för parallell bearbetning av stora datamängder. Beräkningsuppgiften är uppdelad i många små uppgifter, som var och en kan utföras eller omexekveras på en beräkningsnod i Hadoop-klustret. MapReduce tillhandahåller också ett distribuerat filsystem, Hadoop Distributed File System (HDFS), som lagrar data på beräkningsnoder, vilket möjliggör en mycket hög aggregerad bandbredd över klustret. Både map / reduce och det distribuerade filsystemet är robusta mot fel. Flera sekvensanalysverktyg har utvecklats som molnverktyg baserat på Hadoop-arkitekturen, såsom CloudBlast och CrossBow . Därför kan vanliga onlineverktyg portas till molnarkitekturen. Sådan import av redan existerande verktyg utgör huvudmålet för bioinformatik som en tjänst (BaaS).

i denna uppsats utvecklar vi en storskalig ORF fylogenetisk analys molntjänst baserad på virtualiseringsteknik och Hadoop. Denna tjänst tillhandahåller fylogenetiska analyser från ORFs baserade på Hadoop-kluster för att stödja flera förfrågningar. Kärnan i cloud computing-miljön är virtualisering. Den fysiska datorkraften betraktas som ett användarbetalningsverktyg som användare kan begära efter önskemål. Verktyget är också känt som en virtuell maskin. Varje nod i ett Hadoop-kluster är en virtuell maskin. Användare kan ladda upp sina sekvensdata eller filer via huvudnoden (webbportal) och sedan skicka in ett jobb. Jobbet tilldelas slavnoden som innehåller uppladdade data och slavnoden Slutför jobbet. Eftersom ORF-jämförelser otvetydigt har fastställt homologin för Norovirus, antar vi här Norovirus som en fallstudie. Resultaten visar att det föreslagna molnbaserade analysverktyget, i kraft av virtualiseringsteknik och Hadoop-ramverk, lätt kan underlätta BaaS. Det föreslagna molnbaserade ORF-fylogenetiska verktyget finns tillgängligt på http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Metoder

i detta dokument föreslår vi en molnbaserad ORF fylogenetisk analystjänst som kombinerar Hadoop-ramverk, virtualiseringsteknik, fylogenetiskt trädverktyg och mångfaldsanalys. Som tidigare nämnts är molnplattformen konstruerad av virtualisering och Hadoop framework. Hadoop utförs på virtuella maskiner som skapats av virtualiseringsteknik som Kernel-based Virtual Machine (KVM). Hadoop utför den fylogenetiska analysen på ett distribuerat datorsätt. Den underliggande arkitekturen säkerställer elasticitet, skalbarhet och tillgänglighet för den föreslagna molnbaserade tjänsten.

2.1. Fylogenetisk analys

den föreslagna molntjänsten integrerar ORF-sökprocessen, fylogenetiska trädkontraktioner och Orf-mångfaldsanalys för att generera en fullständig fylogenetisk analys. Förfarandet för analysen beskrivs nedan och visas i Figur 1.

Figur 1
fylogenetisk analys.

Steg 1: upptäcka öppna Läsramar. Funktionella ORFs extraheras från sekvenser. Även om många ORF finns i en proteinsekvens är de flesta obetydliga. ORF finder lokaliserar alla öppna läsramar med en viss minsta storlek i en sekvens. I denna studie antogs ORF Finder som vanligtvis används på NCBI tools-webbplatsen. Detta verktyg identifierar alla öppna läsramar med hjälp av standard-eller alternativa genetiska koder.

steg 2: konstruera fylogenetiskt träd baserat på Öppna Läsramar. Ett fylogenetiskt träd (eller evolutionärt träd) är ett förgreningsdiagram (träd) som visar de härledda evolutionära förhållandena mellan biologiska arter eller andra enheter baserat på likheter och skillnader i deras fysiska och/eller genetiska egenskaper. Taxa klustrade tillsammans i trädet förmodligen härstammar från en gemensam förfader. Fylogenetisk analys justerar vanligtvis hellängdssekvenser. Men olika ORFs kan ge olika fylogenetiska träd. Virus ORF anpassningar kan avslöja en gemensam viral förfader eller en ORF som är gemensam för alla virus. En sådan upptäckt skulle i hög grad hjälpa viral läkemedelsdesign.

det fylogenetiska trädet beräknas med ClustalW . Denna algoritm bygger två fylogenetiska träd; en baserad på fullständiga sekvenser och den andra endast för ORFs, vilket avslöjar variansen mellan de två träden.

steg 3: Mångfaldsanalys bland öppna Läsramar. Mångfald visar vanligtvis antalet olika identiteter i en grupp. I detta dokument visar mångfald artvarians vid en specifik position i proteinsekvensen. Litet mångfaldsvärde vid en position innebär att proteinsekvenser är mycket lika vid den positionen. Däremot betecknar ett högt mångfaldsvärde låg likhet vid den positionen. En ram med hög varians indikerar också att denna ram muterar lätt. Sådana ramar med hög varians kan användas för att observera strukturella skillnader i protein och för att hjälpa vaccinutveckling. I detta dokument beräknas mångfald från entropin enligt följande: var är värdet av entropi och är sannolikheten för att hitta en specificerad aminosyra vid position . För att hitta den signifikanta positionen filtreras entropivärden under ett visst tröskelvärde ut. I denna studie fastställdes tröskeln till 1.4.

2.2. Molnplattform baserad på Virtaulization och Hadoop Framework

molnplattformen för föreslaget fylogenetiskt analysverktyg är konstruerat på två viktiga tekniker: virtualisering och Hadoop framework. Hadoop är ett mycket skalbart och tillgängligt distribuerat system. Skalbarheten och tillgängligheten garanteras av HDFS, ett självläkande distribuerat lagringssystem och MapReduce, en specifik feltolerant distribuerad bearbetningsalgoritm . Arkitekturen för ett Hadoop-kluster visas i Figur 2.

Figur 2

arkitekturen för ett Hadoop-kluster.

Hadoop-klustret utgör en enda master och flera slavnoder. Huvudnoden består av en job tracker, task tracker, name node och data node. En slavnod, eller datornod, innefattar en datanod och en aktivitetsspårare. Job tracker tilldelar map / reduce-uppgifter till specifika noder i klustret, helst de som redan innehåller data eller åtminstone inom samma rack. En task-tracker nod accepterar karta, minska och blanda operationer från ett jobb-tracker. Map / reduce-funktionen visas i Figur 3.

Figur 3
proceduren för Hadoop map / reduce-modellen.

HDFS är det primära distributionsfilsystemet som används av Hadoop-ramverket. Varje indatafil är uppdelad i datablock som distribueras till datanoder. Hadoop skapar också flera kopior av datablock och distribuerar dem till datanoder i ett kluster för att möjliggöra tillförlitliga, extremt snabba beräkningar. Namnnoden fungerar som både en katalognamnområdeshanterare och en nodmetadatahanterare för HDFS. HDFS-arkitekturen innehåller en enda namnnod.

en önskvärd egenskap hos Hadoop är dess höga feltolerans. HDFS tillåter data att spridas över hundratals eller tusentals noder eller maskiner, och uppgifterna beräknas på datahållande noder. Hadoop replikerar data, så att om en kopia går förlorad finns säkerhetskopior. När en nod misslyckas under beräkningen startar Hadoop om den stoppade uppgiften på en annan nod som innehåller replikerade data. I Hadoop-ramverket detekteras nodfel med hjälp av hjärtslagsmekanismen, genom vilken enskilda uppgiftsnoder (uppgiftsspårare) ständigt kommunicerar med jobbspåraren. Om en aktivitetsspårare inte kommunicerar med arbetsspåraren under en tidsperiod antar arbetsspåraren att aktivitetsspåraren har kraschat . Jobbspåraren vet vilka aktivitetsspårare (datanoder) som innehåller replikerade data och det utfärdar en omstartuppgift. I detta dokument implementerades den föreslagna molntjänsten genom att kombinera Hadoop-klusterdistribution med en hanteringsmodell. I vår molnserver beräknas ett inlämnat jobb i en datanod. I stället för att bearbeta parallella data är jobb själva parallelliserade. Därför distribueras inlämnade data till en datanod av HDFS, medan datorprocessen levereras till task tracker och kopieras med de inlämnade data. Virtualisering är en kritisk komponent i cloud computing-miljön. Den fysiska datorkraften är i huvudsak ett verktyg som användare kan köpa efter behov. Det vanliga målet med virtualisering är att förbättra skalbarheten och det totala hårdvaruutnyttjandet. Virtualisering tillåter parallell körning av flera operativsystem på en enda fysisk dator. Medan en fysisk dator i klassisk mening utgör en komplett och faktisk maskin, är en virtuell maskin (VM) en helt isolerad maskin som kör ett gästoperativsystem inom den fysiska datorn. För att säkerställa skalbarhet och effektivitet fungerar alla komponenter—job tracker, task tracker, name node och data node—i vår molntjänst som virtuella maskiner. Figur 4 visar VM-arkitekturen för vår föreslagna tjänst.

Figur 4
Cloud computing-tjänst baserad på virtualiseringsteknik.

2.3. Molnbaserad ORF fylogenetisk analystjänst

molnbaserad ORF fylogenetisk analystjänst utvecklades på en virtualiseringsplattform med Hadoop-ramverket som beskrivits ovan. Förfarandet för den föreslagna tjänsten visas i Figur 5. Huvudnoden (namnnod) och slavnoden (datanod) är master VM respektive Slav VM. När en begäran om fylogenetisk analys skickas sparas den i en jobbkö. Huvudnoden extraherar regelbundet jobben från jobbkön och tilldelar dem till slavnoder (eller mappare) som utför uppgiften. Vid slutförandet av alla jobb samlar reduceraren resultaten och sparar dem i Network File System storage (NFS). En enda jämförelse resultat av en fylogenetisk jobb sparas i en enda fil av NFS. Som visas i Figur 5 utför en datanod som körs i VM2 en fylogenetisk analys och en namnnod körs i VM1. Reduceraren, som körs in, samlar resultaten från datanoden som utför de fylogenetiska analyserna. I den här tjänsten laddar användaren upp proteinsekvenser och skickar in en fylogenetisk analysbegäran på webbplatsens portal. Alla inlämnade analysjobb samlas i jobbkön och sekvensdata lagras i olika värdar av HDFS. Fylogenetiska analyser tilldelas de datanoder som redan innehåller sekvensdata. Analysresultaten skickas till både data nod och reducer för att producera det slutliga resultatet lagras i NFS. Användaren hämtar slutresultatet genom att logga in på webbplatsen. Tjänsten implementeras enligt följande.

Figur 5

flödesschema för molnbaserad ORF-fylogenetisk analystjänst.

Steg 1: jobb inlämning. Användare skickar sitt jobb online via webbportalen för den föreslagna molntjänsten. Användare anger antingen jämförande DNA / RNA-sekvenser på webbportalen eller laddar upp en fil som innehåller jämförande RNA-sekvenser från en webbportal.

steg 2: Sekvensöversättning. För att detektera ORF-regionerna översätts alla inmatade RNA-sekvenser till proteinsekvenser baserat på den genetiska koden. Den genetiska koden är den uppsättning regler genom vilka RNA-sekvensinformation översätts till proteiner. Varje kodon i en RNA-sekvens representerar vanligtvis en enda aminosyra specificerad av motsvarande genetiska kod. Koden specificerar aminosyran som ska tillsättas nästa under proteinsyntesen. De genetiska koderna visas i Tabell 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Detta steg identifierar de funktionella ORF: erna, kom ihåg att betydande ORF: er är sällsynta. I vår tjänst kan användaren ange längden på ORF som han / hon anser vara meningsfull. Tjänsten lokaliserar sedan de betydande ORF: erna. Ett exempel på ORFs visas i Figur 6. I det här exemplet sträcker sig den första ORF (betecknad som AB447445_1) från positionerna 3 till 5099 i sekvensen AB447445. I detta steg byggs två typer av fylogenetiska träd, en med full sekvenslängd och den andra endast med ORFs. Från de tre ORF-regioner som identifierats i analysen byggs tre ORF-fylogenetiska träd. Dessa träd registreras i ph-format och överförs sedan till och lagras i portalen. Samtidigt beräknas mångfaldsvärdet för varje position i sekvensen. Dessa värden sparas i en fil.

Figur 6
ett exempel på ORFs som upptäckts av ORF finder.

steg 4: rapportera resultat. I detta steg ritas de ph-formaterade träden som tre diagram och visas på portalen. Användaren observerar dessa diagram online eller hämtar dem från webbplatsen. På samma sätt visas ett stapeldiagram över aggregerad mångfald på webbplatsen.

3. Experiment

den föreslagna molntjänsten för virusanalys utfördes på fyra IBM-bladservrar. Varje server var utrustad med två fyrkärniga Intel Xeon 2.26 GHz-processorer, 24 GB RAM och 296 GB hårddisk, som körs under Ubuntu-operativsystemet version 10.4, med 8 virtuella maskiner på varje server. Hadoop version 0.2 MapReduce-plattformen installerades på varje server. En VM utgjorde job tracker och name node; de andra är task trackers och data noder. Job tracker är också portalen för vår molntjänst. Portalen visas i Figur 7.

Figur 7

Portal för molnbaserad ORF fylogenetisk analystjänst.

vår nuvarande molnmiljö tillåter åtta virtuella maskiner. Två av dessa virtuella maskiner är namn nod och data nod kör reduceraren; de återstående sex är ansvariga för kartoperation. För experimentet producerade vi slumpmässigt tre dataset, var och en innehållande 20 sekvenser av olika längder (300, 400 och 600 nukleotider). Alla sekvenser i varje dataset jämfördes med fylogenetiska analysmetoder. ClustalW och den föreslagna tjänsten tillämpades tre gånger för att simulera tre ORF-fylogenetiska analyser.

beräkningstiden för den föreslagna tjänsten som visas i Figur 8 är proportionell mot antalet kartläggare. Exekveringstiden reduceras avsevärt när sex kartläggare används, i förhållande till två kartläggare. Figur 9 jämför prestanda mellan sekventiella fylogenetiska analysmetoder såsom ClustalW och den föreslagna tjänsten med sex kartläggare, för olika sekvenslängder. Det är uppenbart att den föreslagna tjänsten i Hadoop-ramverket uppnår bättre prestanda än standard Sekventiell fylogenetisk analys.

figur 8

beräkningstid för molnbaserad ORF-fylogenetisk analys med olika antal mappare och sekvenslängder.

Figur 9
jämförelser av beräkningstiden mellan sekventiella och molnbaserade ORF fylogenetiska analyser.

4. Fallstudie

Norovirus (NoV) är ett viktigt etiologiskt medel för akut gastroenterit över hela världen. Det orsakar diarre i alla åldrar, särskilt i Taiwan. NoV-genomet är en enkelsträngad, positiv känsla, polyadenylerat RNA som kodar för tre öppna läsramar, ORF1, ORF2 och ORF3 . ORF1 kodar för en lång polypeptid som klyvs intracellulärt i sex proteiner av viralt proteinas . Dessa proteiner möjliggör NoV att replikera i värdceller . ORF2 kodar ett viralt kapsidprotein, VP1, medan ORF3 kodar ett VP2-protein som betraktas som en mindre strukturell komponent av viruspartiklar , uppenbarligen ansvarig för uttrycket och stabiliseringen av VP1 . Liksom majoriteten av RNA-virus är NoV genetiskt och antigeniskt olika . Viruset är preliminärt uppdelat i fem genogrupper och mer än 25 genotyper, baserat på likheter mellan ORF2-sekvenser . Därför kan homologin för denna typ av virus identifieras från ORF-likheter. Att identifiera denna homologi kommer att hjälpa till med viral drog-och vaccindesign. Därför valdes NoV som en fallstudie i våra experiment. Vi valde femton NoV som har upptäckts i Taiwan. Dessa NoV sekvenser kan laddas ner från NCBI.

fylogenetiska träd konstruerade av Full längd sekvenser och tre ORF visas i Figur 10. Självklart skiljer sig dessa träd från varandra. Trädet konstruerat från sekvenserna i full längd(Figur 10 (A)) visar ett evolutionärt förhållande mellan virusen. Olika ORF: er ger emellertid tydligt olika träd (figurerna 10(B)-10(d)), vilket tyder på att virus kan kopiera ORF: er från andra virus och ändra deras funktion genom att integrera dem i sina egna sekvenser. Genom att upprätta evolutionära relationer för varje ORF kan virologer analysera de sjukdomar som orsakas av specifika ORF. Figur 11 visar mångfalden stapeldiagram som genereras av plattformen. Restpositionen för hög entropi tillhandahålls i Figur 12, som visar fyra fylogenetiska träd och mångfaldsstapeldiagrammet. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) full längd, b) ORF1, c) ORF2 och d) ORF3.

Figur 11
mångfald stapeldiagram för varje position.

Figur 12
exempel på att visa högt entropivärde vid de specifika positionerna.

5. Slutsats

Cloud computing är online-leverans av datorresurser, såsom hårdvara och mjukvara. Användare kan komma åt molnbaserade applikationer via en webbläsare eller via applikationer på mobila enheter. Även om många bioinformatikverktyg har utvecklats som webbapplikationer, distribueras dessa vanligtvis i en server, som har begränsad datorkraft. För närvarande har vissa verktyg ombyggts som distribuerade datorverktyg baserat på Hadoop-ramverket. Dessa verktyg distribueras lätt på ett kluster som tillhandahålls av en cloud computing-leverantör som Amazon EC2. Distribution av befintliga verktyg till molnmiljön är den nuvarande trenden för bioinformatik som en tjänst.

i detta dokument föreslår vi en högskalig, tillgänglig molnbaserad öppen läsram fylogenetisk analystjänst baserad på ett Hadoop-kluster med virtualiseringsteknik. Virtualisering gör det möjligt för den föreslagna tjänsten att kopiera stora mängder jobb. Eftersom Hadoop är starkt buffrad mot fel, garanterar den föreslagna molntjänsten att inlämnade jobb återvinns genom omfördelning av uppgifter, vilket garanterar en molntjänst med hög tillgänglighet. Vår fallstudie visade att vår tjänst kan bygga olika fylogenetiska träd från jämförelser av olika ORF. Dessa relationer kan avsevärt hjälpa biologer att observera sekvensutveckling i olika ORF. Den föreslagna tjänsten kan också hjälpa undersökningar att utveckla nya läkemedel mot patogena virus.

intressekonflikt

det finns inga konkurrerande intressen för detta dokument.

bekräftelse

en del av detta arbete stöddes av National Science Council under Grants NSC-99-2632-E-126-001-MY3 och NSC-100-2221-E-126-007-MY3.



Lämna ett svar

Din e-postadress kommer inte publiceras.