Open Reading Frame Fylogenetická Analýza na Oblaku

Abstrakt

Fylogenetická analýza se stala základní výzkum v evoluční vztahy mezi viry. Tyto vztahy jsou zobrazeny na fylogenetických stromech, ve kterých jsou viry seskupeny na základě podobnosti sekvencí. Virové evoluční vztahy jsou identifikovány spíše z otevřených čtecích rámců než z úplných sekvencí. V poslední době se cloud computing stal populárním pro vývoj internetových bioinformatických nástrojů. Biocloud je efektivní, škálovatelná a robustní bioinformatická výpočetní služba. V tomto článku, navrhujeme cloudovou službu fylogenetické analýzy otevřeného čtecího rámce. Navrhovaná služba integruje rámec Hadoop, virtualizační technologie, a metody fylogenetické analýzy, aby poskytovaly vysokou dostupnost, rozsáhlá bioservis. V případové studii analyzujeme fylogenetické vztahy mezi noroviry. Evoluční vztahy jsou objasněny zarovnáním různých sekvencí otevřeného čtecího rámce. Navrhovaná platforma správně identifikuje evoluční vztahy mezi členy noroviru.

1. Úvod

pochopení evolučních vztahů mezi skupinami organismů je stále více závislé na fylogenetické analýze. Fylogeneze jsou obvykle prezentovány jako stromové diagramy, známé jako fylogenetické stromy. Tyto stromy jsou konstruovány z genetických podobností a rozdílů mezi různými organismy. Srovnávací sekvenční analýza je užitečná metoda, pomocí které lze identifikovat gen, odvodit funkci genového produktu a identifikovat nové funkční prvky. Porovnáním několika sekvencí po celé jejich délce mohou vědci najít konzervované zbytky, které jsou pravděpodobně zachovány přirozeným výběrem. Rekonstrukce rodových sekvencí může odhalit načasování a směrovost mutací. Tyto srovnávací analýzy se opírají o konstrukci fylogenetického stromu.

čtecí rámec je množina po sobě jdoucích, nepřekrývajících trojčat tří po sobě jdoucích nukleotidů. Kodon je triplet, který se rovná aminokyselině nebo stop signálu během translace. Otevřený čtecí rámec (ORF) je část čtení rámu neobsahující stop kodony. Protein nemůže být vyroben, pokud transkripce RNA přestane před dosažením stop kodonu. Proto, aby bylo zajištěno, že stop kodon je přeložen ve správné poloze, je místo pauzy ukončení transkripce umístěno za ORF. ORF mohou identifikovat přeložené oblasti v sekvencích DNA. Dlouhé ORF označují kandidátské oblasti kódující proteiny v sekvenci DNA. ORFs byly také použity ke klasifikaci různých virových rodin, včetně členů noroviru . Open Reading Frame Finder (ORF Finder) je grafický analytický nástroj, který vyhledává otevřené čtecí rámce v sekvencích DNA. ORF vyšetřovatel program poskytuje informace o kódování a nekódující sekvence a provádí párové zarovnání různých oblastí DNA. Tento nástroj efektivně identifikuje Orf a převádí je na aminokyseliny kódy, deklarovat jejich pozice v sekvenci. Párové zarovnání také detekuje mutace, včetně jednonukleotidových polymorfismů mezi sekvencemi. Staroff usnadňuje identifikaci proteinu(proteinů) kódovaných v sekvenci DNA. Nejprve je sekvence DNA transkribována do RNA a jsou identifikovány všechny potenciální ORF. Tyto Orf jsou zakódované v každém z šesti překlad rámy (3 ve směru vpřed a 3 v opačném směru), takže uživatelé mohou identifikovat překlad rámu výtěžkem nejdelší protein kódující sekvence.

několik biologických organizací implementovalo na webových stránkách nástroje bioinformatiky. Národní Centrum pro Biotechnologické Informace (NCBI) poskytuje mnoho nástrojů pro srovnávání databáze-uložené nukleotidové nebo proteinové sekvence, včetně dobře-známý VÝBUCH algoritmy. NCBI také poskytuje několik databází, jako je GenBank a SNP, ve kterých mohou biologové hledat homologii nebo specifické funkce. Evropská laboratoř molekulární biologie (EMBL) poskytuje volně dostupná data a online nástroje bioinformatiky všem aspektům vědecké komunity. Tyto údaje a nástroje jsou nezbytné v lékařských a biologických studiích. Většina z těchto služeb je přístupná přes Internet a využívána online.

Cloud computing je nedávno vyvinutý koncept, který poskytuje výpočetní prostředky, hardware nebo software, přes Internet. Mnoho typů cloud computingu byly navrženy, jako je infrastruktura jako služba (IaaS), platforma jako služba (PaaS), software jako služba (SaaS), síť jako služba (NaaS), a storage as a service (STaaS). Většina těchto služeb se spoléhá na virtualizační technologii-vytváření virtuálních hardwarových platforem, operačních systémů, paměťových zařízení a síťových zdrojů. Cloud computing je vítán pro svou uživatelskou přívětivost, virtualizace, Internet-centric zaměření, zdroje, rozmanitost, automatické přizpůsobení, škálovatelnost, optimalizaci zdrojů, pay-per-use, služby Sla (Service-Level agreement) a infrastruktury Sla . Mnoho dodavatelů cloud computingu distribuuje tyto zdroje na vyžádání z velkých zdrojů instalovaných v datových centrech. Amazon EC2 dodávek infrastruktury, servisu, zatímco Google App Engine a Microsoft Azure Services Platform dodávky platformu služeb. V akademické sféře jsou četné projekty cloud computingu ve výstavbě nebo plně funkční .

Cloud computing je v podstatě distribuční systém, který umožňuje paralelní výpočty. Hadoop je open-source softwarový rámec, který podporuje distribuované výpočty náročné na data. Pod Hadoop, aplikace mohou být implementovány na velkých shlucích komoditních počítačů. Klastr Hadoop obsahuje jeden hlavní a více podřízených uzlů. Hlavní uzel přiřazuje úlohy podřízeným uzlům, které dokončují přiřazené úkoly. Hadoop poskytuje programovací model MapReduce pro paralelní zpracování velkých datových souborů. Výpočetní úloha je rozdělena do mnoha malých úkolů, z nichž každá může být provedena nebo znovu provedena na výpočetním uzlu v klastru Hadoop. MapReduce také poskytuje distribuovaný souborový systém, Hadoop distribuovaný souborový systém (HDFS), který ukládá data na výpočetních uzlech, což umožňuje velmi vysokou agregátní šířku pásma v clusteru. Map/reduce i distribuovaný souborový systém jsou robustní proti selhání. Několik nástrojů pro analýzu sekvencí bylo přepracováno jako cloudové nástroje založené na architektuře Hadoop, jako jsou CloudBlast a CrossBow . Proto lze standardní online nástroje přenést do cloudové architektury. Takový import již existujících nástrojů představuje hlavní cíl bioinformatiky jako služby (BaaS).

v tomto článku vyvíjíme cloudovou službu fylogenetické analýzy ORF s vysokou dostupností založenou na virtualizační technologii a Hadoop. Tato služba poskytuje fylogenetické analýzy z ORFS založené na Hadoop clusterech pro podporu více požadavků. Podstatou prostředí cloud computingu je virtualizace. Fyzický výpočetní výkon je považován za uživatel-platí nástroj, který uživatelé mohou požadovat, jak je požadováno. Nástroj je také známý jako virtuální stroj. Každý uzel v klastru Hadoop je virtuální stroj. Uživatelé mohou nahrát svá sekvenční data nebo soubory prostřednictvím hlavního uzlu (webový portál) a poté odeslat úlohu. Úloha je přiřazena slave uzlu obsahujícímu nahraná data a slave uzel úlohu dokončí. Vzhledem k tomu, že srovnání ORF jednoznačně stanovilo homologii noroviru, zde přijímáme Norovirus jako případovou studii. Výsledky ukazují, že navrhovaný analytický nástroj založený na cloudu může na základě virtualizační technologie a rámce Hadoop snadno usnadnit BaaS. Navrhovaný fylogenetický nástroj ORF založený na cloudu je k dispozici na adrese http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Metody

V tomto článku, navrhujeme, cloud-based, ORF fylogenetická analýza služba, která bude kombinovat Hadoop rámec, virtualizační technologie, fylogenetický strom nástroj, a rozmanitost analýzy. Jak již bylo zmíněno, cloudová platforma je postavena z virtualizace a rámce Hadoop. Hadoop se provádí na VM vytvořených virtualizační technologií, jako je virtuální stroj založený na jádře (KVM). Hadoop provádí fylogenetickou analýzu distribuovaným výpočetním způsobem. Základní architektura zajišťuje pružnost, škálovatelnost a dostupnost navrhované cloudové služby.

2.1. Fylogenetická analýza

navrhovaná cloudová služba integruje proces hledání ORF, kontrakce fylogenetických stromů a analýzu rozmanitosti ORF za účelem vytvoření úplné fylogenetické analýzy. Postup analýzy je uveden níže a je znázorněn na obrázku 1.

Obrázek 1

postup fylogenetické analýzy.

Krok 1: detekce otevřených čtecích rámců. Funkční ORF jsou extrahovány ze sekvencí. Ačkoli mnoho ORF existuje v proteinové sekvenci, většina z nich je nevýznamná. ORF finder vyhledá všechny otevřené čtecí rámce zadané minimální velikosti v pořadí. V této studii byl přijat vyhledávač ORF běžně používaný na webových stránkách NCBI tools. Tento nástroj identifikuje všechny otevřené čtecí rámce pomocí standardních nebo alternativních genetických kódů.

Krok 2: Konstrukce fylogenetického stromu na základě otevřených čtecích rámců. Fylogenetický strom (nebo evoluční strom) je větvení (tree diagram) ukazuje odvodit evoluční vztahy mezi biologickými druhy či jinými subjekty, na základě podobností a rozdílů v jejich fyzické a/nebo genetické vlastnosti. Taxony seskupené ve stromu jsou pravděpodobně pocházející ze společného předka. Fylogenetická analýza obvykle zarovná celé sekvence. Nicméně, různé ORF mohou přinést různé fylogenetické stromy. Zarovnání virů ORF může odhalit společného virového předka nebo ORF, který je společný pro všechny viry. Takový objev by výrazně pomohl designu virových léků.

fylogenetický strom se vypočítá pomocí ClustalW . Tento algoritmus vytváří dva fylogenetické stromy; jeden založený na plných sekvencích a druhý pouze pro ORFs, čímž odhaluje rozptyl mezi těmito dvěma stromy.

Krok 3: Analýza rozmanitosti mezi otevřenými čtecími rámy. Rozmanitost obvykle zobrazuje počet různých identit ve skupině. V tomto článku, rozmanitost demonstruje varianci druhů na konkrétní pozici v proteinové sekvenci. Malá hodnota rozmanitosti v poloze znamená, že proteinové sekvence jsou v této poloze velmi podobné. Naproti tomu vysoká hodnota rozmanitosti označuje nízkou podobnost v této poloze. Rám s vysokým rozptylem také naznačuje, že tento snímek snadno mutuje. Takové rámce s vysokým rozptylem mohou být použity k pozorování strukturálních rozdílů proteinů ak podpoře vývoje vakcíny. V tomto článku, rozmanitost se vypočítá z entropie následovně: kde je hodnota entropie a je pravděpodobnost nalezení zadané aminokyseliny v poloze . Pro nalezení významné polohy jsou hodnoty entropie pod určitým prahem odfiltrovány. V této studii byla prahová hodnota stanovena na 1,4.

2.2. Cloudová platforma založená na virtualizaci a Hadoop frameworku

cloudová platforma pro navrhovaný nástroj fylogenetické analýzy je postavena na dvou důležitých technologiích: virtualizaci a Hadoop frameworku. Hadoop je vysoce škálovatelný a dostupný distribuovaný systém. Škálovatelnost a dostupnost jsou zaručeny HDFS, self-léčení distribuovaný system pro úložný prostor a MapReduce, konkrétní odolné proti chybám distribuované zpracování algoritmu . Architektura klastru Hadoop je znázorněna na obrázku 2.

Obrázek 2

architektura Hadoop clusteru.

klastr Hadoop představuje jeden hlavní a více podřízených uzlů. Hlavní uzel se skládá ze sledovače úloh, sledovače úloh, uzlu jmen a datového uzlu. Podřízený uzel nebo výpočetní uzel obsahuje datový uzel a sledovač úloh. Sledovač úloh přiřazuje map/reduce úkoly konkrétním uzlům v klastru, ideálně těm, které již obsahují data nebo alespoň ve stejném stojanu. Uzlu task-tracker přijímá map, snížit, a shuffle operace z job-tracker. Operace map/reduce je znázorněna na obrázku 3.

Obrázek 3

postup Hadoop map/zmenšení modelu.

HDFS je primární distribuční souborový systém používaný rámcem Hadoop. Každý vstupní soubor je rozdělen do datových bloků, které jsou distribuovány do datových uzlů. Hadoop také vytváří více replik datových bloků a distribuuje je do datových uzlů v celém clusteru, aby umožnil spolehlivé a extrémně rychlé výpočty. Název node slouží jako správce jmenného prostoru adresáře i správce metadat uzlu pro HDFS. Architektura HDFS obsahuje jeden uzel názvu.

jednou z žádoucích vlastností Hadoopu je jeho vysoká odolnost proti chybám. HDFS umožňuje, aby se data rozšířila na stovky nebo tisíce uzlů nebo strojů a úkoly jsou počítány na uzlech držících data. Hadoop replikuje data, takže pokud dojde ke ztrátě jedné repliky, existují záložní kopie. Když uzel selže během výpočtu, Hadoop restartuje zastavenou úlohu na jiném uzlu obsahujícím replikační data. V rámci Hadoop jsou poruchy uzlů detekovány pomocí mechanismu srdečního tepu, kterým jednotlivé uzly úloh (sledovače úloh) neustále komunikují se sledovačem úloh. Pokud sledovač úloh po určitou dobu nekomunikuje se sledovačem úloh, bude sledovač úloh předpokládat, že sledovač úloh havaroval . Sledovač úloh ví, které sledovače úloh (datové uzly) obsahují replikační data, a vydá úlohu restartu. V tomto článku byla navrhovaná cloudová služba implementována kombinací distribuce klastrů Hadoop s modelem správy. Na našem cloudovém serveru je odeslaná úloha vypočtena v datovém uzlu. Spíše než zpracování paralelních dat jsou úlohy samy o sobě paralelizovány. Proto jsou odeslaná data distribuována do datového uzlu pomocí HDFS, zatímco výpočetní proces je doručen do sledovače úloh a zkopírován s předloženými daty. Virtualizace je kritickou součástí prostředí cloud computingu. Fyzický výpočetní výkon je v podstatě nástroj, který si uživatelé mohou zakoupit podle potřeby. Obvyklým cílem virtualizace je zlepšit škálovatelnost a celkové využití hardwarových prostředků. Virtualizace umožňuje paralelní běh několika operačních systémů na jednom fyzickém počítači. Zatímco fyzické počítače v klasickém slova smyslu představuje úplné a skutečné stroje, virtuální stroj (VM) je zcela ojedinělý stroj, běh hostovaného operačního systému ve fyzickém počítači. Pro zajištění škálovatelnosti a efektivity fungují všechny komponenty—job tracker, task tracker, name node a data node—v naší cloudové službě jako virtuální stroje. Obrázek 4 ukazuje architekturu VM naší navrhované služby.

Obrázek 4

Cloud computing služby založené na virtualizační technologie.

2.3. Cloudová služba ORF fylogenetické analýzy

cloudová služba ORF fylogenetické analýzy byla vyvinuta na virtualizační platformě s rámcem Hadoop, jak je popsáno výše. Postup navrhované služby je znázorněn na obrázku 5. Master node (name node) a slave node (data node) jsou master VM a slave VM. Po odeslání požadavku na fylogenetickou analýzu se uloží do fronty úloh. Hlavní uzel periodicky extrahuje úlohy z fronty úloh a přiřazuje je slave uzlům (nebo mapperům), které úlohu provádějí. Po dokončení všech úloh reduktor shromažďuje výsledky a ukládá je do síťového úložiště souborů (NFS). Jediný výsledek srovnání fylogenetické úlohy je uložen v jednom souboru NFS. Jak je znázorněno na obrázku 5, datový uzel běžící ve VM2 provádí fylogenetickou analýzu a název uzel běží ve VM1. Reduktor, běžící, shromažďuje výsledky z datových uzlů provádějících fylogenetické analýzy. V této službě uživatel nahraje proteinové sekvence a odešle požadavek na fylogenetickou analýzu na webovém portálu. Všechny předložené úlohy analýzy jsou shromažďovány ve frontě úloh a sekvenční data jsou ukládána v různých hostitelích pomocí HDFS. Fylogenetické analýzy jsou přiřazeny datovým uzlům, které již obsahují sekvenční data. Výsledky analýzy jsou odeslány do datového uzlu i reduktoru, aby se vytvořil konečný výsledek uložený v NFS. Uživatel načte konečný výsledek po přihlášení na webové stránky. Služba je implementována následovně.

Obrázek 5

vývojový Diagram cloud-based ORF fylogenetická analýza služby.

Krok 1: podání úlohy. Uživatelé předkládají svou práci online prostřednictvím webového portálu navrhované cloudové služby. Uživatelé buď zadat srovnávací DNA / RNA sekvence na webovém portálu nebo nahrát soubor obsahující srovnávací RNA sekvence z webového portálu.

Krok 2: Překlad sekvence. Pro detekci oblastí ORF jsou všechny vstupní RNA sekvence přeloženy do proteinových sekvencí založených na genetickém kódu. Genetický kód je soubor pravidel, kterými se informace o sekvenci RNA překládají do proteinů. Každý kodon v sekvenci RNA obvykle představuje jednu aminokyselinu specifikovanou odpovídajícím genetickým kódem. Kód určuje aminokyselinu, která má být přidána další během syntézy bílkovin. Genetické kódy jsou uvedeny v tabulce 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Tento krok identifikuje funkční ORFs, připomeňme, že významné ORFs jsou vzácné. V naší službě může uživatel poskytnout délku ORF, kterou považuje za smysluplnou. Služba pak vyhledá významné ORFs. Příklad ORFs je znázorněn na obrázku 6. V tomto příkladu se první ORF (označený jako AB447445_1) rozprostírá od pozic 3 do 5099 v sekvenci AB447445. V tomto kroku jsou postaveny dva typy fylogenetických stromů, jeden používá celou délku sekvence a druhý pouze pomocí ORFs. Ze tří oblastí ORF identifikovaných v analýze jsou postaveny tři fylogenetické stromy ORF. Tyto stromy jsou zaznamenány ve formátu ph a poté jsou přeneseny a uloženy v portálu. Mezitím se vypočítá hodnota rozmanitosti každé pozice v sekvenci. Tyto hodnoty jsou uloženy v souboru.

Obrázek 6

příklad Orf detekován ORF finder.

Krok 4: nahlásit výsledek. V tomto kroku jsou stromy ve formátu ph nakresleny jako tři diagramy a zobrazeny na portálu. Uživatel sleduje tyto diagramy online nebo si je stáhne z webových stránek. Podobně se na webových stránkách objeví sloupcový graf agregátní rozmanitosti.

3. Experiment

navrhovaná cloudová služba pro analýzu virů byla provedena na čtyřech serverech IBM blade. Každý server byl vybaven dvěma čtyřjádrovými procesory Intel Xeon 2.26 GHz, 24 GB RAM a 296 GB pevným diskem běžícím pod operačním systémem Ubuntu verze 10.4 s 8 virtuálními stroji na každém serveru. Hadoop Verze 0.2 MapReduce platforma byla nainstalována na každém serveru. Jeden VM představoval Job tracker a name node; ostatní jsou sledovače úloh a datové uzly. Job tracker je také Portálem naší cloudové služby. Portál je znázorněn na obrázku 7.

Obrázek 7

Portál cloud-based ORF fylogenetická analýza služby.

naše současné cloudové prostředí umožňuje osm virtuálních strojů. Dva z těchto VM jsou název uzel a datový uzel běží reduktor; zbývajících šest jsou zodpovědné za provoz mapy. Pro experiment jsme náhodně vytvořili tři datové sady, z nichž každá obsahuje 20 sekvencí různých délek (300, 400 A 600 nukleotidů). Všechny sekvence v každém datovém souboru byly porovnány metodami fylogenetické analýzy. ClustalW a navrhovaná služba byly použity třikrát, pro simulaci tří fylogenetických analýz ORF.

doba výpočtu navrhované služby znázorněná na obrázku 8 je úměrná počtu mapovačů. Doba provádění je značně zkrácena, pokud se používá šest mapovačů, ve srovnání se dvěma mapovači. Obrázek 9 porovnává výkon mezi sekvenční fylogenetické analýzy metody jako ClustalW a navrhované služby s šesti mappers, pro různé sekvence délky. Je zřejmé, že navrhovaná služba v rámci Hadoop dosahuje lepšího výkonu než standardní sekvenční fylogenetická analýza.

Obrázek 8

čas Výpočtu cloud-based ORF fylogenetické analýzy s různým počtem mappers a sekvence délky.

Obrázek 9

Srovnání výpočetního času mezi sekvenční a cloud-based ORF fylogenetických analýz.

4. Případová studie

Norovirus (NoV) je celosvětově důležitým etiologickým činidlem akutní gastroenteritidy. Způsobuje průjem ve všech věkových kategoriích, zejména na Tchaj-wanu. NoV genom je jednovláknová, pozitivní smysl, polyadenylovaná RNA kódující tři otevřené čtecí rámce, ORF1, ORF2, a ORF3 . ORF1 kóduje dlouhý polypeptid, který se virovou proteinázou štěpí intracelulárně na šest proteinů . Tyto proteiny umožňují NoV replikovat se v hostitelských buňkách . ORF2 kóduje virový kapsidový protein, VN1, zatímco ORF3 kóduje VP2 protein, který je považován za menší strukturální součástí virových částic , zřejmě zodpovědný za vyjádření a stabilizaci VN1 . Stejně jako většina RNA virů je NoV geneticky a antigenně rozmanitý . Virus je předběžně rozdělen do pěti genogups a více než 25 genotypů, na základě podobností mezi sekvencemi ORF2 . Proto může být homologie tohoto typu viru identifikována z podobností ORF. Identifikace této homologie pomůže při návrhu virových léků a vakcín. Proto byl NoV vybrán jako případová studie v našich experimentech. Vybrali jsme patnáct NoV, které byly objeveny na Tchaj-wanu. Tyto Nov sekvence lze stáhnout z NCBI.

fylogenetické stromy vytvořené z celovečerních sekvencí a tří ORF jsou znázorněny na obrázku 10. Je zřejmé, že tyto stromy se od sebe liší. Strom vytvořený z celé délky sekvencí(obrázek 10 (a)) demonstruje evoluční vztah mezi viry. Nicméně, různé Orf výnos zřetelně různých stromů (Obr. 10(b)-10(d)), což naznačuje, že viry mohou kopírovat Orf z jiných virů a měnit jejich funkce integrovat je do své vlastní sekvence. Proto vytvořením evolučních vztahů pro každý ORF mohou virologové analyzovat nemoci způsobené specifickými ORF. Obrázek 11 ukazuje sloupcový graf rozmanitosti generovaný platformou. Poloha reziduí vysoké entropie je znázorněna na obrázku 12, který ukazuje čtyři fylogenetické stromy a sloupcový graf rozmanitosti. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) v plné délce, b) ORF1, c) ORF2 a d) ORF3.

Obrázek 11

Rozmanitost sloupcový graf pro každou pozici.

Obrázek 12

Příklad ukazuje vysoké entropie hodnoty v konkrétní pozice.

5. Závěr

Cloud computing je online poskytování výpočetních zdrojů, jako je hardware a software. Uživatelé mají přístup k cloudovým aplikacím prostřednictvím webového prohlížeče nebo prostřednictvím aplikací na mobilních zařízeních. Ačkoli mnoho bioinformatických nástrojů bylo vyvinuto jako webové aplikace, tyto jsou obvykle nasazeny na serveru, který má omezený výpočetní výkon. V současné době byly některé nástroje přepracovány jako distribuované výpočetní nástroje založené na rámci Hadoop. Tyto nástroje jsou snadno nasazeny na clusteru poskytovaném dodavatelem cloud computingu, jako je Amazon EC2. Nasazení již existujících nástrojů do cloudového prostředí je současným trendem bioinformatiky jako služby.

v tomto článku navrhujeme vysoce dostupnou službu fylogenetické analýzy založenou na cloudu založeném na klastru Hadoop využívajícím virtualizační technologii. Virtualizace umožňuje navrhované službě kopírovat velké množství úloh. Protože Hadoop je silně pufrovaný proti chybám, navrhované cloud service zaručuje, že předložené práci jsou získaná úkol přeřazení, zajištění vysoké dostupnosti cloud služeb. Naše případová studie prokázala, že naše služba může konstruovat různé fylogenetické stromy ze srovnání různých ORF. Tyto vztahy mohou významně pomoci biologům sledovat vývoj sekvencí v různých ORF. Navrhovaná služba může také pomoci výzkumům při vývoji nových léků proti patogenním virům.

střet zájmů

pro tento článek neexistují žádné konkurenční zájmy.

Potvrzení

Součástí této práce byla podporována Národní Vědecké Rady v rámci Grantů NSC-99-2632-E-126-001-MY3 a NSC-100-2221-E-126-007-MY3.



Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.