nyílt Olvasókeret filogenetikai elemzés a felhőn

absztrakt

a filogenetikai elemzés elengedhetetlenné vált a vírusok közötti evolúciós kapcsolatok kutatásában. Ezeket a kapcsolatokat filogenetikai fákon ábrázolják, amelyekben a vírusokat a szekvencia hasonlósága alapján csoportosítják. A vírusos evolúciós kapcsolatokat nyílt olvasási keretekből, nem pedig teljes szekvenciákból azonosítják. A közelmúltban a felhőalapú számítástechnika népszerűvé vált az internet alapú bioinformatikai eszközök fejlesztésében. A Biocloud egy hatékony, skálázható és robusztus bioinformatikai számítástechnikai szolgáltatás. Ebben a cikkben egy felhőalapú nyílt olvasókeret filogenetikai elemzési szolgáltatást javasolunk. A javasolt szolgáltatás integrálja a Hadoop keretrendszert, a virtualizációs technológiát és a filogenetikai elemzési módszereket, hogy magas rendelkezésre állású, nagyszabású bioszolgáltatást biztosítson. Egy esettanulmányban elemezzük a norovírus közötti filogenetikai kapcsolatokat. Az evolúciós kapcsolatokat a különböző nyitott olvasókeret-szekvenciák összehangolásával lehet tisztázni. A javasolt platform helyesen azonosítja a norovírus tagjai közötti evolúciós kapcsolatokat.

1. Bevezetés

az organizmuscsoportok közötti evolúciós kapcsolatok megértése egyre inkább függ a filogenetikai elemzéstől. A filogenikákat általában fa diagramokként mutatják be, filogenetikai fák néven ismert. Ezek a fák genetikai hasonlóságokból és a különböző szervezetek közötti különbségekből épülnek fel. Az összehasonlító szekvenciaelemzés hasznos módszer, amellyel azonosítani lehet a gént, következtetni lehet a gén termékének funkciójára, és azonosítani lehet az új funkcionális elemeket. Több szekvencia teljes hosszában történő összehasonlításával a kutatók konzervált maradványokat találhatnak, amelyeket valószínűleg a természetes szelekció tart fenn. Az ősi szekvenciák rekonstruálása felfedheti a mutációk időzítését és irányát. Ezek az összehasonlító elemzések a filogenetikai fa konstrukcióra támaszkodnak.

Az olvasási keret három egymást követő nukleotid egymást követő, nem átfedő hármasainak halmaza. A kodon egy hármas, amely egy aminosav vagy stop jelnek felel meg a transzláció során. An nyitott olvasókeret (ORF) az olvasókeret azon része, amely nem tartalmaz stop kodonokat. Fehérjét nem lehet előállítani, ha az RNS transzkripciója megszűnik a stop kodon elérése előtt. Ezért annak biztosítása érdekében, hogy a stop kodon a megfelelő helyzetben legyen lefordítva, a transzkripciós terminációs szünet helye az ORF után található. Az ORFs képes azonosítani a lefordított régiókat a DNS-szekvenciákban. A hosszú ORF-ek jelölik a jelölt fehérjét kódoló régiókat egy DNS-szekvenciában. Az ORF – eket különféle víruscsaládok osztályozására is felhasználták , beleértve a norovírus tagjait is . Az Open Reading Frame Finder (ORF Finder) egy grafikus elemző eszköz, amely nyitott olvasási kereteket keres a DNS-szekvenciákban. Az ORF Investigator program információt nyújt a kódoló és nem kódoló szekvenciákról, és elvégzi a különböző DNS-régiók páros összehangolását. Ez az eszköz hatékonyan azonosítja az ORF-eket, és átalakítja őket aminosav-kódokká, deklarálva a megfelelő pozícióikat a szekvenciában. A páros igazítás mutációkat is detektál, beleértve az egy nukleotid polimorfizmusokat a szekvenciák között. A StarORF megkönnyíti a DNS-szekvenciában kódolt fehérje(ek) azonosítását. Először a DNS-szekvenciát átírják RNS-be, és azonosítják az összes lehetséges ORF-et. Ezek az ORF-ek mind a hat fordítási kereten belül vannak kódolva (3 előre, 3 pedig hátra), így a felhasználók azonosíthatják a leghosszabb fehérje kódolási szekvenciát eredményező transzlációs keretet.

számos biológiai szervezet hajtott végre bioinformatikai eszközöket weboldalakon. A Nemzeti Biotechnológiai Információs Központ (NCBI) számos eszközt kínál az adatbázisban tárolt nukleotid-vagy fehérjeszekvenciák összehasonlításához, beleértve a jól ismert BLAST algoritmusokat is. Az NCBI számos adatbázist is biztosít, mint például a GenBank és az SNP, amelyekben a biológusok homológiát vagy specifikus funkciókat kereshetnek. Az Európai Molekuláris Biológiai Laboratórium (EMBL) szabadon hozzáférhető adatokat és online bioinformatikai eszközöket biztosít a tudományos közösség minden aspektusa számára. Ezek az adatok és eszközök nélkülözhetetlenek az orvosi és biológiai tanulmányokban. A legtöbb ilyen szolgáltatás az Interneten keresztül érhető el és online használható.

A Cloud computing egy nemrégiben kifejlesztett koncepció, amely számítógépes erőforrásokat, akár hardvert, akár szoftvert szállít az Interneten keresztül. A felhőalapú számítástechnika számos típusát javasolták, mint például az infrastruktúra mint szolgáltatás (IaaS), a platform mint szolgáltatás (PaaS), a szoftver mint szolgáltatás (SaaS), a hálózat mint szolgáltatás (NaaS) és a tárolás mint szolgáltatás (STaaS). Ezen szolgáltatások többsége virtualizációs technológiára támaszkodik-virtuális hardverplatformok, operációs rendszerek, tárolóeszközök és hálózati erőforrások létrehozására. A Cloud computing a felhasználóbarátság, a virtualizáció, az Internet-központú fókusz, az erőforrás-változatosság, az automatikus alkalmazkodás, a skálázhatóság, az erőforrás-optimalizálás, a használatonkénti fizetés, a szolgáltatási SLA-k (szolgáltatási szintű megállapodások) és az infrastrukturális SLA-k miatt üdvözlendő . Számos felhőalapú számítástechnikai gyártó ezeket az erőforrásokat igény szerint terjeszti az adatközpontokba telepített nagy erőforráskészletekből. Az Amazon EC2 infrastrukturális szolgáltatást nyújt, míg a Google App Engine és a Microsoft Azure Services platformja platformszolgáltatásokat. Az egyetemeken számos felhőalapú számítástechnikai projekt épül vagy teljesen működőképes .

a felhőalapú számítástechnika lényegében egy elosztó rendszer, amely lehetővé teszi a párhuzamos számítást. Hadoop egy nyílt forráskódú szoftver keretrendszer, amely támogatja az adatintenzív elosztott számítás. A Hadoop alatt az alkalmazások az árucikkek nagy csoportjain valósíthatók meg. A Hadoop fürt egyetlen master és több slave csomópontot tartalmaz. A fő csomópont feladatokat rendel a slave csomópontokhoz, amelyek elvégzik a hozzárendelt feladatokat. A Hadoop biztosítja a MapReduce programozási modellt a nagy adatkészletek párhuzamos feldolgozásához. A számítási feladat sok apró feladatra oszlik, amelyek mindegyike végrehajtható vagy újra végrehajtható a Hadoop fürt számítási csomópontján. A MapReduce egy elosztott fájlrendszert, a Hadoop elosztott fájlrendszert (HDFS) is biztosít, amely az adatokat számítási csomópontokon tárolja , lehetővé téve a fürtön belüli nagyon nagy összesített sávszélességet. Mind a map/reduce, mind az elosztott fájlrendszer robusztus a hibák ellen. Számos szekvenciaelemző eszközt fejlesztettek át a Hadoop architektúrán alapuló felhőeszközökké, mint például a CloudBlast és a CrossBow . Ezért a szokásos online eszközök portolhatók a felhő architektúrába. A már létező eszközök ilyen importálása képezi a bioinformatika mint szolgáltatás (BaaS) fő célját.

ebben a tanulmányban egy nagy rendelkezésre állású, nagyszabású ORF filogenetikai elemzési felhő szolgáltatást fejlesztünk ki, amely virtualizációs technológián és Hadoop-on alapul. Ez a szolgáltatás filogenetikai elemzéseket nyújt az ORFs-től Hadoop-klaszterek alapján több kérés támogatására. A felhőalapú számítástechnikai környezet lényege a virtualizáció. A fizikai számítási teljesítményt felhasználó által fizetett segédprogramnak tekintik, amelyet a felhasználók igény szerint kérhetnek. A segédprogram virtuális gépként is ismert. A Hadoop-fürt minden csomópontja virtuális gép. A felhasználók feltölthetik szekvenciaadataikat vagy fájljaikat a fő csomóponton (webportálon) keresztül, majd elküldhetnek egy munkát. A feladat a feltöltött adatokat tartalmazó slave csomóponthoz van hozzárendelve, és a slave csomópont befejezi a feladatot. Mivel az ORF összehasonlítások egyértelműen megállapították a norovírus homológiáját, itt esettanulmányként fogadjuk el a norovírust. Az eredmények azt mutatják, hogy a javasolt felhőalapú elemző eszköz a virtualizációs technológia és a Hadoop keretrendszer révén könnyen megkönnyítheti a BaaS-t. A javasolt felhőalapú ORF filogenetikai eszköz elérhető a http://bioinfo.cs.pu.edu.tw/CloudORF/címen.

2. Módszerek

ebben a tanulmányban egy felhőalapú ORF filogenetikai elemzési szolgáltatást javasolunk, amely ötvözi a Hadoop keretrendszert, a virtualizációs technológiát, a filogenetikai faeszközt és a sokszínűség elemzést. Mint korábban említettük, a felhőplatform virtualizációból és Hadoop keretrendszerből épül fel. A Hadoop-ot a virtualizációs technológia, például a Kernel-alapú virtuális gép (KVM) által létrehozott virtuális gépeken hajtják végre. A Hadoop a filogenetikai elemzést elosztott számítási módon végzi. Az alapul szolgáló architektúra biztosítja a javasolt felhőalapú szolgáltatás rugalmasságát, skálázhatóságát és elérhetőségét.

2.1. Filogenetikai elemzés

a javasolt felhőszolgáltatás integrálja az ORF keresési folyamatát, a filogenetikai faösszehúzódásokat és az ORF Sokszínűségi elemzését, hogy teljes filogenetikai elemzést készítsen. Az elemzés eljárását az alábbiakban ismertetjük és az 1. ábrán mutatjuk be.

1.ábra
a filogenetikai elemzési eljárás.

1.lépés: nyitott olvasási keretek észlelése. A funkcionális ORF-eket szekvenciákból nyerik ki. Bár sok ORF létezik fehérjeszekvenciában, a legtöbb jelentéktelen. Az ORF finder megkeresi az összes nyitott olvasási keretek egy meghatározott minimális méretű sorrendben. Ebben a tanulmányban elfogadták az NCBI tools webhelyén általánosan használt ORF keresőt. Ez az eszköz azonosítja az összes nyitott olvasási keretet a standard vagy alternatív genetikai kódok segítségével.

2. lépés: filogenetikai fa felépítése nyitott Olvasókeret alapján. A filogenetikai fa (vagy evolúciós fa) egy elágazó (fa) diagram, amely bemutatja a biológiai fajok vagy más entitások közötti következtetett evolúciós kapcsolatokat a fizikai és/vagy genetikai jellemzőik hasonlóságai és különbségei alapján. A fában csoportosuló taxonok feltehetően egy közös őstől származnak. A filogenetikai elemzés általában egész hosszúságú szekvenciákat igazít. A különböző ORF-ek azonban különböző filogenetikai fákat eredményezhetnek. A vírus ORF-igazításai felfedhetnek egy közös vírus őst vagy egy ORF-et, amely minden vírusra jellemző. Egy ilyen felfedezés nagyban segítené a vírusos gyógyszerek tervezését.

a filogenetikai fát a ClustalW segítségével számítjuk ki . Ez az algoritmus két filogenetikai fát épít; az egyik teljes szekvenciákon alapul, a másik csak ORF-ekre, ezáltal feltárva a két FA közötti varianciát.

3. lépés: sokszínűség elemzése a nyitott olvasási keretek között. A sokféleség általában a különböző identitások számát ábrázolja egy csoportban. Ezen a papíron, a sokféleség a fajok varianciáját mutatja be a fehérje szekvencia egy adott helyzetében. A pozíció kis sokféleségének értéke azt jelenti, hogy a fehérjeszekvenciák nagyon hasonlóak abban a helyzetben. Ezzel szemben a magas Sokszínűségi érték alacsony hasonlóságot jelent ebben a helyzetben. A nagy szórású keret azt is jelzi, hogy ez a keret könnyen mutálódik. Az ilyen nagy varianciájú keretek felhasználhatók a fehérje szerkezeti különbségeinek megfigyelésére és az oltóanyag fejlesztésének elősegítésére. Ezen a papíron, a sokféleséget az entrópia alapján számítják ki az alábbiak szerint: hol van az entrópia értéke és annak valószínűsége, hogy egy meghatározott aminosavat talál a helyzetben . A jelentős pozíció megtalálásához az entrópia értékeit egy bizonyos küszöbérték alatt kiszűrjük. Ebben a tanulmányban a küszöbértéket 1,4-re határozták meg.

2.2. Cloud Platform alapján Virtaulization és Hadoop Framework

a felhő platform javasolt filogenetikai elemző eszköz épül két fontos technológiák: virtualizáció és a Hadoop framework. A Hadoop egy nagyon skálázható és elérhető elosztott rendszer. A méretezhetőséget és a rendelkezésre állást a HDFS, egy öngyógyító elosztott tárolórendszer és a MapReduce, egy speciális hibatűrő elosztott feldolgozási algoritmus garantálja . A Hadoop klaszter architektúráját a 2. ábra mutatja.

2.ábra
a Hadoop klaszter architektúrája.

a Hadoop klaszter egyetlen master és több slave csomópontot alkot. A fő csomópont egy feladatkövetőből, feladatkövetőből, névcsomópontból és adatcsomópontból áll. A slave csomópont vagy számítástechnikai csomópont egy adatcsomópontot és egy feladatkövetőt tartalmaz. A feladatkövető hozzárendeli a leképezési / kicsinyítési feladatokat a fürt bizonyos csomópontjaihoz, ideális esetben azokhoz, amelyek már tartalmazzák az adatokat, vagy legalább ugyanabban a rackben. A feladatkövető csomópont elfogadja a feladatkövető leképezési, kicsinyítési és shuffle műveleteit. A térkép / csökkentés művelet a 3. ábrán látható.

3.ábra
a Hadoop térkép/csökkentő modell eljárása.

a HDFS a Hadoop keretrendszer által használt elsődleges terjesztési fájlrendszer. Minden bemeneti fájl adatblokkokra oszlik,amelyeket az adatcsomópontokra osztanak. A Hadoop az adatblokkok több másolatát is létrehozza, és elosztja azokat az adatcsomópontokba egy fürt alatt, hogy megbízható, rendkívül gyors számításokat lehessen végezni. A névcsomópont mind a könyvtár névtér-kezelőjeként, mind a csomópont metaadat-kezelőjeként szolgál a HDFS-hez. A HDFS architektúra egyetlen névcsomópontot tartalmaz.

a Hadoop egyik kívánatos jellemzője a magas hibatűrés. A HDFS lehetővé teszi, hogy az adatok több száz vagy ezer csomópontra vagy gépre terjedjenek, és a feladatokat adattartó csomópontokon számítják ki. A Hadoop replikálja az adatokat, így ha egy replika elveszik, biztonsági másolatok léteznek. Amikor egy csomópont meghibásodik a számítás során, a Hadoop újraindítja a leállított feladatot egy másik csomóponton, amely replikált adatokat tartalmaz. A Hadoop keretrendszerben a csomóponthibákat a szívverés mechanizmusával észlelik, amellyel az egyes feladatcsomópontok (feladatkövetők) folyamatosan kommunikálnak a feladatkövetővel. Ha egy feladatkövető egy ideig nem kommunikál a feladatkövetővel, a feladatkövető feltételezi, hogy a feladatkövető összeomlott . A feladatkövető tudja, hogy mely feladatkövetők (adatcsomópontok) tartalmaznak replikált adatokat, és újraindítási feladatot ad ki. Ebben a tanulmányban a javasolt felhőszolgáltatást a Hadoop klaszterelosztás kombinálásával hajtották végre egy kezelési modellel. Felhőszerverünkben a beküldött munkát egy adatcsomópontban számítják ki. A párhuzamos adatok feldolgozása helyett maguk a munkahelyek párhuzamosak. Ezért a beküldött adatokat a HDFS egy adatcsomópontra osztja, míg a számítási folyamat a feladatkövetőbe kerül, és a beküldött adatokkal együtt másolja. A virtualizáció a felhőalapú számítástechnikai környezet kritikus eleme. A fizikai számítási teljesítmény lényegében olyan segédprogram, amelyet a felhasználók szükség szerint megvásárolhatnak. A virtualizáció szokásos célja a skálázhatóság és az általános hardver-erőforrás-kihasználtság javítása. A virtualizáció lehetővé teszi több operációs rendszer párhuzamos futtatását egyetlen fizikai számítógépen. Míg a klasszikus értelemben vett fizikai számítógép teljes és tényleges gépet alkot, a virtuális gép (VM) egy teljesen elszigetelt gép, amely vendég operációs rendszert futtat a fizikai számítógépen belül. A skálázhatóság és a hatékonyság biztosítása érdekében felhőszolgáltatásunkban minden összetevő—job tracker, task tracker, name node és data node—virtuális gépként működik. A 4. ábra a javasolt szolgáltatás virtuális gép architektúráját mutatja be.

4.ábra
virtualizációs technológián alapuló felhőalapú számítástechnikai szolgáltatás.

2.3. Felhőalapú ORF filogenetikai elemző szolgáltatás

felhőalapú ORF filogenetikai elemző szolgáltatást virtualizációs platformon fejlesztették ki a Hadoop keretrendszerrel a fent leírtak szerint. A javasolt szolgáltatás eljárását az 5. ábra mutatja. A master node (név node) és a slave node (adatcsomópont) a master VM és a slave VM. Filogenetikai elemzési kérelem benyújtásakor a rendszer egy feladatsorba menti. A fő csomópont rendszeresen kivonja a feladatokat a feladatsorból, és hozzárendeli azokat a rabszolga csomópontokhoz (vagy leképezőkhöz), amelyek elvégzik a feladatot. Az összes feladat befejezésekor a reduktor összegyűjti az eredményeket, és elmenti azokat a hálózati fájlrendszer-tárolóba (NFS). A filogenetikai feladat egyetlen összehasonlítási eredménye az NFS egyetlen fájljába kerül. Amint az 5. ábrán látható, a VM2-ben futó adatcsomópont filogenetikai elemzést végez, a VM1-ben pedig egy névcsomópont fut. A reduktor, amely befut , összegyűjti a filogenetikai elemzéseket végrehajtó adatcsomópontok eredményeit. Ebben a szolgáltatásban a felhasználó fehérjeszekvenciákat tölt fel, és filogenetikai elemzési kérelmet nyújt be a weboldal portáljára. Az összes beküldött elemzési feladat a feladatsorba kerül, a sorrendadatokat pedig a HDFS különböző gazdagépekben tárolja. A filogenetikai elemzéseket a már szekvenciaadatokat tartalmazó adatcsomópontokhoz rendelik. Az elemzési eredményeket mind az adatcsomópontnak, mind a reduktornak elküldjük az NFS-ben tárolt végeredmény előállításához. A felhasználó a végeredményt a weboldalra való bejelentkezéssel szerzi be. A szolgáltatás a következőképpen valósul meg.

5.ábra
a felhőalapú ORF filogenetikai elemző szolgáltatás folyamatábra.

1.lépés: feladat benyújtása. A felhasználók online nyújtják be munkájukat a javasolt felhőszolgáltatás internetes portálján keresztül. A felhasználók vagy beírják az összehasonlító DNS / RNS szekvenciákat a webportálon, vagy feltöltenek egy fájlt, amely összehasonlító RNS szekvenciákat tartalmaz egy webportálról.

2. lépés: szekvencia fordítás. Az ORF régiók kimutatására az összes bemeneti RNS szekvenciát a genetikai kód alapján fehérjeszekvenciákká alakítják. A genetikai kód az a szabálykészlet, amellyel az RNS szekvencia információ fehérjékké alakul. Az RNS-szekvencia minden kodonja általában egyetlen aminosavat képvisel, amelyet a megfelelő genetikai kód határoz meg. A kód meghatározza a fehérjeszintézis során legközelebb hozzáadandó aminosavat. A genetikai kódokat az 1. táblázat tartalmazza.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Ez a lépés azonosítja a funkcionális ORF-eket, emlékeztetve arra, hogy a jelentős ORF-ek ritkák. Szolgáltatásunkban a felhasználó megadhatja az általa értelmesnek tartott ORF hosszát. A szolgáltatás ezután megkeresi a jelentős ORF-eket. Az ORF-ekre példa látható a 6. ábrán. Ebben a példában az első ORF (ab447445_1 jelöléssel) az AB447445 szekvencia 3-tól 5099-ig terjed. Ebben a lépésben kétféle filogenetikai fát építenek, az egyik a teljes szekvencia hosszát használja, a másik csak ORF-eket használ. Az elemzésben azonosított három ORF régióból három ORF filogenetikai fát építenek. Ezeket a fákat ph formátumban rögzítik, majd átviszik és tárolják a portálon. Eközben kiszámítják a szekvencia egyes pozícióinak Sokszínűségi értékét. Ezeket az értékeket egy fájlba menti.

6.ábra
példa az ORF kereső által észlelt ORF-ekre.

4.lépés: eredmény jelentése. Ebben a lépésben a ph formátumú fákat három diagramként rajzolják meg, és megjelennek a portálon. A felhasználó online figyeli ezeket a diagramokat, vagy letölti azokat a webhelyről. Hasonlóképpen, az összesített sokféleség oszlopdiagramja megjelenik a weboldalon.

3. Kísérlet

a víruselemzéshez javasolt felhőszolgáltatást négy IBM blade szerveren hajtották végre. Minden szerver két négymagos Intel Xeon 2,26 GHz-es CPU-val, 24 GB RAM-mal és 296 GB-os merevlemezzel volt felszerelve, amelyek az Ubuntu operációs rendszer 10.4-es verziója alatt futottak, mindegyik szerveren 8 virtuális gép volt. Hadoop Verzió 0.2 MapReduce platform volt telepítve minden szerveren. Az egyik virtuális gép a job tracker és a name csomópontot alkotta; a többi feladatkövető és adatcsomópont. A job tracker a felhőszolgáltatásunk portálja is. A portál a 7. ábrán látható.

7.ábra
felhőalapú ORF filogenetikai elemző szolgáltatás portálja.

jelenlegi felhőkörnyezetünk nyolc virtuális gépet tesz lehetővé. Ezek közül kettő a reduktort futtató name node és data node; a fennmaradó hat felelős a térkép működéséért. A kísérlethez véletlenszerűen három adatkészletet állítottunk elő, amelyek mindegyike 20 különböző hosszúságú szekvenciát tartalmaz (300, 400 és 600 nukleotid). Az egyes adatkészletek összes szekvenciáját filogenetikai elemzési módszerekkel hasonlítottuk össze. A ClustalW-t és a javasolt szolgáltatást háromszor alkalmazták, három ORF filogenetikai elemzés szimulálására.

a 8.ábrán bemutatott javasolt szolgáltatás számítási ideje arányos a leképezők számával. A végrehajtási idő jelentősen csökken, ha hat leképezőt használnak, két leképezőhöz képest. A 9. ábra összehasonlítja a szekvenciális filogenetikai elemzési módszerek, például a ClustalW és a javasolt szolgáltatás teljesítményét hat leképezővel, különböző szekvenciahossz esetén. Nyilvánvaló, hogy a Hadoop keretrendszerben javasolt szolgáltatás jobb teljesítményt ér el, mint a szokásos szekvenciális filogenetikai elemzés.

8.ábra
a felhőalapú ORF filogenetikai elemzés számítási ideje különböző számú leképezővel és szekvencia hosszúsággal.

9.ábra
a számítási idő összehasonlítása szekvenciális és felhőalapú ORF filogenetikai elemzések között.

4. Esettanulmány

a norovírus (NoV) az akut gastroenteritis fontos etiológiai szere világszerte. Minden életkorban hasmenést okoz, különösen Tajvanon. A NoV Genom egyszálú, pozitív érzékű, poliadenilált RNS, amely három nyitott olvasókeretet kódol, ORF1, ORF2 és ORF3 . Az ORF1 egy hosszú polipeptidet kódol, amelyet a vírus proteináz intracellulárisan hat fehérjévé hasít . Ezek a fehérjék lehetővé teszik a Nov szaporodását a gazdasejtekben . Az ORF2 egy víruskapszid fehérjét, a VP1-et kódol, míg az ORF3 egy VP2-fehérjét kódol , amelyet a vírusrészecskék kisebb szerkezeti összetevőjének tekintenek, nyilvánvalóan felelős a VP1 expressziójáért és stabilizálásáért . Az RNS-vírusok többségéhez hasonlóan a NoV genetikailag és antigénileg is változatos . A vírus kísérleti jelleggel öt genocsoportra és több mint 25 genotípusra oszlik, az ORF2 szekvenciák közötti hasonlóságok alapján . Ezért az ilyen típusú vírus homológiáját az ORF hasonlóságai alapján lehet azonosítani. Ennek a homológiának az azonosítása segít a vírusgyógyszerek és vakcinák tervezésében. Ezért a Novot esettanulmányként választották ki kísérleteink során. Tizenöt Novembert választottunk ki, amelyeket Tajvanon fedeztek fel. Ezek a Nov szekvenciák letölthetők az NCBI – ből.

a teljes hosszúságú szekvenciákból és három ORF-ből felépített filogenetikai fákat a 10.ábra mutatja. Nyilvánvaló, hogy ezek a fák különböznek egymástól. A teljes hosszúságú szekvenciákból felépített fa (10(A) ábra) evolúciós kapcsolatot mutat a vírusok között. A különböző ORF-ek azonban határozottan különböző fákat hoznak létre(10(b)-10 (d) ábra), ami arra utal, hogy a vírusok másolhatják az ORF-eket más vírusokból, és megváltoztathatják funkciójukat azáltal, hogy integrálják őket a saját szekvenciáikba. Ezért az egyes ORF-ek evolúciós kapcsolatainak kialakításával a virológusok elemezhetik a specifikus ORF-ek által okozott betegségeket. A 11. ábra a platform által generált Sokszínűségi oszlopdiagramot mutatja. A magas entrópia maradékhelyzetét a 12. ábra mutatja, amely négy filogenetikai fát és a Sokszínűségi oszlopdiagramot mutatja. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) teljes hossz, b) ORF1, c) ORF2 és D) ORF3.

11.ábra
Sokszínűségi oszlopdiagram minden pozícióhoz.

12.ábra
példa a magas entrópia érték bemutatására az adott pozíciókban.

5. Következtetés

a felhőalapú számítástechnika számítási erőforrások, például hardver és szoftver online szolgáltatása. A felhasználók a felhőalapú alkalmazásokat webböngészőn vagy mobileszközökön keresztül érhetik el. Bár számos bioinformatikai eszközt fejlesztettek ki webes alkalmazásként, ezeket általában egy szerveren telepítik, amelynek korlátozott számítási teljesítménye van. Jelenleg néhány eszközt a Hadoop keretrendszeren alapuló elosztott számítástechnikai eszközként fejlesztettek ki. Ezeket az eszközöket könnyen telepíthetik egy felhőalapú számítástechnikai gyártó, például az Amazon EC2 által biztosított klaszterre. A már létező eszközök felhőkörnyezetbe történő telepítése a bioinformatika mint szolgáltatás jelenlegi trendje.

ebben a cikkben egy nagy léptékű, elérhető felhőalapú nyílt olvasókeret filogenetikai elemzési szolgáltatást javasolunk, amely egy virtualizációs technológiát használó Hadoop klaszteren alapul. A virtualizáció lehetővé teszi a javasolt szolgáltatás számára, hogy nagy mennyiségű munkát másoljon. Mivel a Hadoop erősen pufferelt a hibák ellen, a javasolt felhőszolgáltatás garantálja, hogy a beküldött munkákat feladat-áthelyezéssel helyreállítják, biztosítva a magas rendelkezésre állású felhőszolgáltatást. Esettanulmányunk kimutatta, hogy szolgáltatásunk különböző filogenetikai fákat képes felépíteni a különböző ORF-ek összehasonlításából. Ezek a kapcsolatok jelentősen segíthetik a biológusokat a szekvencia evolúcióinak megfigyelésében a különböző ORF-ekben. A javasolt szolgáltatás segíthet a kórokozó vírusok elleni új gyógyszerek kifejlesztésében is.

összeférhetetlenség

nincs versengő érdekek ezt a papírt.

elismerés

e munka egy részét a Nemzeti Tudományos Tanács támogatta az NSC támogatások keretében-99-2632-E-126-001-MY3 és NSC-100-2221-E-126-007-MY3.



Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.