avoin lukukehys fylogeneettinen analyysi pilvestä

Abstrakti

fylogeneettinen analyysi on tullut välttämättömäksi virusten välisten evolutiivisten suhteiden tutkimisessa. Näitä suhteita kuvataan fylogeneettisillä puilla, joissa virukset ryhmitellään sekvenssien samankaltaisuuden perusteella. Virusten evolutiiviset suhteet tunnistetaan avoimista lukukehyksistä eikä täydellisistä sekvensseistä. Viime aikoina pilvipalveluista on tullut suosittuja internet-pohjaisten bioinformatiikan työkalujen kehittämisessä. Biocloud on tehokas, skaalautuva ja kestävä bioinformatiikan laskentapalvelu. Ehdotamme tässä paperissa pilvipohjaista avointa lukukehystä fylogeneettiseen analyysipalveluun. Ehdotetussa palvelussa yhdistyvät Hadoop-puitteet, virtualisointitekniikka ja fylogeneettiset analyysimenetelmät korkean käytettävyyden ja suuren mittakaavan biopalvelun tarjoamiseksi. Tapaustutkimuksessa analysoimme noroviruksen fylogeneettisiä suhteita. Evolutiivisia suhteita selvitetään kohdistamalla erilaisia avoimia lukukehyssekvenssejä. Ehdotettu alusta tunnistaa oikein noroviruksen jäsenten väliset evolutiiviset suhteet.

1. Johdanto

Eliöryhmien välisten evolutiivisten suhteiden ymmärtäminen on tullut yhä riippuvaisemmaksi fylogeneettisestä analyysistä. Fylogeniat esitetään yleensä puudiagrammeina, joita kutsutaan fylogeneettisiksi puiksi. Nämä puut rakentuvat geneettisistä samankaltaisuuksista ja eroista eri eliöiden välillä. Vertaileva sekvenssianalyysi on hyödyllinen menetelmä, jolla voidaan tunnistaa geeni, päätellä geenin tuotteen toiminta ja tunnistaa uusia toiminnallisia elementtejä. Vertaamalla useita sekvenssejä niiden koko pituudelta tutkijat voivat löytää säilyneitä jäämiä, jotka todennäköisesti säilyvät luonnonvalinnan avulla. Esi-isien sekvenssien rekonstruointi voi paljastaa mutaatioiden ajoituksen ja suunnan. Nämä vertailevat analyysit perustuvat fylogeneettiseen puurakenteeseen.

lukukehys on kolmen peräkkäisen nukleotidin peräkkäisten, ei-kertaisten kolmosten joukko. Kodoni on translaation aikana aminohappoa tai pysäytyssignaalia vastaava tripletti. Avoin lukukehys (ORF) on lukukehyksen osa, jossa ei ole pysäytyskodoneja. Proteiinia ei voi valmistaa, jos RNA-transkriptio lakkaa ennen pysäyttävän kodonin saavuttamista. Siksi sen varmistamiseksi, että stop-kodoni käännetään oikeaan asentoon, transkription päättymispaussin sivusto sijaitsee ORF: n jälkeen. Orfit voivat tunnistaa käännettyjä alueita DNA-sekvensseissä. Pitkät ORF: t osoittavat kandidaatin proteiineja koodaavia alueita DNA-sekvenssissä. ORF: ää on myös käytetty luokittelemaan erilaisia virussukuja , muun muassa noroviruksen jäseniä . Open Reading Frame Finder (ORF Finder) on graafinen analyysityökalu, joka etsii avoimia lukukehyksiä DNA-sekvensseistä. ORF-Tutkijaohjelma tarjoaa tietoa koodaus-ja koodaamattomista sekvensseistä ja suorittaa eri DNA-alueiden pairwise-linjauksen. Tämä työkalu tunnistaa tehokkaasti ORF: t ja muuntaa ne aminohappokoodeiksi ilmoittaen niiden sijainnit järjestyksessä. Pairwise-linjaus havaitsee myös mutaatioita, mukaan lukien sekvenssien väliset yksinukleotidipolymorfismit. StarORF helpottaa DNA-sekvenssiin koodattujen proteiinien tunnistamista. Ensin DNA-sekvenssi transkriboidaan RNA: ksi, ja kaikki mahdolliset ORF: t tunnistetaan. Nämä ORF on koodattu kunkin kuuden käännös kehyksiä (3 eteenpäin ja 3 päinvastaiseen suuntaan), jotta käyttäjät voivat tunnistaa käännös runko tuottaa pisin proteiinin koodaus sekvenssi.

useat biologiset järjestöt ovat ottaneet käyttöön bioinformatiikan työkaluja verkkosivustoilla. National Center for Biotechnology Information (NCBI) tarjoaa monia työkaluja tietokantaan tallennettujen nukleotidi-tai proteiinisekvenssien vertailuun, mukaan lukien tunnetut BLASTIALGORITMIT. NCBI tarjoaa myös useita tietokantoja, kuten Genbankin ja SNP: n, joista biologit voivat etsiä homologiaa tai tiettyjä tehtäviä. Euroopan molekyylibiologian laboratorio EMBL (European Molecular Biology Laboratory) tarjoaa vapaasti saatavilla olevaa tietoa ja bioinformatiikan työkaluja tiedeyhteisön kaikille osapuolille. Nämä tiedot ja työkalut ovat välttämättömiä lääketieteen ja biologian tutkimuksissa. Useimpia näistä palveluista käytetään Internetin kautta ja hyödynnetään verkossa.

pilvilaskenta on hiljattain kehitetty konsepti, joka tarjoaa tietokoneresursseja, joko laitteistoja tai ohjelmistoja, Internetin välityksellä. Pilvipalveluja on ehdotettu monenlaisiksi, kuten infrastructure as a service (IaaS), platform as a service (PaaS), software as a service (SaaS), network as a service (NaaS) ja storage as a service (staas). Useimmat näistä palveluista perustuvat virtualisointitekniikkaan-virtuaalisten laitteistoalustojen, käyttöjärjestelmien, tallennuslaitteiden ja verkkoresurssien luomiseen. Cloud computing on tervetullut sen käyttäjäystävällisyys, virtualisointi, Internet-keskeinen painopiste, resurssivalikoima, automaattinen Mukauttaminen, skaalautuvuus, resurssien optimointi, pay-per-use, service SLAs (palvelutason sopimukset), ja infrastruktuuri SLAs . Monet pilvipalvelujen toimittajat jakavat näitä resursseja pyynnöstä suurista resurssipooleista, jotka on asennettu datakeskuksiin. Amazon EC2 tarjoaa infrastruktuuripalvelun, kun taas Google App Engine ja Microsoftin Azure Services Platform tarjoavat alustapalveluja. Akatemiassa on rakenteilla tai täysin toiminnassa lukuisia pilvilaskentaprojekteja .

pilvilaskenta on pohjimmiltaan jakelujärjestelmä, joka mahdollistaa rinnakkaislaskennan. Hadoop on avoimen lähdekoodin ohjelmistokehys, joka tukee dataintensiivistä hajautettua laskentaa. Hadoopissa sovelluksia voidaan toteuttaa laajoilla tavaratietokoneiden klustereilla. Hadoop-rykelmään kuuluu yksi isäntä ja useita orjasolmuja. Pääsolmu määrää työt orjasolmuille,jotka suorittavat annetut tehtävät. Hadoop tarjoaa MapReduce-ohjelmointimallin suurten tietojoukkojen rinnakkaiseen käsittelyyn. Laskennallinen tehtävä on jaettu moniin pieniin tehtäviin, joista jokainen voidaan suorittaa tai suorittaa uudelleen laskusolmussa Hadoop-klusterissa. MapReduce tarjoaa myös hajautetun tiedostojärjestelmän, Hadoop Distributed File System (HDFS), joka tallentaa tiedot laskusolmuihin mahdollistaen erittäin suuren yhteenlasketun kaistanleveyden koko klusterissa. Sekä map / reduce että hajautettu tiedostojärjestelmä ovat kestäviä vikojen varalta. Useita sekvenssianalyysityökaluja on uudistettu Hadoop-arkkitehtuuriin perustuviksi pilvityökaluiksi, kuten CloudBlast ja CrossBow . Siksi tavalliset verkkotyökalut voidaan siirtää pilviarkkitehtuuriin. Tällainen olemassa olevien työkalujen maahantuonti on bioinformatiikka palveluna (BaaS) – hankkeen päätavoite.

tässä paperissa kehitämme virtualisointiteknologiaan ja Hadoopiin perustuvan korkean käytettävyyden, laajamittaisen ORF-fylogeneettisen analyysin pilvipalvelun. Tämä palvelu tarjoaa Hadoop-klustereihin perustuvia ORF: n fylogeneettisiä analyysejä useiden pyyntöjen tueksi. Pilvipalveluympäristön ydin on virtualisointi. Fyysistä laskentatehoa pidetään käyttäjä maksaa-apuohjelmana, jota käyttäjät voivat pyytää halutulla tavalla. Apuohjelma tunnetaan myös virtuaalikoneena. Jokainen Hadoop-klusterin solmu on virtuaalikone. Käyttäjät voivat ladata sekvenssitietonsa tai tiedostonsa pääsolmun (web-portaali) kautta ja sitten lähettää työn. Työ annetaan ladatun datan sisältävälle orjasolmulle,ja orjasolmu täydentää työn. Koska ORF-vertailut ovat yksiselitteisesti vahvistaneet noroviruksen homologian, hyväksymme tässä noroviruksen tapaustutkimuksena. Tulokset osoittavat, että ehdotettu pilvipohjainen analyysityökalu virtualisointiteknologian ja Hadoop-kehyksen ansiosta voi helposti helpottaa BaaS-järjestelmää. Ehdotettu pilvipohjainen ORF-fylogeneettinen työkalu löytyy osoitteesta http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Menetelmät

tässä artikkelissa ehdotamme pilvipohjaista ORF-fylogeneettistä analyysipalvelua, jossa yhdistyvät Hadoop-viitekehys, virtualisointitekniikka, fylogeneettinen puutyökalu ja diversiteettianalyysi. Kuten aiemmin mainittiin, pilvialusta on rakennettu virtualisoinnista ja Hadoop-kehyksestä. Hadoop suoritetaan virtualisointitekniikalla, kuten Kernel-based Virtual Machine (KVM), luoduilla VMS-laitteilla. Hadoop suorittaa fylogeneettisen analyysin hajautetulla laskentatavalla. Taustalla oleva arkkitehtuuri takaa ehdotetun pilvipohjaisen palvelun joustavuuden, skaalautuvuuden ja käytettävyyden.

2, 1. Fylogeneettinen analyysi

ehdotettu pilvipalvelu yhdistää ORF: n löytöprosessin, fylogeneettisen puun supistumisen ja ORF: n monimuotoisuusanalyysin täydellisen fylogeneettisen analyysin aikaansaamiseksi. Analyysimenetelmä esitetään jäljempänä ja esitetään kuvassa 1.

Kuva 1
fylogeneettinen analyysimenetelmä.

Vaihe 1: avointen Lukukehysten havaitseminen. Funktionaaliset ORF: t uutetaan sekvensseistä. Vaikka monet Orfit esiintyvät proteiinisarjassa, useimmat ovat merkityksettömiä. ORF finder paikantaa kaikki tietyn vähimmäiskoon avoimet lukukehykset järjestyksessä. Tässä tutkimuksessa otettiin käyttöön NCBI tools-Sivustolla yleisesti käytetty ORF Finder. Tämä työkalu tunnistaa kaikki avoimet lukukehykset käyttämällä standardia tai vaihtoehtoisia geneettisiä koodeja.

Vaihe 2: fylogeneettisen puun rakentaminen avoimien Lukukehysten pohjalta. Fylogeneettinen puu (tai evoluutiopuu) on haarautuva (puu) kaavio, jossa esitetään biologisten lajien tai muiden entiteettien päätellyt evolutionaariset suhteet, jotka perustuvat samankaltaisuuksiin ja eroihin niiden fyysisissä ja/tai geneettisissä ominaisuuksissa. Puussa yhteen ryhmittyneet taksonit polveutuvat oletettavasti yhteisestä esi-isästä. Fylogeneettinen analyysi kohdistaa yleensä kokopitkät sekvenssit. Eri Orfit saattavat kuitenkin tuottaa erilaisia fylogeneettisiä puita. Viruksen ORF-linjaukset saattavat paljastaa kaikille viruksille yhteisen kantamuodon tai kaikille viruksille yhteisen ORF-kannan. Tällainen löytö auttaisi suuresti viruslääkkeiden suunnittelua.

fylogeneettinen puu lasketaan Klustalwilla . Tämä algoritmi rakentaa kaksi fylogeneettistä puuta; toinen perustuu täysiin sekvensseihin ja toinen vain Orfeille, mikä paljastaa näiden kahden puun välisen varianssin.

Vaihe 3: Diversiteettianalyysi avointen Lukukehysten joukossa. Erilaisuus kuvaa yleensä eri identiteettien määrää ryhmässä. Tässä asiakirjassa monimuotoisuus osoittaa lajien varianssi tietyssä paikassa proteiinin sekvenssi. Pieni diversiteettiarvo positiossa tarkoittaa, että proteiinisekvenssit ovat hyvin samankaltaisia kyseisessä asennossa. Sen sijaan suuri moninaisuusarvo merkitsee vähäistä samankaltaisuutta kyseisessä asemassa. Kehys, jossa on suuri varianssi, osoittaa myös, että tämä kehys mutatoituu helposti. Tällaisia suuren varianssin kehyksiä voidaan käyttää proteiinien rakenteellisten erojen havainnointiin ja rokotteen kehittämisen tukemiseen. Tässä asiakirjassa diversiteetti lasketaan entropiasta seuraavasti: missä on arvo entropia ja on todennäköisyys löytää tietyn aminohapon asemassa . Merkittävän sijainnin löytämiseksi tietyn kynnysarvon alittavat entropia-arvot suodatetaan pois. Tässä tutkimuksessa kynnykseksi asetettiin 1,4.

2, 2. Virtaulisointiin ja Hadoop-kehykseen

perustuva pilvialusta ehdotetulle fylogeneettiselle analyysityökalulle on rakennettu kahdelle tärkeälle teknologialle: virtualisoinnille ja Hadoop-kehykselle. Hadoop on erittäin skaalautuva ja saatavilla oleva hajautettu järjestelmä. Skaalautuvuuden ja käytettävyyden takaavat HDFS, itsestään paraneva hajautettu tallennusjärjestelmä ja MapReduce, erityinen vikasietoinen hajautettu käsittelyalgoritmi . Hadoop-klusterin arkkitehtuuri on esitetty kuvassa 2.

kuva 2
Hadoop-klusterin arkkitehtuuri.

Hadoop-klusiili muodostaa yhden isännän ja useamman orjan solmukohdan. Pääsolmu koostuu työnseurannasta, tehtävänseurannasta, nimisolmusta ja datasolmusta. Orjasolmu eli tietokonesolmu koostuu datasolmusta ja tehtäväseurannasta. Job tracker määrittää map / reduct-tehtävät tiettyihin klusterin solmuihin, ihanteellisesti niihin, jotka jo sisältävät tiedot tai ainakin saman telineen sisällä. Tehtäväseurantasolmu hyväksyy job-Trackerin kartta -, vähennä-ja sekoitustoiminnot. Kartta / vähennysoperaatio esitetään kuvassa 3.

kuva 3
Hadoop map / reduce-mallin menettely.

HDFS on Hadoop-kehyksen käyttämä ensisijainen jakelutiedostojärjestelmä. Jokainen syötetiedosto jaetaan datalohkoihin, jotka jaetaan datasolmuihin. Hadoop myös luo useita kopioita datalohkojen ja jakaa ne tiedot solmut koko klusterin mahdollistaa luotettava, erittäin nopea laskelmia. Node-nimi toimii sekä HDFS: n hakemiston nimiavaruuden hallintana että node metadatan hallintana. HDFS-arkkitehtuuri sisältää yhden nimen solmun.

Hadoopin yksi toivottava ominaisuus on sen korkea vikasietoisuus. HDFS: n avulla data voi levitä satoihin tai tuhansiin solmuihin tai koneisiin, ja tehtävät lasketaan dataa hallussaan pitäville solmuille. Hadoop kopioi tiedot niin, että jos yksi replica katoaa, varmuuskopiot ovat olemassa. Kun solmu epäonnistuu laskennan aikana, Hadoop käynnistää keskeytetyn tehtävän uudelleen toiseen solmuun, joka sisältää toisintoa. Hadoop-kehyksessä solmuviat havaitaan heartbeat-mekanismilla, jonka avulla yksittäiset tehtäväsolmut (task trackers) kommunikoivat jatkuvasti job Trackerin kanssa. Jos tehtäväseuranta ei kommunikoi job Trackerin kanssa jonkin aikaa, job tracker olettaa, että tehtäväseuranta on kaatunut . Job tracker tietää, mitkä tehtäväjäljittimet (datasolmut) sisältävät monistettuja tietoja, ja se käynnistää tehtävän uudelleen. Tässä paperissa ehdotettu pilvipalvelu toteutettiin yhdistämällä Hadoop-klusterijakelu johtamismalliin. Pilvipalvelimessamme lähetetty työ lasketaan datasolmuun. Rinnakkaisten tietojen käsittelyn sijaan työpaikat itsessään ovat rinnakkaisia. Siksi HDFS jakaa lähetetyt tiedot datasolmuun, kun taas laskentaprosessi toimitetaan tehtäväseurantaan ja kopioidaan lähetettyjen tietojen kanssa. Virtualisointi on kriittinen osa pilvipalveluympäristöä. Fyysinen laskentateho on pohjimmiltaan apuohjelma, jonka käyttäjät voivat ostaa tarpeen mukaan. Tavallinen virtualisoinnin tavoite on skaalautuvuuden ja laitteistoresurssien yleisen hyödyntämisen parantaminen. Virtualisointi mahdollistaa useiden käyttöjärjestelmien rinnakkaisen ajamisen yhdellä fyysisellä tietokoneella. Siinä missä fyysinen tietokone klassisessa merkityksessä muodostaa täydellisen ja todellisen koneen, virtuaalikone (VM) on täysin eristetty kone, joka käyttää vieraskäyttöjärjestelmää fyysisen tietokoneen sisällä. Skaalautuvuuden ja tehokkuuden varmistamiseksi pilvipalvelumme kaikki komponentit—job tracker, task tracker, name node ja data node—toimivat virtuaalikoneina. Kuvassa 4 esitetään ehdotetun palvelumme VM-arkkitehtuuri.

Kuva 4
Virtualisointiteknologiaan perustuva Pilvilaskentapalvelu.
2, 3. Pilvipohjainen ORF-fylogeneettinen analysointipalvelu

pilvipohjainen ORF-fylogeneettinen analysointipalvelu kehitettiin virtualisointialustalle Hadoop-kehyksellä edellä kuvatulla tavalla. Ehdotetun palvelun menettely esitetään kuvassa 5. Pääsolmu (nimi node) ja slave node (datasolmupiste) ovat vastaavasti master VM ja slave VM. Kun fylogeneettinen analyysipyyntö lähetetään, se tallennetaan työjonoon. Pääsolmu poimii ajoittain työt työjonosta ja määrää ne orjasolmuihin (tai kartoittajiin), jotka suorittavat tehtävän. Kun kaikki työt on tehty, vähennyslaite kerää tulokset ja tallentaa ne Network File System storageen (NFS). Yksi fylogeneettisen työn vertailutulos tallennetaan yhteen NFS-tiedostoon. Kuten kuvassa 5 osoitetaan, VM2: ssa toimiva datasolmu suorittaa fylogeneettisen analyysin ja VM1: ssä toimii nimisolmu. Pelkistin , käynnissä, kokoaa tulokset data solmut suorittaa fylogeneettiset analyysit. Tässä palvelussa käyttäjä lataa proteiinisekvenssejä ja lähettää fylogeneettisen analyysipyynnön verkkosivujen portaaliin. Kaikki lähetetyt analyysityöt kerätään työjonoon ja SEKVENSSITIEDOT tallennetaan eri isäntiin HDFS: llä. Fylogeneettiset analyysit osoitetaan jo sekvenssitietoja sisältäville datasolmuille. Analyysitulokset lähetetään sekä datasolmuun että pelkistimeen, jotta saadaan NFS: ään tallennettu lopputulos. Käyttäjä hakee lopputuloksen kirjautumalla sivustolle. Palvelu toteutetaan seuraavasti.

kuva 5
Flowchart of cloud-based ORF fylogenetic analysis service.

Step 1: Job Submission. Käyttäjät lähettävät työpaikkansa verkossa ehdotetun pilvipalvelun verkkoportaalin kautta. Käyttäjät syöttävät vertailevat DNA / RNA-sekvenssit www-portaaliin tai lataavat vertailevia RNA-sekvenssejä sisältävän tiedoston www-portaalista.

Vaihe 2: Sekvenssikäännös. ORF-alueiden havaitsemiseksi kaikki syötetyt RNA-sekvenssit muunnetaan geneettisen koodin perusteella proteiinisekvensseiksi. Geneettinen koodi on sääntöjoukko, jolla RNA-sekvenssitiedot muunnetaan proteiineiksi. Jokainen kodoni RNA-sekvenssissä edustaa yleensä yhtä aminohappoa, joka on määritelty vastaavalla geneettisellä koodilla. Koodi määrittää aminohapon, joka lisätään seuraavaksi proteiinisynteesin aikana. Geneettiset koodit esitetään taulukossa 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Tämä vaihe tunnistaa toiminnalliset ORFs, muistuttaa, että merkittävät ORFs ovat harvinaisia. Palvelussamme käyttäjä voi ilmoittaa mielekkääksi katsomansa ORF – pituuden. Tämän jälkeen palvelu paikantaa merkittävät Orfit. Esimerkki ORF: stä esitetään kuvassa 6. Tässä esimerkissä ensimmäinen ORF (merkitään AB447445_1) ulottuu sijoista 3-5099 järjestyksessä AB447445. Tässä vaiheessa rakennetaan kahta fylogeneettistä puulajia, joista toisessa käytetään koko sekvenssin pituutta ja toisessa vain Orfeja. Analyysissä yksilöidyistä kolmesta ORF-alueesta on rakennettu kolme ORF – fylogeneettistä puuta. Nämä puut kirjataan ph-muodossa ja siirretään ja tallennetaan portaaliin. Samaan aikaan lasketaan sekvenssin jokaisen paikan diversiteettiarvo. Nämä arvot tallennetaan tiedostoon.

kuva 6
esimerkki ORF Finderin havaitsemista Orfeista.

Vaihe 4: raportin tulos. Tässä vaiheessa pH-muotoillut puut piirretään kolmena kaaviona ja näytetään portaalissa. Käyttäjä tarkkailee näitä kaavioita verkossa tai lataa ne verkkosivustolta. Samoin, bar kaavio yhteenlaskettu monimuotoisuus näkyy verkkosivuilla.

3. Kokeilu

virusanalyysiin ehdotettu pilvipalvelu tehtiin neljällä IBM: n blade-palvelimella. Jokainen palvelin oli varustettu kahdella neliytimisellä Intel Xeon 2.26 GHz suorittimella, 24 GB RAM-muistilla ja 296 GB: n kiintolevyllä, jotka toimivat Ubuntu-käyttöjärjestelmän version 10.4 alla, ja 8 virtuaalikonetta jokaisella palvelimella. Jokaiselle palvelimelle asennettiin Hadoop-versio 0.2 MapReduce-alusta. Yksi VM muodosti job tracker-ja nimisolmun, muut ovat tehtäväseurantapalvelimia ja datasolmuja. Job tracker on myös pilvipalvelumme portaali. Portaali on kuvattu kuvassa 7.

Kuva 7
Portal of cloud-based ORF phylogenetic analysis service.

nykyinen pilviympäristö sallii kahdeksan virtuaalikonetta. Näistä VMs: stä kaksi on Nimisolmuja ja pelkistintä ajavia datasolmuja, loput kuusi vastaavat karttatoiminnasta. Koetta varten tuotimme satunnaisesti kolme aineistoa, joista jokainen sisälsi 20 eripituista sekvenssiä (300, 400 ja 600 nukleotidia). Kunkin aineiston kaikkia sekvenssejä verrattiin fylogeneettisillä analyysimenetelmillä. ClustalW: tä ja ehdotettua palvelua sovellettiin kolme kertaa, kolmen ORF-fylogeneettisen analyysin simulointiin.

kuvassa 8 esitetty ehdotetun palvelun laskenta-aika on verrannollinen kartoittajien määrään. Toteutusaika lyhenee huomattavasti, kun käytössä on kuusi kartoittajaa, suhteessa kahteen kartoittajaan. Kuvassa 9 verrataan jaksottaisten fylogeneettisten analyysimenetelmien, kuten ClustalW: n, ja ehdotetun palvelun suorituskykyä kuudella kartoittimella eri jaksonpituuksille. On selvää, että Hadoop-kehykseen ehdotetulla palvelulla saavutetaan parempi suorituskyky kuin tavallisella jaksottaisella fylogeneettisellä analyysillä.

Kuva 8
pilvipohjaisen ORF-fylogeneettisen analyysin laskenta-aika, jossa on eri määrä kartoittajia ja sekvenssipituuksia.
Kuva 9
peräkkäisten ja pilvipohjaisten ORF-fylogeneettisten analyysien laskenta-ajan vertailut.

4. Tapaustutkimus

Norovirus (NoV) on maailmanlaajuisesti tärkeä akuutin gastroenteriitin etiologinen aine. Se aiheuttaa ripulia kaikenikäisille, erityisesti Taiwanissa. NoV-genomi on Yksisäikeinen, positiivinen aisti, polyadenyloitu RNA koodaa kolme avointa lukukehystä, ORF1, ORF2 ja ORF3 . ORF1 koodaa pitkää polypeptidiä, jonka virusproteinaasi pilkkoo solunsisäisesti kuudeksi proteiiniksi . Näiden proteiinien avulla NoV voi monistua isäntäsoluissa . ORF2 koodaa viruksen kapsidiproteiinia, VP1: tä , kun taas ORF3 koodaa VP2-proteiinia, jota pidetään viruspartikkelien pienenä rakenteellisena komponenttina, joka ilmeisesti vastaa VP1: n ilmentymisestä ja stabiloinnista . Kuten suurin osa RNA-viruksista, NoV on geneettisesti ja antigeenisesti monimuotoinen . Virus jaetaan alustavasti viiteen genoryhmään ja yli 25 genotyyppiin perustuen ORF2-sekvenssien samankaltaisuuksiin . Siksi tämän virustyypin homologia voidaan tunnistaa ORF-yhtäläisyyksistä. Tämän homologian tunnistaminen auttaa viruslääkkeiden ja rokotteiden suunnittelussa. Siksi NoV valittiin tapaustutkimukseksi kokeissamme. Valitsimme viisitoista Marraskuuta, jotka on löydetty Taiwanista. NoV-sekvenssit voi ladata NCBI: stä.

fylogeneettiset puut, jotka on rakennettu täyspitkistä jaksoista ja kolmesta Orfista, on esitetty kuvassa 10. On selvää, että nämä puut eroavat toisistaan. Kokopitkistä jaksoista rakennettu puu(kuva 10 (a)) osoittaa virusten evoluutiosuhteen. Eri Orfit tuottavat kuitenkin selvästi erilaisia puita(kuvat 10(b)-10 (d)), mikä viittaa siihen, että virukset voivat kopioida Orfeja muista viruksista ja muuttaa niiden toimintaa integroimalla ne omiin sekvensseihinsä. Siksi virologit voivat analysoida tiettyjen ORF: ien aiheuttamia sairauksia luomalla kullekin ORF: lle evolutiivisia suhteita. Kuvassa 11 näkyy Alustan tuottama monimuotoisuuspalkkikäyrä. Korkean entropian jäämäasema on esitetty kuvassa 12, jossa on neljä fylogeneettistä puuta ja diversiteettipalkkikäyrä. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) kokopituus, B) ORF1, c) ORF2 ja d) ORF3.

Kuva 11
Diversity bar graph for each position.

Kuva 12
esimerkki korkean entropiaarvon osoittamisesta erityispaikoilla.

5. Johtopäätös

pilvilaskenta on tietokoneresurssien, kuten laitteiston ja ohjelmiston, toimittamista verkossa. Käyttäjät voivat käyttää pilvipohjaisia sovelluksia verkkoselaimen tai mobiililaitteiden sovellusten kautta. Vaikka monet bioinformatiikan työkalut on kehitetty verkkosovelluksiksi, ne otetaan tyypillisesti käyttöön palvelimessa, jonka laskentateho on rajallinen. Tällä hetkellä joitakin työkaluja on uudistettu hajautetuiksi tietojenkäsittelytyökaluiksi, jotka perustuvat Hadoop-kehykseen. Nämä työkalut ovat helposti käytössä klusterin tarjoamia pilvipalvelujen toimittaja, kuten Amazon EC2. Olemassa olevien työkalujen käyttöönotto pilviympäristöön on bioinformatiikan nykytrendi palveluna.

tässä paperissa ehdotamme laajamittaista, saatavilla olevaa pilvipohjaista avointa lukukehystä, joka perustuu virtualisointiteknologiaa hyödyntävään Hadoop-klusteriin. Virtualisointi mahdollistaa ehdotetun palvelun kopioida suuria määriä työpaikkoja. Koska Hadoop on voimakkaasti puskuroitu vikoja vastaan, ehdotettu pilvipalvelu takaa, että toimitetut työpaikat saadaan takaisin tehtävänsiirron avulla, mikä takaa korkean käytettävyyden pilvipalvelun. Tapaustutkimuksemme osoitti, että palvelumme voi rakentaa erilaisia fylogeneettisiä puita eri Orfien vertailuista. Nämä suhteet voivat merkittävästi auttaa biologeja havainnoimaan sekvenssien kehitystä eri Orfeissa. Ehdotettu palvelu voi myös auttaa tutkijoita kehittämään uusia lääkkeitä patogeenisia viruksia vastaan.

eturistiriidat

tälle paperille ei ole kilpailevia intressejä.

tunnustus

Kansallinen Tiedeneuvosto tuki osaa tästä työstä apurahojen turvin NSC-99-2632-E-126-001-MY3 ja NSC-100-2221-E-126-007-MY3.



Vastaa

Sähköpostiosoitettasi ei julkaista.