Open Reading Frame fylogenetische analyse op de wolk

Abstract

fylogenetische analyse is essentieel geworden in het onderzoek naar de evolutionaire relaties tussen virussen. Deze relaties worden afgebeeld op fylogenetic bomen, waarin de virussen worden gegroepeerd gebaseerd op opeenvolgingsgelijkenis. De virale evolutionaire verhoudingen worden geà dentificeerd van open lezingskaders eerder dan van volledige opeenvolgingen. Onlangs, cloud computing is populair geworden voor het ontwikkelen van internet-gebaseerde Bioinformatica tools. Biocloud is een efficiënte, schaalbare en robuuste Bioinformatica computing service. In dit artikel stellen we een cloud-based open reading frame phylogenetic analysis service voor. De voorgestelde dienst integreert het Hadoop-kader, virtualisatietechnologie, en phylogenetic analysemethoden om een high-availability, bioservice op grote schaal te verstrekken. In een casestudy analyseren we de fylogenetische relaties tussen Norovirus. Evolutionaire relaties worden opgehelderd door verschillende open leesframeopeenvolgingen uit te lijnen. Het voorgestelde platform correct identificeert de evolutionaire relaties tussen leden van Norovirus.

1. Inleiding

inzicht in de evolutionaire relaties tussen groepen organismen is steeds meer afhankelijk geworden van fylogenetische analyse. De fylogenieën worden gewoonlijk voorgesteld als boomdiagrammen, die als fylogenetic bomen worden bekend. Deze bomen zijn opgebouwd uit genetische overeenkomsten en verschillen tussen verschillende organismen. De vergelijkende opeenvolgingsanalyse is een nuttige methode waarmee men gen kan identificeren, de functie van het product van een gen kan afleiden, en nieuwe functionele elementen kan identificeren. Door verscheidene opeenvolgingen langs hun volledige lengte te vergelijken, kunnen de onderzoekers behouden residuen vinden die waarschijnlijk door natuurlijke selectie worden bewaard. Het reconstrueren van voorouderlijke opeenvolgingen kan de timing en richting van veranderingen onthullen. Deze vergelijkende analyses baseren zich op de fylogenetische boomconstructie.

een leesframe is een reeks opeenvolgende, niet-overlappende drielingen van drie opeenvolgende nucleotiden. Een codon is een triplet die aan een aminozuur of stopsignaal tijdens vertaling gelijkstellen. Een open leesframe (ORF) is het gedeelte van leesframe dat geen stopcodons bevat. Een proteã ne kan niet worden gemaakt als de transcriptie van RNA vóór het bereiken van het eindcodon ophoudt. Daarom, om ervoor te zorgen dat het einde codon wordt vertaald op de juiste positie, de transcriptie beëindiging pauze site wordt gevestigd na de ORF. De ORFs kunnen vertaalde gebieden in de opeenvolgingen van DNA identificeren. Lange ORF ‘ s wijzen op kandidaat-eiwitcodeergebieden in een DNA-sequentie. ORFs zijn ook gebruikt om verschillende virusfamilies te classificeren, waaronder leden van Norovirus . De Open Reading Frame Finder (ORF Finder) is een grafische analyse tool die zoekt naar open reading frames in DNA-sequenties. Het ORF Investigatorprogramma verstrekt informatie over de codage en noncoding opeenvolgingen en voert paarsgewijze aanpassing van verschillende gebieden van DNA uit. Dit hulpmiddel identificeert efficiënt ORFs en zet hen in aminozuurcodes om, die hun respectieve posities in de opeenvolging verklaren. De paarsgewijze aanpassing detecteert ook veranderingen, met inbegrip van enig-nucleotidepolymorfismen tussen opeenvolgingen. StarORF vergemakkelijkt identificatie van de proteã ne(s) die binnen een opeenvolging van DNA worden gecodeerd. Eerst, wordt de opeenvolging van DNA getranscribeerd in RNA, en alle potentiële ORFs worden geà dentificeerd. Deze ORFs worden gecodeerd binnen elk van de zes vertaalkaders (3 in de voorwaartse richting en 3 in de omgekeerde richting), zodat de gebruikers het vertaalkader kunnen identificeren die de langste eiwitcodageopeenvolging opleveren.

verschillende biologische organisaties hebben hulpmiddelen voor bio-informatica op websites geà mplementeerd. Het Nationale Centrum voor Biotechnologieinformatie (NCBI) verstrekt vele hulpmiddelen voor het vergelijken van gegevensbestand-opgeslagen nucleotide of eiwitopeenvolgingen, met inbegrip van de bekende ONTPLOFFINGSALGORITMEN. NCBI levert ook verschillende databases, zoals GenBank en SNP, waarin biologen homologie of specifieke functies kunnen zoeken. Het European Molecular Biology Laboratory (EMBL) biedt gratis beschikbare data en online Bioinformatica tools aan alle facetten van de wetenschappelijke gemeenschap. Deze gegevens en tools zijn onmisbaar in de medische en biologische studies. De meeste van deze diensten zijn toegankelijk via het Internet en gebruikt online.

Cloud computing is een recent ontwikkeld concept dat computerbronnen levert, zowel hardware als software, via Internet. Er zijn veel soorten cloud computing voorgesteld, zoals infrastructure as a service( IaaS), platform as a service (Paas), software as a service (SaaS), network as a service (NaaS) en storage as a service (Staas). De meeste van deze diensten zijn afhankelijk van virtualisatietechnologie—het creëren van virtuele hardwareplatforms, besturingssystemen, opslagapparaten en netwerkbronnen. Cloud computing wordt verwelkomd voor zijn gebruiksvriendelijkheid, virtualisatie, Internet-centric focus, resource variety, automatische aanpassing, schaalbaarheid, resource optimalisatie, pay-per-use, service SLA ’s (Service-Level Agreements), en infrastructuur SLA’ s . Veel leveranciers van cloud computing distribueren deze resources op aanvraag vanuit grote resource pools die zijn geïnstalleerd in datacenters. Amazon EC2 levert een infrastructuurdienst, terwijl Google App Engine en Microsoft ‘ s Azure Services Platform platformdiensten leveren. In de academische wereld zijn tal van cloud computing projecten in aanbouw of volledig operationeel .

Cloud computing is in wezen een distributiesysteem dat parallel computing mogelijk maakt. Hadoop is een open-source software framework dat data-intensieve gedistribueerde berekening ondersteunt. Onder Hadoop, toepassingen kunnen worden geïmplementeerd op grote clusters van commodity computers. De Hadoop cluster bevat een enkele master en meerdere slave knooppunten. Het hoofdknooppunt wijst taken toe aan slaveknooppunten, die de toegewezen taken voltooien. Hadoop levert het MapReduce programmeermodel voor parallelle verwerking van grote datasets. De computationele taak is verdeeld in vele kleine taken, die elk kunnen worden uitgevoerd of opnieuw uitgevoerd op een berekenen knooppunt in de Hadoop cluster. MapReduce biedt ook een gedistribueerd bestandssysteem, het Hadoop Distributed File System (HDFS), dat de gegevens op compute nodes opslaat, waardoor een zeer hoge totale bandbreedte over het cluster mogelijk is. Zowel map / reduce als het gedistribueerde bestandssysteem zijn robuust tegen storingen. Verschillende sequence analysis tools zijn herontwikkeld als cloud tools gebaseerd op de Hadoop architectuur, zoals CloudBlast en CrossBow . Daarom kunnen standaard online tools worden geport naar de cloud-architectuur. Dergelijke import van reeds bestaande hulpmiddelen vormt het belangrijkste doel van Bioinformatica als dienst (BaaS).

in dit artikel ontwikkelen we een high-availability, grootschalige ORF fylogenetische analyse cloud service gebaseerd op virtualisatie technologie en Hadoop. Deze dienst verstrekt phylogenetic analyses van ORFS die op Hadoopclusters worden gebaseerd om veelvoudige verzoeken te steunen. De essentie van de cloud computing-omgeving is virtualisatie. De fysieke rekenkracht wordt beschouwd als een user-pays utility die gebruikers kunnen aanvragen zoals gewenst. Het hulpprogramma staat ook bekend als een virtuele machine. Elk knooppunt in een Hadoop-cluster is een virtuele machine. Gebruikers kunnen hun sequentiegegevens of bestanden uploaden via de master node (web portal) en vervolgens een taak indienen. De taak wordt toegewezen aan het slave-knooppunt dat de geüploade gegevens bevat en het slave-knooppunt voltooit de taak. Aangezien de vergelijkingen van ORF ondubbelzinnig de homologie van Norovirus hebben vastgesteld, keuren wij hier Norovirus als gevalstudie goed. De resultaten laten zien dat de voorgestelde cloud-gebaseerde analyse tool, op grond van virtualisatie technologie en Hadoop framework, kan gemakkelijk BaaS faciliteren. De voorgestelde cloud-gebaseerde ORF fylogenetische tool is beschikbaar op http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Methods

in dit artikel stellen we een cloudgebaseerde ORF phylogenetic analysis service voor die Hadoop framework, virtualisatietechnologie, fylogenetic tree tool en diversiteitsanalyse combineert. Zoals eerder vermeld, de cloud platform is opgebouwd uit virtualisatie en Hadoop framework. Hadoop wordt uitgevoerd op de VM ‘ s gemaakt door virtualisatie technologie zoals Kernel-gebaseerde virtuele Machine (KVM). Hadoop voert de phylogenetische analyse op een gedistribueerde rekenwijze uit. De onderliggende architectuur zorgt voor elasticiteit, schaalbaarheid en beschikbaarheid van de voorgestelde cloud-gebaseerde dienst.

2.1. Fylogenetische analyse

de voorgestelde cloudservice integreert het ORF-vindingsproces, fylogenetische boomcontracties en Orf-diversiteitsanalyse om een volledige fylogenetische analyse te genereren. De procedure van de analyse wordt hieronder beschreven en weergegeven in Figuur 1.

figuur 1
de fylogenetische analysemethode.

Stap 1: detecteren van Open Leesframes. Functionele ORFs worden geëxtraheerd uit sequenties. Hoewel vele ORFs in een eiwitvolgorde bestaan, zijn de meeste onbeduidend. De ORF finder lokaliseert alle open leesframes van een bepaalde minimumgrootte in een reeks. In deze studie werd de ORF Finder gebruikt op de NCBI tools website. Deze tool identificeert alle open leesframes met behulp van de standaard of alternatieve genetische codes.

Stap 2: fylogenetische boom construeren op basis van Open Leesframes. Een fylogenetische boom (of evolutionaire boom) is een vertakking (boom) diagram dat de afgeleide evolutionaire relaties tussen biologische soorten of andere entiteiten op basis van overeenkomsten en verschillen in hun fysieke en/of genetische kenmerken. De samen in de boom geclusterde taxa stammen vermoedelijk af van een gemeenschappelijke voorouder. De Phylogenetic analyse lijnt gewoonlijk gehele lengte opeenvolgingen uit. Verschillende ORFs kunnen echter verschillende fylogenetische bomen opleveren. Virus ORF alignments kan onthullen een gemeenschappelijke virale voorouder of een ORF die gemeenschappelijk is voor alle virussen. Zo ‘ n ontdekking zou het ontwerp van virale medicijnen enorm helpen.

de fylogenetische boom wordt berekend met behulp van ClustalW . Dit algoritme bouwt twee fylogenetische bomen; een gebaseerd op volledige sequenties en de andere alleen voor ORFs, waardoor de variantie tussen de twee bomen.

Stap 3: Diversiteitsanalyse tussen open Leesframes. Diversiteit toont meestal het aantal verschillende identiteiten in een groep. In dit artikel demonstreert diversiteit soortvariantie op een specifieke positie in de eiwitvolgorde. De kleine diversiteitswaarde bij een positie impliceert dat de eiwitopeenvolgingen bij die positie zeer gelijkaardig zijn. Een hoge diversiteitswaarde betekent daarentegen een lage gelijkenis op die positie. Een frame met hoge variantie geeft ook aan dat dit frame gemakkelijk muteert. Dergelijke frames met hoge variantie kunnen worden gebruikt om eiwit structurele verschillen waar te nemen en de ontwikkeling van het vaccin te ondersteunen. In dit artikel wordt diversiteit berekend vanuit de entropie als volgt: waar is de waarde van entropie en is de waarschijnlijkheid om een gespecificeerd aminozuur bij positie te vinden . Om de significante positie te vinden, worden entropiewaarden onder een bepaalde drempel uitgefilterd. In deze studie werd de drempelwaarde vastgesteld op 1,4.

2.2. Cloud Platform gebaseerd op Virtaulization en Hadoop Framework

Het cloud platform voor de voorgestelde fylogenetische analyse tool is gebouwd op twee belangrijke technologieën: virtualisatie en het Hadoop framework. Hadoop is een zeer schaalbaar en beschikbaar gedistribueerd systeem. De schaalbaarheid en beschikbaarheid worden gegarandeerd door HDFS, een zelfherstellend gedistribueerd opslagsysteem en MapReduce, een specifiek fouttolerant gedistribueerd verwerkingsalgoritme . De architectuur van een Hadoop cluster is weergegeven in Figuur 2.

Figuur 2

de architectuur van een Hadoop-cluster.

het Hadoop-cluster bestaat uit één master-en meerdere slave-knooppunten. Het hoofdknooppunt bestaat uit een taaktracker, taaktracker, naamknooppunt en gegevensknooppunt. Een slave node, of computing node, bestaat uit een data node en een taak tracker. De job tracker wijst taken toewijzen/verminderen aan specifieke knooppunten binnen het cluster, idealiter die al de gegevens bevatten of ten minste binnen hetzelfde rack. Een taak-tracker-knooppunt accepteert toewijzings -, verminderings-en shufflebewerkingen van een taak-tracker. Figuur 3 toont de kaart / verkleining.

Figuur 3
de procedure van Hadoop map/reduce model.

HDFS is het primaire distributiebestandssysteem dat wordt gebruikt door het Hadoop framework. Elk invoerbestand wordt opgesplitst in gegevensblokken die worden gedistribueerd naar gegevensknooppunten. Hadoop creëert ook meerdere replica ‘ s van gegevensblokken en distribueert ze naar gegevensknooppunten in een cluster om betrouwbare, extreem snelle berekeningen mogelijk te maken. Het naamknooppunt dient zowel als directorynaamruimtebeheer als als knooppuntmetadatabeheer voor de HDFS. De HDFS-architectuur bevat één naamknooppunt.

een wenselijke eigenschap van Hadoop is de hoge fouttolerantie. De HDFS maakt het mogelijk de gegevens te verspreiden over honderden of duizenden knooppunten of machines, en de taken worden berekend op gegevenshoudende knooppunten. Hadoop repliceert gegevens, zodat als een replica verloren gaat, back-ups bestaan. Wanneer een knooppunt mislukt tijdens de berekening, herstart Hadoop de afgebroken taak op een ander knooppunt dat replicaatgegevens bevat. In het Hadoop-framework worden knooppuntfouten gedetecteerd met behulp van het heartbeat-mechanisme, waardoor individuele taakknooppunten (taaktrackers) voortdurend communiceren met de taaktracker. Als een taaktracker gedurende een bepaalde periode niet met de taaktracker communiceert, gaat de taaktracker ervan uit dat de taaktracker is gecrasht . De taaktracker weet welke taaktrackers (gegevensknooppunten) replicaatgegevens bevatten en geeft een herstarttaak uit. In deze paper, de voorgestelde cloud service werd geïmplementeerd door het combineren van Hadoop cluster distributie met een management model. In onze cloud server wordt een ingediende taak berekend in een gegevensknooppunt. In plaats van parallelle gegevens te verwerken, worden banen zelf parallelliseerd. Daarom, ingediende gegevens worden gedistribueerd naar een gegevensknooppunt door de HDFS, terwijl het rekenproces wordt geleverd aan de task tracker en gekopieerd met de ingediende gegevens. Virtualisatie is een cruciaal onderdeel van de cloud computing-omgeving. De fysieke rekenkracht is in wezen een hulpprogramma dat gebruikers kunnen kopen als dat nodig is. Het gebruikelijke doel van virtualisatie is het verbeteren van de schaalbaarheid en de algehele hardware-resource gebruik. Virtualisatie maakt het mogelijk om meerdere besturingssystemen parallel te laten draaien op één fysieke computer. Terwijl een fysieke computer in de klassieke zin een complete en daadwerkelijke machine vormt, is een virtuele machine (VM) een volledig geïsoleerde machine die een gastbesturingssysteem binnen de fysieke computer uitvoert. Om schaalbaarheid en efficiëntie te garanderen, werken alle componenten—job tracker, task tracker, naamknooppunt en gegevensknooppunt—in onze cloudservice als virtuele machines. Figuur 4 toont de VM-architectuur van onze voorgestelde dienst.

Figuur 4
Cloud computing service gebaseerd op virtualisatietechnologie.

2.3. Cloud-Based ORF Phylogenetic Analysis Service

Cloud-based ORF phylogenetic analysis service werd ontwikkeld op een virtualisatie platform met het Hadoop framework zoals hierboven beschreven. De procedure van de voorgestelde dienst is weergegeven in Figuur 5. De master node (naamknooppunt) en slave node (data node) zijn respectievelijk de master VM en slave VM. Wanneer een fylogenetische analyse verzoek wordt ingediend, wordt het opgeslagen in een job queue. Het hoofdknooppunt haalt periodiek de taken uit de taakwachtrij en wijst ze toe aan slaveknooppunten (of mappers), die de taak uitvoeren. Na het voltooien van alle taken verzamelt het reducer de resultaten en slaat deze op in de NFS (Network File System storage). Een enkel vergelijkingsresultaat van een fylogenetische taak wordt opgeslagen in een enkel bestand van NFS. Zoals getoond in Figuur 5, voert een gegevensknooppunt die in VM2 loopt een fylogenetische analyse uit en een naamknooppunt loopt in VM1. Het reductiemiddel, die binnen lopen, verzamelt de resultaten van de gegevensknooppunten die de phylogenetic analyses uitvoeren. In deze dienst, uploadt de gebruiker eiwitsequenties en dient een fylogenetische analyse verzoek op de website portal. Alle ingediende analysetaken worden verzameld in de taakwachtrij en sequentiegegevens worden opgeslagen in verschillende hosts door HDFS. De Phylogenetic analyses worden toegewezen aan de gegevensknooppunten die reeds opeenvolgingsgegevens bevatten. De analyseresultaten worden verzonden naar zowel data node als reducer om het eindresultaat te produceren dat is opgeslagen in NFS. De gebruiker haalt het eindresultaat op door in te loggen op de website. De dienst wordt als volgt uitgevoerd.

Figuur 5
Flowchart of cloud-based ORF fylogenetic analysis service.

Stap 1: Taakverzending. Gebruikers dienen hun vacature online in via het webportaal van de voorgestelde clouddienst. Gebruikers gaan de vergelijkende DNA/RNA-sequenties op het webportaal in of uploaden een dossier met vergelijkende RNA-sequenties van een webportaal.

Stap 2: Sequentievertaling. Om de ORF gebieden te ontdekken, worden alle opeenvolgingen van inputrna vertaald in eiwitopvolgingen die op de genetische code worden gebaseerd. De genetische code is de reeks regels waardoor de opeenvolgingsinformatie van RNA in proteã nen wordt vertaald. Elk codon in een opeenvolging van RNA vertegenwoordigt gewoonlijk één enkel aminozuur dat door de overeenkomstige genetische code wordt gespecificeerd. De code specificeert het aminozuur dat vervolgens tijdens eiwitsynthese moet worden toegevoegd. De genetische codes zijn weergegeven in Tabel 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Deze stap identificeert de functionele ORF’ s, bedenk dat belangrijke ORF ‘ s zeldzaam zijn. In onze service kan de gebruiker de lengte van de ORF die hij/zij als zinvol beschouwt. De service lokaliseert vervolgens de belangrijke ORF ‘ s. Een voorbeeld van ORFs is weergegeven in Figuur 6. In dit voorbeeld strekt de eerste ORF (aangeduid als AB447445_1) zich uit van posities 3 tot 5099 in de reeks AB447445. In deze stap, worden twee soorten phylogenetic bomen gebouwd, één gebruikend de volledige opeenvolgingslengte en andere gebruikend slechts ORFs. Van de drie ORF gebieden die in de analyse worden geïdentificeerd, worden drie ORF phylogenetic bomen gebouwd. Deze bomen worden geregistreerd in ph-formaat en worden vervolgens overgebracht naar en opgeslagen in het portaal. Ondertussen wordt de diversiteitswaarde van elke positie in de volgorde berekend. Deze waarden worden opgeslagen in een bestand.

Figuur 6

een voorbeeld van ORFs gedetecteerd door ORF finder.

Stap 4: Rapportresultaat. In deze stap worden de ph-opgemaakte bomen getekend als drie diagrammen en weergegeven op het portaal. De gebruiker observeert deze diagrammen online of downloadt ze van de website. Op dezelfde manier verschijnt er een staafdiagram van geaggregeerde diversiteit op de website.

3. Experiment

de voorgestelde clouddienst voor virusanalyse werd uitgevoerd op vier IBM blade-servers. Elke server was uitgerust met twee quad-Core Intel Xeon 2,26 GHz CPU ‘ s, 24 GB RAM en 296 GB harde schijf, uitgevoerd onder het Ubuntu-besturingssysteem versie 10.4, met 8 virtuele machines op elke server. Hadoop versie 0.2 MapReduce platform werd geïnstalleerd op elke server. Een VM vormde de taak tracker en naam knooppunt; de andere zijn taak trackers en data nodes. De job tracker is ook het portaal van onze cloud service. Het portaal is afgebeeld in Figuur 7.

Figuur 7
Portal of cloud-based ORF phylogenetic analysis service.

onze huidige cloudomgeving staat acht virtuele machines toe. Twee van deze VM ‘ s zijn naamknooppunt en gegevensknooppunt waarop het reductiemiddel wordt uitgevoerd; de overige zes zijn verantwoordelijk voor kaartbewerking. Voor het experiment produceerden we willekeurig drie datasets, elk met 20 sequenties van verschillende lengtes (300, 400 en 600 nucleotiden). Alle opeenvolgingen in elke dataset werden vergeleken door phylogenetic analysemethoden. ClustalW en de voorgestelde dienst werden drie keer toegepast, voor het simuleren van drie ORF fylogenetische analyses.

de rekentijd van de in Figuur 8 weergegeven voorgestelde dienst is evenredig met het aantal mappers. De uitvoeringstijd wordt aanzienlijk verkort wanneer zes mappers worden gebruikt, ten opzichte van twee mappers. Figuur 9 vergelijkt de prestaties tussen sequentiële fylogenetische analysemethoden zoals ClustalW en de voorgestelde service met zes mappers, voor verschillende sequentielengtes. Duidelijk, bereikt de voorgestelde dienst in het Hadoop-kader betere prestaties dan standaard sequentiële phylogenetische analyse.

Figuur 8
rekentijd van cloudgebaseerde ORF-fylogenetische analyse met verschillend aantal mappers en sequentielengtes.

figuur 9
vergelijkingen van de rekentijd tussen sequentiële en cloudgebaseerde ORF-fylogenetische analyses.

4. Casestudy

Norovirus (NoV) is wereldwijd een belangrijk etiologische agens van acute gastro-enteritis. Het veroorzaakt diarree in alle leeftijden, vooral in Taiwan. Het genoom van NoV is een single-stranded, positieve betekenis, polyadenylated RNA codeert drie open lezingskaders, ORF1, ORF2, en ORF3 . ORF1 codeert een lang polypeptide dat intracellulair in zes proteã nen door het virale proteïnase wordt gespleten . Deze proteã nen laten NoV toe om in gastheercellen te herhalen . ORF2 codeert een viraal capside-eiwit, VP1, terwijl ORF3 codeert een VP2-eiwit dat wordt beschouwd als een kleine structurele component van virusdeeltjes , blijkbaar verantwoordelijk voor de expressie en stabilisatie van VP1 . Net als de meerderheid van de virussen van RNA, is NoV genetisch en antigenisch divers . Het virus is voorlopig verdeeld in vijf genogroepen en meer dan 25 genotypes, gebaseerd op overeenkomsten tussen ORF2 sequenties . Daarom kan de homologie van dit type virus worden geïdentificeerd aan de hand van ORF-overeenkomsten. Het identificeren van deze homologie zal helpen bij het ontwerp van virale geneesmiddelen en vaccins. Daarom werd NoV geselecteerd als casestudy in onze experimenten. We selecteerden vijftien NoV die zijn ontdekt in Taiwan. Deze Nov sequenties kunnen worden gedownload van NCBI.

de fylogenetische bomen die zijn opgebouwd uit volledige lengtesequenties en drie ORF ‘ s zijn weergegeven in Figuur 10. Uiteraard verschillen deze bomen van elkaar. De boom opgebouwd uit de volledige lengte sequenties(Figuur 10 (A)) toont een evolutionaire relatie tussen de virussen. Verschillende ORF ’s leveren echter duidelijk verschillende bomen op (Figuur 10(b)-10(d)), wat suggereert dat virussen ORF’ s van andere virussen kunnen kopiëren en hun functie kunnen wijzigen door ze in hun eigen sequenties te integreren. Daarom, door evolutionaire relaties voor elke ORF te vestigen, kunnen virologen de ziekten analyseren die door specifieke ORFs worden veroorzaakt. Figuur 11 toont de diversiteit staafgrafiek gegenereerd door het platform. De residupositie van hoge entropie wordt gegeven in Figuur 12, die vier fylogenetische bomen en de diversiteit staafdiagram toont. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) Volledige lengte, B) ORF1, c) ORF2 en d) ORF3.

Figuur 11

Diversiteitsbalk voor elke positie.

Figuur 12
voorbeeld van het tonen van een hoge entropiewaarde op de specifieke posities.

5. Conclusie

Cloud computing is het online leveren van computerbronnen, zoals hardware en software. Gebruikers hebben toegang tot cloudgebaseerde toepassingen via een webbrowser of via toepassingen op mobiele apparaten. Hoewel vele hulpmiddelen van de bio-informatica als webtoepassingen zijn ontwikkeld, worden deze typisch ingezet in een server, die beperkte rekenkracht heeft. Momenteel zijn sommige tools herontwikkeld als gedistribueerde computing tools gebaseerd op het Hadoop framework. Deze tools worden gemakkelijk ingezet op een cluster die door een cloud computing leverancier zoals Amazon EC2. De implementatie van reeds bestaande tools in de cloud omgeving is de huidige trend van Bioinformatica als een dienst.

in dit artikel stellen we een high-scale, beschikbare cloud-based open reading frame fylogenetische analyse service voor gebaseerd op een Hadoop cluster met behulp van virtualisatie technologie. Met virtualisatie kan de voorgestelde service grote hoeveelheden taken kopiëren. Omdat Hadoop sterk gebufferd is tegen storingen, garandeert de voorgestelde cloudservice dat ingediende taken worden hersteld door taakherplaatsing, waardoor een high-availability cloudservice wordt gegarandeerd. Onze casestudy toonde aan dat onze Dienst Verschillende fylogenetische bomen uit vergelijkingen van verschillende ORFs kan construeren. Deze relaties kunnen biologen beduidend helpen om opeenvolgingsevoluties in verschillende ORFs waar te nemen. De voorgestelde dienst kan ook onderzoek helpen om nieuwe geneesmiddelen tegen pathogene virussen te ontwikkelen.

belangenconflict

Er zijn geen concurrerende belangen voor dit papier.

erkenning

een deel van dit werk werd ondersteund door de National Science Council in het kader van subsidies NSC-99-2632-E-126-001-MY3 en NSC-100-2221-E-126-007-MY3.



Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.