Open Reading Frame analiza filogenetică pe Cloud

rezumat

analiza filogenetică a devenit esențială în cercetarea relațiilor evolutive dintre viruși. Aceste relații sunt descrise pe arbori filogenetici, în care virușii sunt grupați pe baza asemănării secvenței. Relațiile evolutive virale sunt identificate din cadre de lectură deschise, mai degrabă decât din secvențe complete. Recent, cloud computing-ul a devenit popular pentru dezvoltarea instrumentelor bioinformatice bazate pe internet. Biocloud este un serviciu de calcul bioinformatic eficient, scalabil și robust. În această lucrare, propunem un serviciu de analiză filogenetică open reading frame bazat pe cloud. Serviciul propus integrează cadrul Hadoop, tehnologia de virtualizare și metodele de analiză filogenetică pentru a oferi un bioserviciu la scară largă, cu disponibilitate ridicată. Într-un studiu de caz, analizăm relațiile filogenetice dintre Norovirus. Relațiile evolutive sunt elucidate prin alinierea diferitelor secvențe de cadre de citire deschise. Platforma propusă identifică corect relațiile evolutive dintre membrii norovirusului.

1. Introducere

înțelegerea relațiilor evolutive dintre grupurile de organisme a devenit din ce în ce mai dependentă de analiza filogenetică. Filogeniile sunt de obicei prezentate ca diagrame de arbori, cunoscute sub numele de arbori filogenetici. Acești copaci sunt construiți din asemănări genetice și diferențe între diferite organisme. Analiza secvenței Comparative este o metodă utilă prin care se poate identifica gena, deduce funcția produsului unei gene și identifica elemente funcționale noi. Prin compararea mai multor secvențe de-a lungul întregii lor lungimi, cercetătorii pot găsi reziduuri conservate care sunt probabil conservate prin selecție naturală. Reconstituirea secvențelor ancestrale poate dezvălui calendarul și direcționalitatea mutațiilor. Aceste analize comparative se bazează pe construcția arborelui filogenetic.

un cadru de citire este un set de triplete consecutive, nonoverlapping de trei nucleotide consecutive. Un codon este un triplet care echivalează cu un aminoacid sau un semnal de oprire în timpul traducerii. Un cadru de citire deschis (ORF) este secțiunea cadrului de citire care conține codoni fără oprire. O proteină nu poate fi făcută dacă transcrierea ARN încetează înainte de a ajunge la codonul de oprire. Prin urmare, pentru a vă asigura că codonul de oprire este tradus în poziția corectă, site-ul de pauză de terminare a transcrierii este localizat după ORF. ORF-urile pot identifica regiunile traduse în secvențele ADN. ORF-urile lungi indică regiunile de codificare a proteinelor candidate într-o secvență ADN. ORFs, de asemenea , au fost utilizate pentru a clasifica diferite familii de virus, inclusiv membrii Norovirus . Open Reading Frame Finder (ORF Finder) este un instrument de analiză grafică care caută cadre de citire deschise în secvențe ADN. Programul ORF Investigator oferă informații cu privire la secvențele de codificare și necodificare și efectuează alinierea perechi de diferite regiuni ADN. Acest instrument identifică eficient ORFs și le transformă în coduri de aminoacizi, declarând pozițiile lor respective în secvență. Alinierea perechilor detectează, de asemenea, mutații, inclusiv polimorfisme cu un singur nucleotid între secvențe. StarORF facilitează identificarea proteinei(proteinelor) codificate într-o secvență ADN. În primul rând, secvența ADN este transcrisă în ARN și sunt identificați toți Orfii potențiali. Aceste ORF – uri sunt codificate în fiecare dintre cele șase cadre de traducere (3 în direcția înainte și 3 în direcția inversă), astfel încât utilizatorii să poată identifica cadrul de traducere care produce cea mai lungă secvență de codificare a proteinelor.

Mai multe organizații biologice au implementat instrumente bioinformatice pe site-uri web. Centrul Național pentru Informații Biotehnologice (NCBI) oferă multe instrumente pentru compararea secvențelor de nucleotide sau proteine stocate în baze de date, inclusiv binecunoscuții algoritmi de explozie. NCBI oferă, de asemenea, mai multe baze de date, cum ar fi GenBank și SNP, în care biologii pot căuta omologie sau funcții specifice. Laboratorul European de Biologie Moleculară (EMBL) oferă date disponibile gratuit și instrumente de bioinformatică online pentru toate aspectele comunității științifice. Aceste date și instrumente sunt indispensabile în studiile medicale și biologice. Majoritatea acestor servicii sunt accesate prin Internet și utilizate online.

Cloud computing este un concept recent dezvoltat care oferă resurse de calcul, fie hardware, fie software, pe Internet. Au fost propuse multe tipuri de cloud computing, cum ar fi infrastructura ca serviciu (IaaS), platforma ca serviciu (PaaS), software ca serviciu (SaaS), rețea ca serviciu (NaaS) și stocare ca serviciu (STaaS). Majoritatea acestor servicii se bazează pe tehnologia de virtualizare—crearea de platforme hardware virtuale, sisteme de operare, dispozitive de stocare și resurse de rețea. Cloud computing este binevenit pentru ușurința în utilizare, virtualizare, focalizare centrată pe Internet, varietate de resurse, adaptare automată, scalabilitate, optimizare a resurselor, plată pe utilizare, SLA-uri de servicii (acorduri la nivel de servicii) și SLA-uri de infrastructură . Mulți furnizori de cloud computing distribuie aceste resurse la cerere din bazine mari de resurse instalate în centrele de date. Amazon EC2 furnizează un serviciu de infrastructură, în timp ce Google App Engine și platforma Microsoft Azure Services furnizează servicii de platformă. În mediul academic, numeroase proiecte de cloud computing sunt în construcție sau pe deplin operaționale .

Cloud computing este în esență un sistem de distribuție care permite calculul paralel. Hadoop este un cadru software open-source care acceptă calculul distribuit intensiv în date. Sub Hadoop, aplicațiile pot fi implementate pe grupuri mari de computere de mărfuri. Clusterul Hadoop include un singur maestru și mai multe noduri slave. Nodul principal atribuie joburi nodurilor slave, care finalizează sarcinile atribuite. Hadoop oferă modelul de programare MapReduce pentru procesarea paralelă a seturilor de date mari. Sarcina computațională este împărțită în mai multe sarcini mici, fiecare dintre acestea putând fi executată sau reexecutată pe un nod de calcul din clusterul Hadoop. MapReduce oferă, de asemenea, un sistem de fișiere distribuit, Hadoop Distributed File System (HDFS), care stochează datele pe nodurile de calcul, permițând o lățime de bandă agregată foarte mare în cluster. Atât map / reduce, cât și sistemul de fișiere distribuit sunt robuste împotriva eșecului. Mai multe instrumente de analiză a secvențelor au fost reamenajate ca instrumente cloud bazate pe arhitectura Hadoop, cum ar fi CloudBlast și arbaleta . Prin urmare, instrumentele online standard pot fi portate la arhitectura cloud. Un astfel de import de instrumente preexistente constituie obiectivul principal al bioinformaticii ca serviciu (BaaS).

în această lucrare, dezvoltăm un serviciu cloud de analiză filogenetică ORF de înaltă disponibilitate, pe scară largă, bazat pe tehnologia de virtualizare și Hadoop. Acest serviciu oferă analize filogenetice de la ORFs bazate pe clustere Hadoop pentru a sprijini mai multe cereri. Esența mediului cloud computing este virtualizarea. Puterea fizică de calcul este privită ca un utilitar plătit de utilizator pe care utilizatorii îl pot solicita după dorință. Utilitatea este cunoscută și sub numele de mașină virtuală. Fiecare nod dintr-un cluster Hadoop este o mașină virtuală. Utilizatorii își pot încărca datele sau fișierele de secvență prin nodul principal (portal web) și apoi pot trimite o lucrare. Lucrarea este atribuită nodului slave care conține datele încărcate, iar nodul slave completează lucrarea. Deoarece comparațiile ORF au stabilit fără echivoc omologia norovirusului, adoptăm aici norovirusul ca studiu de caz. Rezultatele arată că instrumentul de analiză bazat pe cloud propus, în virtutea tehnologiei de virtualizare și a cadrului Hadoop, poate facilita cu ușurință BaaS. Instrumentul filogenetic ORF propus în cloud este disponibil la http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Metode

în această lucrare, propunem un serviciu de analiză filogenetică ORF bazat pe cloud care combină cadrul Hadoop, tehnologia de virtualizare, instrumentul arborelui filogenetic și analiza diversității. După cum sa menționat anterior, platforma cloud este construită din virtualizare și Hadoop framework. Hadoop se realizează pe VM-urile create de tehnologia de virtualizare, cum ar fi Kernel-based Virtual Machine (KVM). Hadoop efectuează analiza filogenetică într-un mod de calcul distribuit. Arhitectura de bază asigură elasticitatea, scalabilitatea și disponibilitatea serviciului propus bazat pe cloud.

2.1. Analiza filogenetică

serviciul cloud propus integrează procesul de găsire ORF, contracțiile arborelui filogenetic și analiza diversității ORF pentru a genera o analiză filogenetică completă. Procedura analizei este prezentată mai jos și prezentată în Figura 1.

Figura 1
procedura de analiză filogenetică.

Pasul 1: detectarea cadrelor de citire deschise. ORF-urile funcționale sunt extrase din secvențe. Deși multe ORFs există într-o secvență de proteine, cele mai multe sunt nesemnificative. ORF finder localizează toate cadrele de citire deschise de o dimensiune minimă specificată într-o secvență. În acest studiu, a fost adoptat Căutătorul ORF utilizat în mod obișnuit pe site-ul web NCBI tools. Acest instrument identifică toate cadrele de citire deschise folosind codurile genetice standard sau alternative.

Pasul 2: Construirea arborelui filogenetic bazat pe cadre de citire deschise. Un arbore filogenetic (sau arbore evolutiv) este o diagramă ramificată (arbore) care arată relațiile evolutive deduse între speciile biologice sau alte entități bazate pe asemănări și diferențe în caracteristicile lor fizice și/sau genetice. Taxonii grupați împreună în copac sunt probabil descendenți dintr-un strămoș comun. Analiza filogenetică aliniază de obicei secvențele de lungime întreagă. Cu toate acestea, diferite ORFs ar putea produce arbori filogenetici diferiți. Aliniamentele virale ORF ar putea dezvălui un strămoș viral comun sau un ORF care este comun tuturor virusurilor. O astfel de descoperire ar ajuta foarte mult proiectarea medicamentelor virale.

arborele filogenetic este calculat folosind ClustalW . Acest algoritm construiește doi arbori filogenetici; unul bazat pe secvențe complete și celălalt numai pentru ORFs, dezvăluind astfel varianța dintre cei doi copaci.

Pasul 3: Analiza diversității între cadrele de lectură deschise. Diversitatea descrie de obicei numărul de identități diferite dintr-un grup. În această lucrare, diversitatea demonstrează varianța speciilor într-o poziție specifică în secvența proteică. Valoarea mică a diversității într-o poziție implică faptul că secvențele de proteine sunt foarte asemănătoare în acea poziție. În schimb, o valoare ridicată a diversității denotă o similitudine scăzută la acea poziție. Un cadru cu variație mare indică, de asemenea, că acest cadru mută cu ușurință. Astfel de cadre cu variație ridicată pot fi utilizate pentru a observa diferențele structurale ale proteinelor și pentru a ajuta la dezvoltarea vaccinului. În această lucrare, diversitatea este calculată din entropie după cum urmează: unde este valoarea entropiei și este probabilitatea de a găsi un aminoacid specificat în poziție . Pentru a găsi poziția semnificativă, valorile entropiei sub un anumit prag sunt filtrate. În acest studiu, pragul a fost stabilit la 1,4.

2.2. Platforma Cloud bazată pe Virtaulizare și cadrul Hadoop

platforma cloud pentru instrumentul de analiză filogenetică propus este construită pe două tehnologii importante: virtualizarea și cadrul Hadoop. Hadoop este un sistem distribuit extrem de scalabil și disponibil. Scalabilitatea și disponibilitatea sunt garantate de HDFS, un sistem de stocare distribuit de auto-vindecare și MapReduce, un algoritm specific de procesare distribuită tolerantă la erori . Arhitectura unui cluster Hadoop este prezentată în Figura 2.

Figura 2
arhitectura unui cluster Hadoop.

clusterul Hadoop constituie un singur nod master și mai multe noduri slave. Nodul principal constă dintr-un tracker de locuri de muncă, tracker DE SARCINI, nod de nume și nod de date. Un nod slave, sau nod de calcul, cuprinde un nod de date și un tracker DE SARCINI. Loc de muncă tracker atribuie harta/reduce SARCINI la noduri specifice în cadrul clusterului, în mod ideal, cele care conțin deja datele sau cel puțin în cadrul aceluiași rack. Un nod task-tracker acceptă operațiuni de hartă, reducere și amestecare de la un loc de muncă-tracker. Operațiunea map / reduce este prezentată în Figura 3.

Figura 3

procedura modelului Hadoop map/reduce.

HDFS este sistemul de fișiere de distribuție primar utilizat de cadrul Hadoop. Fiecare fișier de intrare este împărțit în blocuri de date care sunt distribuite nodurilor de date. Hadoop creează, de asemenea, mai multe replici de blocuri de date și le distribuie nodurilor de date de-a lungul unui cluster pentru a permite calcule fiabile, extrem de rapide. Nodul de nume servește atât ca manager de spațiu de nume de director, cât și ca manager de metadate de nod pentru HDFS. Arhitectura HDFS conține un singur nod de nume.

una dintre caracteristicile dorite ale Hadoop este toleranța ridicată la erori. HDFS permite ca datele să se răspândească pe sute sau mii de noduri sau mașini, iar sarcinile sunt calculate pe noduri care dețin date. Hadoop reproduce date, astfel încât, dacă se pierde o replică, există copii de rezervă. Când un nod eșuează în timpul calculului, Hadoop repornește sarcina oprită pe un alt nod care conține date replicate. În cadrul Hadoop, eșecurile nodurilor sunt detectate folosind mecanismul bătăilor inimii, prin care nodurile individuale DE SARCINI (trackerele de sarcini) comunică constant cu trackerul de locuri de muncă. Dacă un dispozitiv de urmărire a sarcinilor nu reușește să comunice cu dispozitivul de urmărire a sarcinilor pentru o perioadă de timp, dispozitivul de urmărire a sarcinilor va presupune că dispozitivul de urmărire a sarcinilor s-a prăbușit . Job tracker știe ce Trackere DE SARCINI (noduri de date) conțin date reproduse și emite o sarcină de repornire. În această lucrare, serviciul cloud propus a fost implementat prin combinarea distribuției clusterului Hadoop cu un model de management. În serverul nostru cloud, o lucrare trimisă este calculată într-un nod de date. În loc să proceseze date paralele, locurile de muncă în sine sunt paralelizate. Prin urmare, datele trimise sunt distribuite către un nod de date de către HDFS, în timp ce procesul de calcul este livrat către trackerul de sarcini și copiat cu datele trimise. Virtualizarea este o componentă critică a mediului cloud computing. Puterea fizică de calcul este în esență un utilitar pe care utilizatorii îl pot achiziționa după cum este necesar. Scopul obișnuit al virtualizării este de a îmbunătăți scalabilitatea și utilizarea generală a resurselor hardware. Virtualizarea permite rularea paralelă a mai multor sisteme de operare pe un singur computer fizic. În timp ce un computer fizic în sensul clasic constituie o mașină completă și reală, o mașină virtuală (VM) este o mașină complet izolată care rulează un sistem de operare invitat în computerul fizic. Pentru a asigura scalabilitatea și eficiența, toate componentele—job tracker, task tracker, name node și data node—din serviciul nostru cloud funcționează ca mașini virtuale. Figura 4 prezintă arhitectura VM a serviciului nostru propus.

Figura 4

serviciu de Cloud computing bazat pe tehnologia de virtualizare.

2.3. Serviciul de analiză filogenetică ORF bazat pe Cloud

serviciul de analiză filogenetică ORF bazat pe Cloud a fost dezvoltat pe o platformă de virtualizare cu cadrul Hadoop așa cum este descris mai sus. Procedura serviciului propus este prezentată în Figura 5. Nodul principal (nod de nume) și nodul sclav (nod de date) sunt master VM și, respectiv, slave vm. Când o cerere de analiză filogenetică este trimisă, aceasta este salvată într-o coadă de job. Nodul principal extrage periodic joburile din coada de joburi și le atribuie nodurilor slave (sau mappers), care îndeplinesc sarcina. La finalizarea tuturor lucrărilor, reductorul colectează rezultatele și le salvează în stocarea sistemului de fișiere de rețea (NFS). Un singur rezultat de comparație al unei lucrări filogenetice este salvat într-un singur fișier de NFS. Așa cum se arată în Figura 5, un nod de date care rulează în VM2 efectuează o analiză filogenetică și un nod de nume rulează în VM1. Reductorul, care rulează, colectează rezultatele din nodurile de date care execută analizele filogenetice. În acest serviciu, utilizatorul încarcă secvențe de proteine și trimite o cerere de analiză filogenetică pe portalul site-ului web. Toate lucrările de analiză trimise sunt colectate în coada de locuri de muncă și datele de secvență sunt stocate în diferite gazde de HDFS. Analizele filogenetice sunt atribuite nodurilor de date care conțin deja date de secvență. Rezultatele analizei sunt trimise atât nodului de date, cât și reductorului pentru a produce rezultatul final stocat în NFS. Utilizatorul preia rezultatul final prin conectarea la site-ul web. Serviciul este implementat după cum urmează.

Figura 5
Organigrama serviciului de analiză filogenetică ORF bazat pe cloud.

Pasul 1: depunerea de locuri de muncă. Utilizatorii își trimit munca online prin portalul web al Serviciului cloud propus. Utilizatorii fie introduc secvențele ADN/ARN comparative pe portalul web, fie Încarcă un fișier care conține secvențe ARN comparative dintr-un portal web.

Pasul 2: Traducerea secvenței. Pentru a detecta regiunile ORF, toate secvențele de ARN de intrare sunt traduse în secvențe de proteine bazate pe codul genetic. Codul genetic este setul de reguli prin care informația secvenței ARN este tradusă în proteine. Fiecare codon dintr-o secvență de ARN reprezintă de obicei un singur aminoacid specificat de codul genetic corespunzător. Codul specifică aminoacidul care urmează să fie adăugat în timpul sintezei proteinelor. Codurile genetice sunt prezentate în tabelul 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Acest pas identifică ORFs funcționale, amintesc că ORFs semnificative sunt rare. În serviciul nostru, utilizatorul poate furniza durata ORF pe care o consideră semnificativă. Serviciul localizează apoi ORFs semnificative. Un exemplu de ORFs este prezentat în Figura 6. În acest exemplu, primul ORF (notat ca AB447445_1) se extinde de la pozițiile 3 la 5099 în secvența AB447445. În această etapă, sunt construite două tipuri de arbori filogenetici, unul folosind lungimea completă a secvenței și celălalt folosind doar ORFs. Din cele trei regiuni ORF identificate în analiză, sunt construiți trei arbori filogenetici ORF. Acești arbori sunt înregistrați în format ph și sunt apoi transferați și stocați în portal. Între timp, se calculează valoarea diversității fiecărei poziții din secvență. Aceste valori sunt salvate într-un fișier.

Figura 6
un exemplu de ORFs detectat de ORF finder.

Pasul 4: raportați rezultatul. În acest pas, arborii formatați cu ph sunt desenați ca trei diagrame și afișați pe portal. Utilizatorul observă aceste diagrame online sau le Descarcă de pe site. În mod similar, pe site-ul web apare un grafic cu bare de diversitate agregată.

3. Experiment

serviciul cloud propus pentru analiza virusului a fost efectuat pe patru servere IBM blade. Fiecare server a fost echipat cu două procesoare Intel Xeon Quad-Core de 2,26 GHz, 24 GB RAM și hard disk de 296 GB, care rulează sub sistemul de operare Ubuntu versiunea 10.4, cu 8 mașini virtuale pe fiecare server. Hadoop versiunea 0.2 platforma MapReduce a fost instalat pe fiecare server. Un VM a constituit trackerul de locuri de muncă și nodul de nume; celelalte sunt trackere de sarcini și noduri de date. Job tracker este, de asemenea, portalul serviciului nostru cloud. Portalul este prezentat în Figura 7.

Figura 7
portalul serviciului de analiză filogenetică ORF bazat pe cloud.

mediul nostru cloud actual permite opt mașini virtuale. Două dintre aceste VM – uri sunt nodul de nume și nodul de date care rulează reductorul; restul de șase sunt responsabili pentru funcționarea hărții. Pentru experiment, am produs aleatoriu trei seturi de date, fiecare conținând 20 de secvențe de lungimi diferite (300, 400 și 600 nucleotide). Toate secvențele din fiecare set de date au fost comparate prin metode de analiză filogenetică. ClustalW și serviciul propus au fost aplicate de trei ori, pentru simularea a trei analize filogenetice ORF.

timpul de calcul al serviciului propus ilustrat în Figura 8 este proporțional cu numărul de cartografi. Timpul de execuție este redus considerabil atunci când sunt utilizate șase mappers, în raport cu două mappers. Figura 9 compară performanța dintre metodele de analiză filogenetică secvențială, cum ar fi ClustalW și serviciul propus cu șase cartografi, pentru lungimi de secvență diferite. În mod clar, serviciul propus în cadrul Hadoop realizează performanțe mai bune decât analiza filogenetică secvențială standard.

figura 8
timpul de calcul al analizei filogenetice ORF bazate pe cloud cu un număr diferit de cartografi și lungimi de secvență.

Figura 9
comparații ale timpului de calcul între analizele filogenetice ORF secvențiale și cele bazate pe cloud.

4. Studiu de caz

norovirusul (NoV) este un agent etiologic important al gastroenteritei acute la nivel mondial. Provoacă diaree la toate vârstele, în special în Taiwan. Genomul NoV este un ARN monocatenar, cu sens pozitiv, poliadenilat care codifică trei cadre de citire deschise, ORF1, ORF2 și ORF3 . ORF1 codifică o polipeptidă lungă care este scindată intracelular în șase proteine de către proteinaza virală . Aceste proteine permit Nov să se reproducă în celulele gazdă . ORF2 codifică o proteină capsidă virală, VP1 , în timp ce ORF3 codifică o proteină VP2 care este considerată o componentă structurală minoră a particulelor virale, aparent responsabilă pentru exprimarea și stabilizarea VP1 . La fel ca majoritatea virusurilor ARN, NoV este genetic și antigenic divers . Virusul este împărțit provizoriu în cinci genogrupuri și mai mult de 25 de genotipuri, pe baza asemănărilor dintre secvențele ORF2 . Prin urmare, omologia acestui tip de virus poate fi identificată din asemănările ORF. Identificarea acestei omologii va ajuta la proiectarea medicamentelor virale și a vaccinului. Prin urmare, NoV a fost selectat ca studiu de caz în experimentele noastre. Am selectat cincisprezece noiembrie, care au fost descoperite în Taiwan. Aceste secvențe NoV pot fi descărcate de la NCBI.

arborii filogenetici construiți din secvențe de lungime completă și trei ORF sunt prezentați în Figura 10. Evident, acești copaci diferă unul de celălalt. Arborele Construit din secvențele de lungime completă(Figura 10 (a)) demonstrează o relație evolutivă între viruși. Cu toate acestea, diferite ORFs produc arbori distinct diferiți (figurile 10(b)-10(d)), sugerând că virușii pot copia ORFs de la alți viruși și își pot modifica funcția prin integrarea lor în propriile secvențe. Prin urmare, prin stabilirea relațiilor evolutive pentru fiecare ORF, virologii pot analiza bolile cauzate de ORF specifice. Figura 11 prezintă graficul cu bare de diversitate generat de platformă. Poziția reziduurilor de entropie ridicată este prezentată în Figura 12, care prezintă patru arbori filogenetici și graficul cu bare de diversitate. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: (a) Lungime completă, (b) ORF1, (c) ORF2 și (d) ORF3.

Figura 11
diversitate grafic cu bare pentru fiecare poziție.

Figura 12

exemplu de afișare a valorii entropiei ridicate la pozițiile specifice.

5. Concluzie

Cloud computing este livrarea online a resurselor de calcul, cum ar fi hardware și software. Utilizatorii pot accesa aplicații bazate pe cloud printr-un browser web sau prin aplicații de pe dispozitive mobile. Deși multe instrumente bioinformatice au fost dezvoltate ca aplicații web, acestea sunt de obicei implementate într-un server, care are o putere de calcul limitată. În prezent, unele instrumente au fost reamenajate ca instrumente de calcul distribuite bazate pe cadrul Hadoop. Aceste instrumente sunt ușor de implementat pe un cluster furnizat de un furnizor de cloud computing, cum ar fi Amazon EC2. Implementarea instrumentelor preexistente în mediul cloud este tendința actuală a bioinformaticii ca serviciu.

în această lucrare, propunem un serviciu de analiză filogenetică open reading frame disponibil pe scară largă, bazat pe cloud, bazat pe un cluster Hadoop folosind tehnologia de virtualizare. Virtualizarea permite serviciului propus să copieze cantități mari de locuri de muncă. Deoarece Hadoop este puternic tamponat împotriva defecțiunilor, serviciul cloud propus garantează că lucrările trimise sunt recuperate prin realocarea sarcinilor, asigurând un serviciu cloud cu disponibilitate ridicată. Studiul nostru de caz a demonstrat că serviciul nostru poate construi arbori filogenetici diferiți din comparații ale diferitelor ORFs. Aceste relații pot ajuta în mod semnificativ biologii să observe evoluțiile succesive în diferite ORF-uri. Serviciul propus poate ajuta, de asemenea, cercetările pentru a dezvolta medicamente noi împotriva virusurilor patogene.

Conflict de interese

nu există interese concurente pentru această lucrare.

recunoaștere

o parte a acestei lucrări a fost susținută de Consiliul Național al științei în cadrul granturilor CNVM-99-2632-E-126-001-MY3 și NSC-100-2221-E-126-007-MY3.



Lasă un răspuns

Adresa ta de email nu va fi publicată.