Open Reading Frame Phylogenetic Analysis on the Cloud

Abstract

L’analisi filogenetica è diventata essenziale nella ricerca delle relazioni evolutive tra virus. Queste relazioni sono raffigurate su alberi filogenetici, in cui i virus sono raggruppati in base alla somiglianza delle sequenze. Le relazioni evolutive virali sono identificate da fotogrammi di lettura aperti piuttosto che da sequenze complete. Recentemente, il cloud computing è diventato popolare per lo sviluppo di strumenti bioinformatici basati su Internet. Biocloud è un servizio di elaborazione bioinformatica efficiente, scalabile e robusto. In questo articolo, proponiamo un servizio di analisi filogenetica open reading frame basato su cloud. Il servizio proposto integra il framework Hadoop, la tecnologia di virtualizzazione e i metodi di analisi filogenetica per fornire un bioservizio su larga scala ad alta disponibilità. In un caso di studio, analizziamo le relazioni filogenetiche tra Norovirus. Le relazioni evolutive vengono chiarite allineando diverse sequenze di frame di lettura aperti. La piattaforma proposta identifica correttamente le relazioni evolutive tra i membri del Norovirus.

1. Introduzione

La comprensione delle relazioni evolutive tra gruppi di organismi è diventata sempre più dipendente dall’analisi filogenetica. Le filogenie sono solitamente presentate come diagrammi ad albero, noti come alberi filogenetici. Questi alberi sono costruiti da somiglianze genetiche e differenze tra diversi organismi. L’analisi comparativa della sequenza è un metodo utile con cui si può identificare il gene, dedurre la funzione del prodotto di un gene e identificare nuovi elementi funzionali. Confrontando diverse sequenze lungo tutta la loro lunghezza, i ricercatori possono trovare residui conservati che sono probabilmente preservati dalla selezione naturale. La ricostruzione di sequenze ancestrali può rivelare la tempistica e la direzionalità delle mutazioni. Queste analisi comparative si basano sul costrutto dell’albero filogenetico.

Un frame di lettura è un insieme di triplette consecutive non sovrapposte di tre nucleotidi consecutivi. Un codone è una tripletta che equivale a un amminoacido o un segnale di arresto durante la traduzione. Un open Reading frame (ORF) è la sezione del frame di lettura contenente codoni senza stop. Una proteina non può essere fatta se la trascrizione dell’RNA cessa prima di raggiungere il codone di arresto. Pertanto, per garantire che il codone di arresto sia tradotto nella posizione corretta, il sito di pausa di terminazione della trascrizione si trova dopo l’ORF. Gli ORFS possono identificare le regioni tradotte in sequenze di DNA. Gli ORF lunghi indicano regioni di codifica delle proteine candidate in una sequenza di DNA. ORFs inoltre è stato utilizzato per classificare le varie famiglie del virus, compreso i membri di Norovirus . L’Open Reading Frame Finder (ORF Finder) è uno strumento di analisi grafica che cerca fotogrammi di lettura aperti in sequenze di DNA. Il programma ORF Investigator fornisce informazioni sulle sequenze di codifica e non codifica ed esegue l’allineamento a coppie di diverse regioni del DNA. Questo strumento identifica in modo efficiente gli ORF e li converte in codici di aminoacidi, dichiarando le rispettive posizioni nella sequenza. L’allineamento a coppie rileva anche mutazioni, inclusi polimorfismi a singolo nucleotide tra sequenze. StarORF facilita l’identificazione delle proteine codificate all’interno di una sequenza di DNA. Innanzitutto, la sequenza del DNA viene trascritta in RNA e vengono identificati tutti i potenziali ORF. Questi ORFs sono codificati all’interno di ciascuno dei sei frame di traduzione (3 nella direzione in avanti e 3 nella direzione inversa), in modo che gli utenti possano identificare il frame di traduzione che produce la sequenza di codifica proteica più lunga.

Diverse organizzazioni biologiche hanno implementato strumenti di bioinformatica sui siti web. Il National Center for Biotechnology Information (NCBI) fornisce molti strumenti per confrontare le sequenze nucleotidiche o proteiche memorizzate nel database, inclusi i ben noti algoritmi di BLAST. NCBI fornisce anche diversi database, come GenBank e SNP, in cui i biologi possono cercare omologia o funzioni specifiche. Il Laboratorio Europeo di biologia molecolare (EMBL) fornisce dati liberamente disponibili e strumenti bioinformatici online a tutti gli aspetti della comunità scientifica. Questi dati e strumenti sono indispensabili negli studi medici e biologici. La maggior parte di questi servizi sono accessibili via Internet e utilizzati on-line.

Il cloud computing è un concetto sviluppato di recente che fornisce risorse di calcolo, hardware o software, su Internet. Molti tipi di cloud computing sono stati proposti, come infrastructure as a service (IaaS), platform as a service (PaaS), software as a service (SaaS), network as a service (NaaS) e storage as a service (STaaS). La maggior parte di questi servizi si basa sulla tecnologia di virtualizzazione: la creazione di piattaforme hardware virtuali, sistemi operativi, dispositivi di archiviazione e risorse di rete. Il cloud computing è accolto con favore per la sua facilità d’uso, virtualizzazione, messa a fuoco Internet-centric, varietà di risorse, adattamento automatico, scalabilità, ottimizzazione delle risorse, pay-per-use, servizio SLA (Service-Level Agreement), e l’infrastruttura SLA . Molti fornitori di cloud computing distribuiscono queste risorse su richiesta da grandi pool di risorse installati nei data center. Amazon EC2 fornisce un servizio di infrastruttura, mentre Google App Engine e Azure Services Platform di Microsoft forniscono servizi di piattaforma. Nel mondo accademico, numerosi progetti di cloud computing sono in costruzione o pienamente operativi .

Il cloud computing è essenzialmente un sistema di distribuzione che consente il calcolo parallelo. Hadoop è un framework software open source che supporta il calcolo distribuito ad alta intensità di dati. Sotto Hadoop, le applicazioni possono essere implementate su grandi cluster di computer commodity. Il cluster Hadoop include un singolo master e più nodi slave. Il nodo master assegna i lavori ai nodi slave, che completano le attività assegnate. Hadoop fornisce il modello di programmazione MapReduce per l’elaborazione parallela di set di dati di grandi dimensioni. L’attività di calcolo è suddivisa in molte piccole attività, ognuna delle quali può essere eseguita o riesecurata su un nodo di calcolo nel cluster Hadoop. MapReduce fornisce anche un file system distribuito, il Hadoop Distributed File System (HDFS), che memorizza i dati sui nodi di calcolo, consentendo una larghezza di banda aggregata molto elevata in tutto il cluster. Sia map / reduce che il file system distribuito sono robusti contro i guasti. Diversi strumenti di analisi delle sequenze sono stati riprogettati come strumenti cloud basati sull’architettura Hadoop, come CloudBlast e CrossBow . Pertanto, gli strumenti online standard possono essere portati sull’architettura cloud. Tale importazione di strumenti preesistenti costituisce l’obiettivo principale della bioinformatica come servizio (BaaS).

In questo articolo, sviluppiamo un servizio cloud di analisi filogenetica ORF ad alta disponibilità e su larga scala basato su tecnologia di virtualizzazione e Hadoop. Questo servizio fornisce analisi filogenetiche da ORFs basate su cluster Hadoop per supportare più richieste. L’essenza dell’ambiente di cloud computing è la virtualizzazione. La potenza fisica di calcolo è considerato come un utente paga utilità che gli utenti possono richiedere come desiderato. L’utilità è anche conosciuta come una macchina virtuale. Ogni nodo in un cluster Hadoop è una macchina virtuale. Gli utenti possono caricare i propri dati o file di sequenza tramite il nodo principale (portale Web) e quindi inviare un lavoro. Il lavoro viene assegnato al nodo slave contenente i dati caricati e il nodo slave completa il lavoro. Poiché i confronti ORF hanno stabilito in modo inequivocabile l’omologia del Norovirus , adottiamo qui il Norovirus come caso di studio. I risultati mostrano che lo strumento di analisi basato su cloud proposto, in virtù della tecnologia di virtualizzazione e del framework Hadoop, può facilmente facilitare BaaS. Lo strumento filogenetico ORF basato su cloud proposto è disponibile all’indirizzo http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Metodi

In questo articolo, proponiamo un servizio di analisi filogenetica ORF basato su cloud che combina framework Hadoop, tecnologia di virtualizzazione, strumento albero filogenetico e analisi della diversità. Come accennato in precedenza, la piattaforma cloud è costruita dalla virtualizzazione e dal framework Hadoop. Hadoop viene eseguito sulle macchine virtuali create dalla tecnologia di virtualizzazione come la macchina virtuale basata su kernel (KVM). Hadoop esegue l’analisi filogenetica in modo di calcolo distribuito. L’architettura sottostante garantisce elasticità, scalabilità e disponibilità del servizio basato su cloud proposto.

2.1. Analisi filogenetica

Il servizio cloud proposto integra il processo di ricerca ORF, le contrazioni degli alberi filogenetici e l’analisi della diversità ORF per generare un’analisi filogenetica completa. La procedura dell’analisi è descritta di seguito e mostrata in Figura 1.

Figura 1
La procedura di analisi filogenetica.

Passo 1: Rilevamento di fotogrammi di lettura aperti. Gli ORF funzionali vengono estratti dalle sequenze. Sebbene molti ORFs esistano in una sequenza proteica, la maggior parte sono insignificanti. ORF finder individua tutti i fotogrammi di lettura aperti di una dimensione minima specificata in una sequenza. In questo studio, è stato adottato il Finder ORF comunemente utilizzato sul sito Web NCBI tools. Questo strumento identifica tutti i frame di lettura aperti utilizzando i codici genetici standard o alternativi.

Passaggio 2: Costruzione di un albero filogenetico basato su frame di lettura aperti. Un albero filogenetico (o albero evolutivo) è un diagramma di ramificazione (albero) che mostra le relazioni evolutive dedotte tra specie biologiche o altre entità basate su somiglianze e differenze nelle loro caratteristiche fisiche e/o genetiche. I taxa raggruppati nell’albero discendono presumibilmente da un antenato comune. L’analisi filogenetica di solito allinea sequenze intere. Tuttavia, diversi ORFS potrebbero produrre diversi alberi filogenetici. Gli allineamenti di virus ORF potrebbero rivelare un antenato virale comune o un ORF comune a tutti i virus. Una tale scoperta aiuterebbe notevolmente la progettazione di farmaci virali.

L’albero filogenetico è calcolato usando ClustalW . Questo algoritmo costruisce due alberi filogenetici; uno basato su sequenze complete e l’altro solo per ORFs, rivelando così la varianza tra i due alberi.

Passo 3: Analisi della diversità tra i frame di lettura aperti. La diversità di solito rappresenta il numero di identità diverse in un gruppo. In questo articolo, la diversità dimostra la varianza delle specie in una posizione specifica nella sequenza proteica. Un piccolo valore di diversità in una posizione implica che le sequenze proteiche siano molto simili in quella posizione. Al contrario, un alto valore di diversità denota una bassa somiglianza in quella posizione. Un frame con alta varianza indica anche che questo frame muta facilmente. Tali frame ad alta varianza possono essere utilizzati per osservare le differenze strutturali delle proteine e per aiutare lo sviluppo del vaccino. In questo articolo, la diversità è calcolata dall’entropia come segue: dove è il valore dell’entropia ed è la probabilità di trovare un amminoacido specificato in posizione . Per trovare la posizione significativa, i valori di entropia sotto una certa soglia vengono filtrati. In questo studio, la soglia è stata fissata a 1.4.

2.2. Piattaforma cloud Basata su Virtaulization e Hadoop Framework

La piattaforma cloud per lo strumento di analisi filogenetica proposto è costruita su due importanti tecnologie: la virtualizzazione e il framework Hadoop. Hadoop è un sistema distribuito altamente scalabile e disponibile. La scalabilità e la disponibilità sono garantite da HDFS, un sistema di storage distribuito self-healing e MapReduce, uno specifico algoritmo di elaborazione distribuita fault-tolerant . L’architettura di un cluster Hadoop è mostrata in Figura 2.

Figura 2
L’architettura di un cluster Hadoop.

Il cluster Hadoop costituisce un singolo master e più nodi slave. Il nodo master è costituito da un job tracker, task tracker, name node e data node. Un nodo slave, o nodo di calcolo, comprende un nodo dati e un task tracker. Il job tracker assegna le attività map/reduce a nodi specifici all’interno del cluster, idealmente quelli già contenenti i dati o almeno all’interno dello stesso rack. Un nodo task-tracker accetta operazioni di mappatura, riduzione e riordino da un job-tracker. L’operazione mappa/riduzione è mostrata in Figura 3.

Figura 3
La procedura del modello Hadoop map / reduce.

HDFS è il file system di distribuzione principale utilizzato dal framework Hadoop. Ogni file di input è suddiviso in blocchi di dati distribuiti ai nodi di dati. Hadoop crea anche più repliche di blocchi di dati e li distribuisce ai nodi di dati in tutto un cluster per consentire calcoli affidabili ed estremamente rapidi. Il nodo nome funge sia da gestore dello spazio dei nomi delle directory che da gestore dei metadati dei nodi per HDFS. L’architettura HDFS contiene un singolo nodo nome.

Una caratteristica desiderabile di Hadoop è la sua elevata tolleranza ai guasti. L’HDFS consente ai dati di diffondersi su centinaia o migliaia di nodi o macchine e le attività vengono calcolate su nodi contenenti dati. Hadoop replica i dati, in modo che se una replica viene persa, esistono copie di backup. Quando un nodo fallisce durante il calcolo, Hadoop riavvia l’attività interrotta su un altro nodo contenente dati di replica. Nel framework Hadoop, gli errori dei nodi vengono rilevati utilizzando il meccanismo heartbeat, mediante il quale i singoli nodi delle attività (task tracker) comunicano costantemente con il job tracker. Se un task tracker non riesce a comunicare con il job tracker per un periodo di tempo, il job tracker assumerà che il task tracker è andato in crash . Il job tracker sa quali task tracker (nodi di dati) contengono dati replicati e invia un’attività di riavvio. In questo documento, il servizio cloud proposto è stato implementato combinando la distribuzione cluster Hadoop con un modello di gestione. Nel nostro server cloud, un lavoro inviato viene calcolato in un nodo dati. Invece di elaborare dati paralleli, i lavori stessi sono parallelizzati. Pertanto, i dati inviati vengono distribuiti a un nodo dati da HDFS, mentre il processo di elaborazione viene consegnato al task tracker e copiato con i dati inviati. La virtualizzazione è un componente fondamentale dell’ambiente di cloud computing. La potenza fisica di calcolo è essenzialmente un’utilità che gli utenti possono acquistare come richiesto. L’obiettivo abituale della virtualizzazione è migliorare la scalabilità e l’utilizzo complessivo delle risorse hardware. La virtualizzazione consente l’esecuzione parallela di diversi sistemi operativi su un singolo computer fisico. Mentre un computer fisico nel senso classico costituisce una macchina completa e reale, una macchina virtuale (VM) è una macchina completamente isolata che esegue un sistema operativo guest all’interno del computer fisico. Per garantire scalabilità ed efficienza, tutti i componenti-job tracker, task tracker, name node e data node—nel nostro servizio cloud operano come macchine virtuali. La figura 4 mostra l’architettura VM del nostro servizio proposto.

Figura 4
Servizio di cloud computing basato sulla tecnologia di virtualizzazione.

2.3. Servizio di analisi filogenetica ORF basato su cloud

Il servizio di analisi filogenetica ORF basato su cloud è stato sviluppato su una piattaforma di virtualizzazione con il framework Hadoop come descritto sopra. La procedura del servizio proposto è mostrata nella Figura 5. Il nodo master (nodo nome) e il nodo slave (nodo dati) sono rispettivamente la VM master e la VM slave. Quando viene inviata una richiesta di analisi filogenetica, viene salvata in una coda di lavoro. Il nodo master estrae periodicamente i lavori dalla coda di lavoro e li assegna ai nodi slave (o mapper), che eseguono l’attività. Al completamento di tutti i lavori, il riduttore raccoglie i risultati e li salva nell’archiviazione del file system di rete (NFS). Un singolo risultato di confronto di un lavoro filogenetico viene salvato in un singolo file di NFS. Come mostrato in Figura 5, un nodo dati in esecuzione in VM2 esegue un’analisi filogenetica e un nodo nome viene eseguito in VM1. Il riduttore , in esecuzione, raccoglie i risultati dai nodi di dati che eseguono le analisi filogenetiche. In questo servizio, l’utente carica sequenze proteiche e invia una richiesta di analisi filogenetica sul portale del sito web. Tutti i lavori di analisi inviati vengono raccolti nella coda di lavoro e i dati della sequenza vengono memorizzati in host diversi da HDFS. Le analisi filogenetiche sono assegnate ai nodi di dati che già contengono dati di sequenza. I risultati dell’analisi vengono inviati sia al nodo dati che al riduttore per produrre il risultato finale memorizzato in NFS. L’utente recupera il risultato finale accedendo al sito web. Il servizio è implementato come segue.

Figura 5
Diagramma di flusso del servizio di analisi filogenetica ORF basato su cloud.

Passaggio 1: Invio del lavoro. Gli utenti inviano il loro lavoro online attraverso il portale web del servizio cloud proposto. Gli utenti inseriscono le sequenze comparative di DNA / RNA sul portale web o caricano un file contenente sequenze comparative di RNA da un portale web.

Passo 2: Traduzione sequenza. Per rilevare le regioni ORF, tutte le sequenze di RNA di input sono tradotte in sequenze proteiche basate sul codice genetico. Il codice genetico è l’insieme delle regole con cui le informazioni sulla sequenza di RNA vengono tradotte in proteine. Ogni codone in una sequenza di RNA di solito rappresenta un singolo amminoacido specificato dal codice genetico corrispondente. Il codice specifica l’amminoacido da aggiungere successivamente durante la sintesi proteica. I codici genetici sono riportati nella Tabella 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Questo passaggio identifica gli ORF funzionali, ricorda che gli ORF significativi sono rari. Nel nostro servizio, l’utente può fornire la lunghezza di ORF che considera significativa. Il servizio individua quindi gli ORF significativi. Un esempio di ORFs è mostrato in Figura 6. In questo esempio, il primo ORF (indicato come AB447445_1) si estende dalle posizioni 3 a 5099 nella sequenza AB447445. In questa fase, vengono costruiti due tipi di alberi filogenetici, uno utilizzando la lunghezza della sequenza completa e l’altro utilizzando solo ORFs. Dalle tre regioni ORF identificate nell’analisi, vengono costruiti tre alberi filogenetici ORF. Questi alberi sono registrati in formato ph e vengono poi trasferiti e memorizzati nel portale. Nel frattempo, viene calcolato il valore di diversità di ciascuna posizione nella sequenza. Questi valori vengono salvati in un file.

Figura 6
Un esempio di ORFs rilevato da ORF finder.

Passaggio 4: Segnala il risultato. In questo passaggio, gli alberi formattati ph vengono disegnati come tre diagrammi e visualizzati sul portale. L’utente osserva questi diagrammi online o li scarica dal sito web. Allo stesso modo, un grafico a barre di diversità aggregata appare sul sito web.

3. Esperimento

Il servizio cloud proposto per l’analisi dei virus è stato eseguito su quattro server blade IBM. Ogni server era dotato di due CPU Intel Xeon 2.26 GHz Quad-Core, 24 GB di RAM e 296 GB di hard disk, in esecuzione con il sistema operativo Ubuntu versione 10.4, con 8 macchine virtuali su ciascun server. Hadoop versione 0.2 MapReduce piattaforma è stata installata su ogni server. Una VM costituiva il job tracker e il name node; gli altri sono task tracker e data node. Il job tracker è anche il portale del nostro servizio cloud. Il portale è raffigurato nella Figura 7.

Figura 7
Portale del servizio di analisi filogenetica ORF basato su cloud.

Il nostro ambiente cloud attuale consente otto macchine virtuali. Due di queste macchine virtuali sono nodo nome e nodo dati che eseguono il riduttore; i restanti sei sono responsabili del funzionamento della mappa. Per l’esperimento, abbiamo prodotto casualmente tre set di dati, ciascuno contenente 20 sequenze di lunghezze diverse (300, 400 e 600 nucleotidi). Tutte le sequenze in ciascun set di dati sono state confrontate con metodi di analisi filogenetica. ClustalW e il servizio proposto sono stati applicati tre volte, per simulare tre analisi filogenetiche ORF.

Il tempo di calcolo del servizio proposto illustrato nella Figura 8 è proporzionale al numero di mappatori. Il tempo di esecuzione è notevolmente ridotto quando vengono utilizzati sei mapper, rispetto a due mapper. La figura 9 confronta le prestazioni tra i metodi di analisi filogenetica sequenziale come ClustalW e il servizio proposto con sei mappatori, per diverse lunghezze di sequenza. Chiaramente, il servizio proposto nel framework Hadoop raggiunge prestazioni migliori rispetto all’analisi filogenetica sequenziale standard.

Figura 8
Tempo di calcolo dell’analisi filogenetica ORF basata su cloud con diverso numero di mapper e lunghezze di sequenza.

Figura 9
Confronti del tempo di calcolo tra analisi filogenetiche ORF sequenziali e basate su cloud.

4. Caso di studio

Il norovirus (NoV) è un importante agente eziologico della gastroenterite acuta in tutto il mondo. Provoca diarrea in tutte le età, specialmente a Taiwan. Il genoma di NoV è un singolo filamento, senso positivo, RNA poliadenilato che codifica tre fotogrammi di lettura aperti, ORF1, ORF2 e ORF3 . ORF1 codifica un lungo polipeptide che viene scisso intracellulare in sei proteine dalla proteinasi virale . Queste proteine permettono a NoV di replicarsi nelle cellule ospiti . ORF2 codifica una proteina del capside virale, VP1, mentre ORF3 codifica una proteina VP2 che è considerata una componente strutturale minore delle particelle virali, apparentemente responsabile dell’espressione e della stabilizzazione di VP1 . Come la maggior parte dei virus a RNA, NoV è geneticamente e antigenicamente diversa . Il virus è provvisoriamente diviso in cinque genogruppi e più di 25 genotipi, sulla base di somiglianze tra sequenze ORF2 . Pertanto, l’omologia di questo tipo di virus può essere identificata da somiglianze ORF. Identificare questa omologia aiuterà nella progettazione di farmaci virali e vaccini. Pertanto, NoV è stato selezionato come caso di studio nei nostri esperimenti. Abbiamo selezionato quindici novembre che sono stati scoperti a Taiwan. Queste sequenze NoV possono essere scaricati da NCBI.

Gli alberi filogenetici costruiti da sequenze a tutta lunghezza e tre ORF sono mostrati in Figura 10. Ovviamente, questi alberi differiscono l’uno dall’altro. L’albero costruito dalle sequenze a tutta lunghezza(Figura 10 (a)) dimostra una relazione evolutiva tra i virus. Tuttavia, diversi ORFs producono alberi nettamente diversi(Figure 10 (b) -10(d)), suggerendo che i virus possono copiare ORFs da altri virus e alterare la loro funzione integrandoli nelle proprie sequenze. Pertanto, stabilendo relazioni evolutive per ciascun ORF, i virologi possono analizzare le malattie causate da specifici ORF. La figura 11 mostra il grafico a barre della diversità generato dalla piattaforma. La posizione del residuo di alta entropia è fornita nella Figura 12, che mostra quattro alberi filogenetici e il grafico a barre della diversità. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) lunghezza totale, b) ORF1, c) ORF2 e d) ORF3.

Figura 11
Grafico a barre di diversità per ogni posizione.

Figura 12
Esempio di visualizzazione di un alto valore di entropia nelle posizioni specifiche.

5. Conclusione

Il cloud computing è la fornitura online di risorse di calcolo, come hardware e software. Gli utenti possono accedere alle applicazioni basate su cloud tramite un browser Web o tramite applicazioni su dispositivi mobili. Sebbene molti strumenti bioinformatici siano stati sviluppati come applicazioni web, questi sono in genere distribuiti in un server, che ha una potenza di calcolo limitata. Attualmente, alcuni strumenti sono stati riprogettati come strumenti di calcolo distribuito basati sul framework Hadoop. Questi strumenti sono facilmente implementati su un cluster fornito da un fornitore di cloud computing come Amazon EC2. L’implementazione di strumenti preesistenti nell’ambiente cloud è la tendenza attuale della bioinformatica come servizio.

In questo articolo, proponiamo un servizio di analisi filogenetica open reading frame su larga scala e disponibile basato su cloud basato su un cluster Hadoop che utilizza la tecnologia di virtualizzazione. La virtualizzazione consente al servizio proposto di copiare grandi quantità di lavori. Poiché Hadoop è fortemente tamponato contro i guasti, il servizio cloud proposto garantisce che i lavori inviati vengano recuperati mediante riassegnazione delle attività, garantendo un servizio cloud ad alta disponibilità. Il nostro caso di studio ha dimostrato che il nostro servizio può costruire diversi alberi filogenetici da confronti di diversi ORF. Queste relazioni possono aiutare in modo significativo i biologi ad osservare evoluzioni di sequenza in diversi ORF. Il servizio proposto può anche aiutare le ricerche a sviluppare nuovi farmaci contro i virus patogeni.

Conflitto di interessi

Non ci sono interessi in competizione per questo documento.

Riconoscimento

Parte di questo lavoro è stato sostenuto dal Consiglio Nazionale della Scienza sotto sovvenzioni NSC-99-2632-E-126-001-MY3 e NSC-100-2221-E-126-007-MY3.



Lascia un commento

Il tuo indirizzo email non sarà pubblicato.