Open Reading Frame Phylogenetic Analysis on the Cloud

Abstract

Phylogenetic analysis has become essential in research the evolutionary relationships between viruses. Estas relações são representadas em árvores filogenéticas, nas quais os vírus são agrupados com base em similaridade de sequência. As relações evolucionárias virais são identificadas a partir de quadros de leitura abertos ao invés de sequências completas. Recentemente, a cloud computing tornou-se popular para o desenvolvimento de ferramentas de Bioinformática baseadas na internet. Biocloud é um serviço de computação Bioinformática eficiente, escalável e robusto. Neste artigo, propomos um serviço de análise filogenética de leitura aberta baseado em nuvem. O serviço proposto integra o framework Hadoop, tecnologia de virtualização e métodos de análise filogenética para fornecer um biosserviço em grande escala de alta disponibilidade. Em um estudo de caso, analisamos as relações filogenéticas entre o norovírus. As relações evolutivas são elucidadas através do alinhamento de diferentes sequências de quadro de leitura aberta. A plataforma proposta identifica corretamente as relações evolutivas entre os membros do norovírus.

1. Introduction

Understanding the evolutionary relationships between groups of organisms has become increasingly reliant on phylogenetic analysis. As filogenias são geralmente apresentadas como diagramas de árvores, conhecidas como árvores filogenéticas. Estas árvores são construídas a partir de semelhanças genéticas e diferenças entre diferentes organismos. A análise comparativa de sequências é um método útil pelo qual se pode identificar o gene, inferir a função do produto de um gene, e identificar novos elementos funcionais. Ao comparar várias sequências ao longo de todo o seu comprimento, os investigadores podem encontrar resíduos conservados que são provavelmente preservados pela selecção natural. A reconstrução de sequências ancestrais pode revelar o tempo e direcionalidade das mutações. Estas análises comparativas dependem da construção filogenética da árvore.

um quadro de leitura é um conjunto de trigêmeos consecutivos, não sobreponíveis, de três nucleótidos consecutivos. Um codon é um tripleto equivalente a um aminoácido ou sinal de parada durante a tradução. Uma estrutura de leitura aberta (ORF) é a seção da estrutura de leitura que não contém codões de paragem. Uma proteína não pode ser produzida se a transcrição de ARN cessar antes de atingir o codão de paragem. Portanto, para garantir que o codon stop é traduzido na posição correta, o site de pausa de terminação de transcrição é localizado após a ORF. Os ORFs podem identificar regiões traduzidas em sequências de ADN. ORFs longos indicam regiões candidatas codificadoras de proteínas numa sequência de ADN. ORFs também foram utilizados para classificar várias famílias de vírus, incluindo membros do norovírus . O “Open Reading Frame Finder” (ORF Finder) é uma ferramenta de análise gráfica que busca quadros de leitura abertos em sequências de DNA. O programa de investigação ORF fornece informações sobre as sequências de codificação e não codificação e realiza o alinhamento em pares de diferentes regiões de ADN. Esta ferramenta identifica eficientemente os ORFs e converte-os em códigos de aminoácidos, declarando as respectivas posições na sequência. O alinhamento emparelhado também detecta mutações, incluindo polimorfismos de nucleótidos simples entre sequências. StarORF facilita a identificação das proteínas codificadas numa sequência de ADN. Primeiro, a sequência de DNA é transcrita em RNA, e todos os ORFs potenciais são identificados. Estes ORFs são codificados dentro de cada um dos seis quadros de Tradução (3 na direção da frente e 3 na direção reversa), de modo que os usuários podem identificar o quadro de tradução que produz a sequência de codificação de proteínas mais longa. várias organizações biológicas implementaram ferramentas de bioinformática em sites. The National Center for Biotechnology Information (NCBI) provides many tools for comparing database-stored nucleotide or protein sequences, including the well-known BLAST algorithms. NCBI também fornece várias bases de dados, como GenBank e SNP, nas quais biólogos podem buscar homologia ou funções específicas. O Laboratório Europeu de Biologia Molecular (EMBL) disponibiliza gratuitamente dados e ferramentas de bioinformática em linha a todas as facetas da comunidade científica. Estes dados e ferramentas são indispensáveis em estudos médicos e biológicos. A maioria destes serviços são acessados através da Internet e utilizados online.

Cloud computing é um conceito recentemente desenvolvido que fornece recursos de computação, hardware ou software, através da Internet. Muitos tipos de computação em nuvem têm sido propostas, tais como infraestrutura como serviço (IaaS), plataforma como um serviço (PaaS), software como um serviço (SaaS), a rede como um serviço (NaaS), e de armazenamento como um serviço (STaaS). A maioria destes serviços dependem da tecnologia de virtualização-a criação de plataformas virtuais de hardware, sistemas operacionais, dispositivos de armazenamento e recursos de rede. A computação em nuvem é bem-vinda por sua facilidade de uso, virtualização, foco na Internet, variedade de recursos, adaptação automática, escalabilidade, otimização de recursos, SLAs de pagamento por uso, Serviços (acordos de Nível de Serviço) e SLAs de infraestrutura . Muitos fornecedores de computação em nuvem distribuem esses recursos sob demanda a partir de grandes reservas de recursos instalados em centros de dados. A Amazon EC2 fornece um serviço de infra-estrutura, enquanto o Google App Engine e o Azure Services Platform supply services da Microsoft fornecem serviços de plataforma. Na academia, inúmeros projetos de cloud computing estão em construção ou totalmente operacionais .

Cloud computing é essencialmente um sistema de distribuição que permite a computação paralela. Hadoop é um framework de software de código aberto que suporta computação distribuída intensiva em dados. Sob o Hadoop, as aplicações podem ser implementadas em grandes grupos de computadores de commodities. O cluster Hadoop inclui um único mestre e múltiplos nós escravos. O nó mestre atribui tarefas para nós escravos, que completam as tarefas atribuídas. Hadoop fornece o modelo de programação MapReduce para processamento paralelo de grandes conjuntos de dados. A tarefa computacional é dividida em muitas tarefas pequenas, cada uma das quais pode ser executada ou reexaminada em um nó computável no cluster Hadoop. MapReduce também fornece um sistema de arquivos distribuídos, o Hadoop Distributed File System (HDFS), que armazena os dados em nós computados, permitindo uma largura de banda agregada muito alta em todo o cluster. Tanto o map / reduce quanto o sistema de arquivos distribuídos são robustos contra Falhas. Várias ferramentas de análise de sequências foram desenvolvidas como ferramentas de nuvem baseadas na arquitetura Hadoop, como CloudBlast e CrossBow . Portanto, ferramentas online padrão podem ser portadas para a arquitetura cloud. Tal importação de ferramentas pré-existentes constitui o principal objetivo da Bioinformática como um serviço (BaaS).

neste artigo, desenvolvemos um serviço de nuvem de análise filogenética ORF de alta disponibilidade com base na tecnologia de virtualização e Hadoop. Este serviço fornece análises filogenéticas de ORFs com base em clusters Hadoop para suportar vários pedidos. A essência do ambiente de computação em nuvem é a virtualização. O poder de computação física é considerado como um utilitário de usuário-pagador que os usuários podem solicitar como desejado. O utilitário também é conhecido como uma máquina virtual. Cada nó em um cluster Hadoop é uma máquina virtual. Os usuários podem enviar seus dados de sequência ou arquivos através do nó mestre (portal web) e, em seguida, enviar um trabalho. O trabalho é atribuído ao nó escravo que contém os dados enviados, e o nó escravo completa o trabalho. Uma vez que comparações ORF têm inequivocamente estabelecido a homologia do norovírus , aqui adotamos o norovírus como um estudo de caso. Os resultados mostram que a ferramenta de análise baseada na nuvem proposta, em virtude da tecnologia de virtualização e do framework Hadoop, pode facilmente facilitar a BaaS. The proposed cloud-based ORF phylogenetic tool is available at http://bioinfo.cs.pu.edu.tw/CloudORF/. 2. Methods

In this paper, we proposal a cloud-based ORF phylogenetic analysis service combining Hadoop framework, virtualization technology, phylogenetic tree tool, and diversity analysis. Como mencionado anteriormente, a plataforma cloud é construída a partir de virtualização e framework Hadoop. Hadoop é realizado no VMs criado pela tecnologia de virtualização, como a máquina Virtual baseada no Kernel (KVM). Hadoop realiza a análise filogenética de uma forma computacional distribuída. A arquitetura subjacente garante elasticidade, escalabilidade e disponibilidade do serviço proposto baseado na nuvem.

2, 1. Análise filogenética

o serviço de nuvem proposto integra o processo de busca de ORF, contrações filogenéticas de árvores, e análise de diversidade ORF para gerar uma análise filogenética completa. O procedimento da análise é descrito abaixo e mostrado na Figura 1.

Figura 1

A análise filogenética procedimento.

Passo 1: Detecção De quadros de leitura abertos. Os ORFs funcionais são extraídos de sequências. Embora muitos ORFs existam em uma sequência proteica, a maioria são insignificantes. O Localizador ORF localiza todos os quadros de leitura abertos de um tamanho mínimo especificado em uma sequência. Neste estudo, foi adoptado o localizador ORF habitualmente utilizado no sítio web do NCBI tools. Esta ferramenta identifica todos os quadros de leitura abertos usando os códigos genéticos padrão ou alternativos.

Passo 2: construção de uma árvore filogenética baseada em quadros de leitura abertos. Uma árvore filogenética (ou árvore evolutiva) é um diagrama de ramificação (árvore) que mostra as relações evolutivas inferidas entre espécies biológicas ou outras entidades baseadas em semelhanças e diferenças em suas características físicas e/ou genéticas. Os taxa agrupados na árvore são presumivelmente descendentes de um ancestral comum. A análise filogenética geralmente alinha sequências de comprimento inteiro. No entanto, diferentes ORFs podem produzir diferentes árvores filogenéticas. Os alinhamentos de vírus ORF podem revelar um ancestral viral comum ou um ORF que é comum a todos os vírus. Tal descoberta ajudaria muito o design de drogas virais.

A árvore filogenética é calculada usando ClustalW . Este algoritmo constrói duas árvores filogenéticas; uma baseada em sequências completas e a outra apenas para ORFs, revelando assim a variância entre as duas árvores. Passo 3: Análise da diversidade entre quadros de leitura abertos. A diversidade geralmente retrata o número de identidades diferentes em um grupo. Neste artigo, a diversidade demonstra a variância de espécies em uma posição específica na sequência proteica. Um pequeno valor de diversidade numa posição implica que as sequências de proteínas são muito semelhantes nessa posição. Em contraste, um alto valor de diversidade denota baixa semelhança nessa posição. Um quadro com alta variância também indica que este quadro muda facilmente. Estes quadros de alta variância podem ser utilizados para observar diferenças estruturais proteicas e para ajudar ao desenvolvimento de vacinas. Neste artigo, a diversidade é calculada a partir da entropia da seguinte forma:: onde é o valor da entropia e é a probabilidade de encontrar um aminoácido especificado na posição . Para encontrar a posição significativa, os valores de entropia abaixo de um determinado limiar são filtrados para fora. Neste estudo, o limiar foi fixado em 1,4.

2, 2. A plataforma cloud para a ferramenta de análise filogenética proposta é construída em duas tecnologias importantes: virtualização e o framework Hadoop. Hadoop é um sistema distribuído altamente escalável e disponível. A escalabilidade e Disponibilidade são garantidas por HDFS, um sistema de armazenamento distribuído de auto-cura e MapReduce, um algoritmo específico de processamento distribuído tolerante a falhas . A arquitetura de um cluster Hadoop é mostrada na Figura 2.

Figura 2

A arquitetura de um cluster Hadoop.

o aglomerado Hadoop constitui um único mestre e múltiplos nós escravos. O nó mestre consiste de um rastreador de Tarefas, Rastreador de Tarefas, nó de nome e nó de dados. Um nó escravo, ou nó de computação, compreende um nó de dados e um rastreador de Tarefas. O rastreador de Tarefas atribui Map/reduce tarefas para nós específicos dentro do cluster, idealmente aqueles que já contêm os dados ou, pelo menos, dentro do mesmo rack. Um nó de rastreador de Tarefas aceita mapear, reduzir e baralhar operações de um rastreador de Tarefas. A operação mapa/redução é apresentada na Figura 3.

Figura 3

procedimento de Hadoop mapear/reduzir modelo.

HDFS é o sistema de distribuição primária usado pela framework Hadoop. Cada arquivo de entrada é dividido em blocos de dados que são distribuídos para nós de dados. Hadoop também cria múltiplas réplicas de blocos de dados e distribui-los para nós de dados em todo um aglomerado para permitir cálculos confiáveis e extremamente rápidos. O nó de nome serve como um gerenciador de nomes de diretórios e um gerenciador de metadados de nós para o HDFS. A arquitetura HDFS contém um nó de nome único.uma das características desejáveis do Hadoop é a sua elevada tolerância à falha. O HDFS permite que os dados se espalhem por centenas ou milhares de nós ou máquinas, e as tarefas são computadas em nós de retenção de dados. Hadoop Replica dados, de modo que se uma réplica for perdida, cópias de backup existem. Quando um nó falha durante a computação, Hadoop reinicializa a tarefa parada em outro nó contendo dados replicados. No framework Hadoop, falhas de nós são detectadas usando o mecanismo de batimento cardíaco, pelo qual os nós de tarefas individuais (rastreadores de tarefas) se comunicam constantemente com o rastreador de Tarefas. Se um localizador de tarefas não conseguir comunicar com o localizador de tarefas por um período de tempo, o localizador de tarefas irá assumir que o localizador de Tarefas estoirou . O rastreador de Tarefas sabe quais rastreadores de Tarefas (nós de dados) contêm dados replicados, e emite uma tarefa de reiniciar. Neste artigo, o serviço proposto na nuvem foi implementado combinando a distribuição de clusters Hadoop com um modelo de gestão. Em nosso servidor de nuvem, um trabalho submetido é computado em um nó de dados. Em vez de processar dados paralelos, os trabalhos em si são paralelos. Portanto, os dados submetidos são distribuídos para um nó de dados pelo HDFS, enquanto o processo de computação é entregue ao rastreador de tarefas e copiado com os dados submetidos. Virtualização é um componente crítico do ambiente de computação em nuvem. O poder de computação física é essencialmente um utilitário que os usuários podem comprar conforme necessário. O objetivo habitual da virtualização é melhorar a escalabilidade e a utilização global de recursos de hardware. Virtualização permite a execução paralela de vários sistemas operacionais em um único computador físico. Enquanto um computador físico no sentido clássico constitui uma máquina completa e real, uma máquina virtual (VM) é uma máquina completamente isolada rodando um sistema operacional convidado dentro do computador físico. Para garantir a escalabilidade e eficiência, todos os componentes—Rastreador de trabalho, rastreador de Tarefas, nó de nome e nó de dados—em nosso serviço de nuvem operam como máquinas virtuais. A figura 4 mostra a arquitetura VM do nosso serviço proposto.

Figura 4

serviço de computação em Nuvem com base na tecnologia de virtualização.

2.3. Cloud-Based ORF Phylogenetic Analysis Service

Cloud-based ORF phylogenetic analysis service was developed on a virtualization platform with the Hadoop framework as described above. O procedimento do serviço proposto é apresentado na Figura 5. O nó mestre (nó nome) e nó escravo (nó de dados) são o VM mestre e VM escravo, respectivamente. Quando um pedido de análise filogenética é submetido, ele é salvo em uma fila de trabalho. O nó mestre extrai periodicamente as tarefas da fila de tarefas e atribui-as a nós escravos (ou mappers), que executam a tarefa. Na conclusão de todas as tarefas, o redutor recolhe os resultados e guarda-os no armazenamento do sistema de arquivos de rede (NFS). Um único resultado de comparação de um trabalho filogenético é salvo em um único arquivo de NFS. Como mostrado na Figura 5, um nó de dados rodando em VM2 executa uma análise filogenética e um nó de nome corre em VM1. O redutor , rodando, colabora os resultados dos nodos de dados executando as análises filogenéticas. Neste serviço, o usuário faz uploads de sequências de proteínas e submete um pedido de análise filogenética no portal do site. Todas as tarefas de análise submetidas são coletadas na fila de trabalho e os dados de sequência são armazenados em diferentes hosts por HDFS. Análises filogenéticas são atribuídas aos nós de dados que já contêm dados de sequência. Os resultados da análise são enviados para o nó de dados e redutor para produzir o resultado final armazenado em NFS. O usuário recupera o resultado final, entrando no site. O serviço é implementado da seguinte forma.

Figura 5

Fluxograma baseados em nuvem ORF análise filogenética de serviço.

Passo 1: submissão de trabalho. Os usuários submetem seu trabalho on-line através do portal web do serviço de nuvem proposto. Os usuários podem entrar nas sequências comparativas de DNA / RNA no portal web ou enviar um arquivo contendo sequências comparativas de RNA a partir de um portal web.

Passo 2: tradução Sequencial. Para detectar as regiões ORF, todas as sequências de RNA de entrada são traduzidas para sequências de proteínas baseadas no código genético. O código genético é o conjunto de regras pelas quais a informação de sequência de RNA é traduzida em proteínas. Cada codon em uma sequência de RNA geralmente representa um único aminoácido especificado pelo código genético correspondente. O código especifica o aminoácido a ser adicionado em seguida durante a síntese de proteínas. Os códigos genéticos são apresentados na Tabela 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Esta etapa identifica os ORFs funcionais, lembrando que os ORFs significativos são raros. No nosso serviço, o utilizador pode fornecer o comprimento da ORF que considera significativo. O serviço então localiza os ORFs significativos. Um exemplo de ORFs é mostrado na Figura 6. Neste exemplo, o primeiro ORF (denotado como AB447445_1) estende-se das posições 3 a 5099 na sequência AB447445. Neste passo, dois tipos de árvores filogenéticas são construídas, uma usando o comprimento da sequência completa e a outra usando apenas ORFs. A partir das três regiões ORF identificadas na análise, três árvores filogenéticas ORF são construídas. Estas árvores são registadas em formato de ph e são depois transferidas para e armazenadas no portal. Enquanto isso, o valor da diversidade de cada posição na sequência é calculado. Estes valores são salvos em um arquivo.

Figura 6

Um exemplo de ORFs detectado pela ORF finder.

Passo 4: resultado do relatório. Nesta etapa, as árvores formatadas por ph são desenhadas como três diagramas e exibidas no portal. O utilizador observa estes diagramas online ou transfere-os do sítio Web. Da mesma forma, um gráfico de barras de diversidade agregada aparece no site.

3. Experimento

o serviço de nuvem proposto para a análise de vírus foi realizado em quatro servidores IBM blade. Cada servidor foi equipado com dois processadores Quad-Core Intel Xeon 2,26 GHz, 24 GB RAM e 296 GB disco rígido, rodando sob a versão 10.4 do Ubuntu, com 8 máquinas virtuais em cada servidor. Hadoop Versão 0.2 plataforma MapReduce foi instalado em cada servidor. Um VM constituiu o rastreador de tarefas e nó de nome; os outros são rastreadores de tarefas e nós de dados. O rastreador de trabalho também é o portal do nosso serviço na nuvem. O portal é representado na Figura 7.

Figura 7

Portal baseados em nuvem ORF análise filogenética de serviço.

nosso ambiente de nuvem atual permite oito máquinas virtuais. Dois desses VMs são nó de nome e nó de dados executando o redutor; os seis restantes são responsáveis pela operação do mapa. Para a experiência, produzimos aleatoriamente três conjuntos de dados, cada um contendo 20 sequências de diferentes comprimentos (300, 400 e 600 nucleótidos). Todas as sequências em cada conjunto de dados foram comparadas por métodos de análise filogenética. ClustalW e o serviço proposto foram aplicados três vezes, para simular três análises filogenéticas ORF.

O tempo de cálculo do serviço proposto ilustrado na Figura 8 é proporcional ao número de mapeadores. O tempo de execução é consideravelmente reduzido quando seis mapeadores são usados, em relação a dois mappers. A figura 9 compara o desempenho entre métodos de análise filogenética sequencial como ClustalW e o serviço proposto com seis mappers, para diferentes comprimentos de sequência. Claramente, o serviço proposto no quadro Hadoop consegue um melhor desempenho do que a análise filogenética sequencial padrão.

Figura 8

tempo de Computação baseados em nuvem ORF análise filogenética com número diferente de mappers e seqüência de comprimentos.

Figura 9

as Comparações entre o tempo de computação entre sequencial e baseadas na nuvem ORF análises filogenéticas.

4. O norovírus (NoV) é um importante agente etiológico da gastroenterite aguda em todo o mundo. Causa diarreia em todas as idades, especialmente em Taiwan. O genoma NoV é um RNA de cadeia simples, positivo, poliadenilado codificando três quadros de leitura abertos, ORF1, ORF2 e ORF3 . O ORF1 codifica um longo polipeptídeo que é clivado intracelularmente em seis proteínas pela proteinase viral . Estas proteínas permitem ao NoV replicar-se nas células hospedeiras . ORF2 codifica uma proteína VP1 do vírus, enquanto ORF3 codifica uma proteína VP2 que é considerada como um componente estrutural menor das partículas virais , aparentemente responsável pela expressão e estabilização do VP1 . Como a maioria dos vírus RNA, NoV é geneticamente e antigenicamente diverso . O vírus é tentativamente dividido em cinco genogrupos e mais de 25 genotipos, com base nas semelhanças entre as sequências ORF2 . Portanto, a homologia deste tipo de vírus pode ser identificada a partir de semelhanças ORF. A identificação desta homologia ajudará na concepção de medicamentos virais e vacinas. Portanto, NoV foi selecionado como um estudo de caso em nossas experiências. Selecionamos quinze NoV que foram descobertos em Taiwan. Estas sequências de NoV podem ser descarregadas do NCBI.

As árvores filogenéticas construídas a partir de sequências de comprimento completo e três ORFs são mostradas na Figura 10. Obviamente, estas árvores diferem umas das outras. A árvore construída a partir das sequências de comprimento completo(Figura 10 (a)) demonstra uma relação evolutiva entre os vírus. No entanto, diferentes ORFs produzem árvores distintamente diferentes [figuras 10(b) – 10(d)], sugerindo que os vírus podem copiar ORFs de outros vírus e alterar a sua função integrando-os nas suas próprias sequências. Portanto, ao estabelecer relações evolutivas para cada ORF, os virologistas podem analisar as doenças causadas por ORFs específicos. A figura 11 mostra o gráfico de barras de diversidade gerado pela plataforma. A posição de resíduo da alta entropia é fornecida na Figura 12, que mostra quatro árvores filogenéticas e o gráfico de barras de diversidade. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) comprimento total, b) ORF1, c) ORF2 e d) ORF3.

Figura 11

Diversidade gráfico de barras para cada posição.

Figura 12

Exemplo de mostrar alta entropia valor em posições específicas.

5. Conclusion

Cloud computing is the online delivering of computing resources, such as hardware and software. Os usuários podem acessar aplicativos baseados em nuvem através de um navegador web ou através de aplicativos em dispositivos móveis. Embora muitas ferramentas de Bioinformática tenham sido desenvolvidas como aplicações web, estas são tipicamente implantadas em um servidor, que tem limitado poder de computação. Atualmente, algumas ferramentas foram reconstruídas como ferramentas de computação distribuídas com base no framework Hadoop. Estas ferramentas são prontamente implantadas em um cluster fornecido por um fornecedor de computação em nuvem como a Amazon EC2. A implantação de ferramentas pré-existentes no ambiente de nuvem é a tendência atual da Bioinformática como um serviço.

neste artigo, propomos um serviço de análise filogenética baseada em frames de leitura aberta de alta escala, com base em cloud, baseado em um cluster Hadoop usando tecnologia de virtualização. A virtualização permite ao serviço proposto copiar grandes quantidades de empregos. Como o Hadoop é fortemente tamponado contra Falhas, o serviço de nuvem proposto garante que os postos de trabalho submetidos são recuperados pela mudança de Tarefas, garantindo um serviço de nuvem de alta disponibilidade. Nosso estudo de caso demonstrou que nosso serviço pode construir diferentes árvores filogenéticas a partir de comparações de diferentes ORFs. Estas relações podem ajudar significativamente os biólogos a observar evoluções de sequência em diferentes ORFs. O serviço proposto também pode ajudar a pesquisas para desenvolver novos medicamentos contra vírus patogênicos.

conflito de interesses

não há interesses concorrentes para este papel.

Confirmação

Parte deste trabalho foi apoiado pelo Conselho Nacional de Ciência sob Subsídios NSC-99-2632-E-126-001-MY3 e NSC-100-2221-E-126-007-MY3.



Deixe uma resposta

O seu endereço de email não será publicado.