Análisis Filogenético de Marco de Lectura Abierto en la Nube

Resumen

El análisis filogenético se ha vuelto esencial para investigar las relaciones evolutivas entre virus. Estas relaciones se representan en árboles filogenéticos, en los que los virus se agrupan en función de la similitud de secuencias. Las relaciones evolutivas virales se identifican a partir de marcos de lectura abiertos en lugar de secuencias completas. Recientemente, la computación en la nube se ha vuelto popular para desarrollar herramientas bioinformáticas basadas en Internet. Biocloud es un servicio de computación bioinformática eficiente, escalable y robusto. En este artículo, proponemos un servicio de análisis filogenético de marcos de lectura abiertos basado en la nube. El servicio propuesto integra el marco de Hadoop, la tecnología de virtualización y los métodos de análisis filogenético para proporcionar un bioservicio de alta disponibilidad y gran escala. En un estudio de caso, analizamos las relaciones filogenéticas entre Norovirus. Las relaciones evolutivas se dilucidan alineando diferentes secuencias de marcos de lectura abiertos. La plataforma propuesta identifica correctamente las relaciones evolutivas entre los miembros de Norovirus.

1. Introducción

La comprensión de las relaciones evolutivas entre grupos de organismos se ha vuelto cada vez más dependiente del análisis filogenético. Las filogenias se presentan generalmente como diagramas de árboles, conocidos como árboles filogenéticos. Estos árboles se construyen a partir de similitudes genéticas y diferencias entre diferentes organismos. El análisis comparativo de secuencias es un método útil mediante el cual se puede identificar un gen, inferir la función del producto de un gen e identificar elementos funcionales novedosos. Al comparar varias secuencias a lo largo de toda su longitud, los investigadores pueden encontrar residuos conservados que probablemente se conserven por selección natural. La reconstrucción de secuencias ancestrales puede revelar el momento y la direccionalidad de las mutaciones. Estos análisis comparativos se basan en la construcción del árbol filogenético.

Un marco de lectura es un conjunto de trillizos consecutivos sin solapamiento de tres nucleótidos consecutivos. Un codón es un triplete que equivale a un aminoácido o señal de parada durante la traducción. Un marco de lectura abierto (ORF) es la sección del marco de lectura que no contiene codones de parada. No se puede producir una proteína si la transcripción de ARN cesa antes de alcanzar el codón de parada. Por lo tanto, para garantizar que el codón de parada se traduzca en la posición correcta, el sitio de pausa de terminación de transcripción se encuentra después del ORF. Los ORF pueden identificar regiones traducidas en secuencias de ADN. Los ORF largos indican regiones codificantes de proteínas candidatas en una secuencia de ADN. Los ORF también se han utilizado para clasificar varias familias de virus, incluidos los miembros de Norovirus . El Buscador de marcos de lectura abiertos (ORF Finder) es una herramienta de análisis gráfico que busca marcos de lectura abiertos en secuencias de ADN. El programa de Investigadores de ORF proporciona información sobre las secuencias de codificación y no codificación y realiza la alineación en pares de diferentes regiones de ADN. Esta herramienta identifica de manera eficiente los ORF y los convierte en códigos de aminoácidos, declarando sus respectivas posiciones en la secuencia. La alineación en pares también detecta mutaciones, incluidos polimorfismos de un solo nucleótido entre secuencias. StarORF facilita la identificación de las proteínas codificadas dentro de una secuencia de ADN. En primer lugar, la secuencia de ADN se transcribe en ARN, y se identifican todos los ORF potenciales. Estos ORF están codificados dentro de cada uno de los seis marcos de traducción (3 en la dirección hacia adelante y 3 en la dirección inversa), para que los usuarios puedan identificar el marco de traducción que produce la secuencia de codificación de proteínas más larga.

Varias organizaciones biológicas han implementado herramientas bioinformáticas en sitios web. El Centro Nacional de Información Biotecnológica (NCBI) proporciona muchas herramientas para comparar secuencias de nucleótidos o proteínas almacenadas en bases de datos, incluidos los conocidos algoritmos de BLAST. NCBI también proporciona varias bases de datos, como GenBank y SNP, en las que los biólogos pueden buscar homología o funciones específicas. El Laboratorio Europeo de Biología Molecular (EMBL) proporciona datos de libre acceso y herramientas bioinformáticas en línea a todas las facetas de la comunidad científica. Estos datos y herramientas son indispensables en los estudios médicos y biológicos. Se accede a la mayoría de estos servicios a través de Internet y se utilizan en línea.

La computación en la nube es un concepto desarrollado recientemente que ofrece recursos informáticos, ya sea hardware o software, a través de Internet. Se han propuesto muchos tipos de computación en la nube, como infraestructura como servicio (IaaS), plataforma como servicio (PaaS), software como servicio (SaaS), red como servicio (NaaS) y almacenamiento como servicio (STaaS). La mayoría de estos servicios dependen de la tecnología de virtualización: la creación de plataformas de hardware virtuales, sistemas operativos, dispositivos de almacenamiento y recursos de red. La computación en la nube es bienvenida por su facilidad de uso, virtualización, enfoque centrado en Internet, variedad de recursos, adaptación automática, escalabilidad, optimización de recursos, pago por uso, acuerdos de nivel de servicio (SLA) de servicio y SLA de infraestructura . Muchos proveedores de computación en la nube distribuyen estos recursos bajo demanda desde grandes grupos de recursos instalados en centros de datos. Amazon EC2 suministra un servicio de infraestructura, mientras que Google App Engine y la plataforma de servicios Azure de Microsoft suministran servicios de plataforma. En el mundo académico, numerosos proyectos de computación en la nube están en construcción o en pleno funcionamiento .

La computación en la nube es esencialmente un sistema de distribución que permite la computación paralela. Hadoop es un marco de software de código abierto que admite computación distribuida con uso intensivo de datos. En Hadoop, las aplicaciones se pueden implementar en grandes clústeres de ordenadores básicos. El clúster de Hadoop incluye un solo nodo maestro y varios nodos esclavos. El nodo maestro asigna trabajos a nodos esclavos, que completan las tareas asignadas. Hadoop proporciona el modelo de programación MapReduce para el procesamiento en paralelo de grandes conjuntos de datos. La tarea computacional se divide en muchas tareas pequeñas, cada una de las cuales se puede ejecutar o volver a ejecutar en un nodo de cómputo en el clúster de Hadoop. MapReduce también proporciona un sistema de archivos distribuido, el Sistema de archivos Distribuido Hadoop (HDFS), que almacena los datos en nodos de cómputo, lo que permite un ancho de banda agregado muy alto en todo el clúster. Tanto map / reduce como el sistema de archivos distribuido son robustos contra fallos. Se han rediseñado varias herramientas de análisis de secuencias como herramientas de nube basadas en la arquitectura Hadoop, como CloudBlast y CrossBow . Por lo tanto, las herramientas en línea estándar se pueden portar a la arquitectura en la nube. Tal importación de herramientas preexistentes constituye el objetivo principal de bioinformática como servicio (BaaS).

En este documento, desarrollamos un servicio en la nube de análisis filogenético ORF de alta disponibilidad y gran escala basado en la tecnología de virtualización y Hadoop. Este servicio proporciona análisis filogenéticos de ORF basados en clústeres de Hadoop para admitir múltiples solicitudes. La esencia del entorno de computación en la nube es la virtualización. La potencia de computación física se considera una utilidad de pago por el usuario que los usuarios pueden solicitar según lo deseen. La utilidad también se conoce como máquina virtual. Cada nodo de un clúster de Hadoop es una máquina virtual. Los usuarios pueden cargar sus datos o archivos de secuencia a través del nodo maestro (portal web) y, a continuación, enviar un trabajo. El trabajo se asigna al nodo esclavo que contiene los datos cargados y el nodo esclavo completa el trabajo. Dado que las comparaciones de ORF han establecido sin ambigüedades la homología de Norovirus, aquí adoptamos el Norovirus como un estudio de caso. Los resultados muestran que la herramienta de análisis basada en la nube propuesta, en virtud de la tecnología de virtualización y el marco Hadoop, puede facilitar fácilmente los BaaS. La herramienta filogenética ORF basada en la nube propuesta está disponible en http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Métodos

En este documento, proponemos un servicio de análisis filogenético ORF basado en la nube que combina el marco Hadoop, la tecnología de virtualización, la herramienta de árbol filogenético y el análisis de diversidad. Como se mencionó anteriormente, la plataforma en la nube se construye a partir de la virtualización y el marco de Hadoop. Hadoop se realiza en las máquinas virtuales creadas por tecnología de virtualización, como la Máquina virtual basada en Kernel (KVM). Hadoop realiza el análisis filogenético de una manera de computación distribuida. La arquitectura subyacente garantiza la elasticidad, escalabilidad y disponibilidad del servicio basado en la nube propuesto.

2.1. Análisis filogenético

El servicio en la nube propuesto integra el proceso de búsqueda de ORF, las contracciones filogenéticas de los árboles y el análisis de diversidad de ORF para generar un análisis filogenético completo. El procedimiento de análisis se describe a continuación y se muestra en la Figura 1.

Figura 1.

El análisis filogenético procedimiento.

Paso 1: Detección de Marcos de Lectura Abiertos. Los ORF funcionales se extraen de secuencias. Aunque existen muchos ORF en una secuencia de proteínas, la mayoría son insignificantes. El buscador ORF localiza todos los fotogramas de lectura abiertos de un tamaño mínimo especificado en una secuencia. En este estudio, se adoptó el Buscador de ORF comúnmente utilizado en el sitio web de herramientas de NCBI. Esta herramienta identifica todos los marcos de lectura abiertos utilizando los códigos genéticos estándar o alternativos.

Paso 2: Construcción de un Árbol Filogenético Basado en Marcos de Lectura Abiertos. Un árbol filogenético (o árbol evolutivo) es un diagrama de ramificación (árbol) que muestra las relaciones evolutivas inferidas entre especies biológicas u otras entidades basadas en similitudes y diferencias en sus características físicas y/o genéticas. Los taxones agrupados en el árbol son presumiblemente descendientes de un ancestro común. El análisis filogenético generalmente alinea secuencias de longitud completa. Sin embargo, diferentes ORF podrían producir diferentes árboles filogenéticos. Las alineaciones de ORF de virus pueden revelar un ancestro viral común o un ORF común a todos los virus. Tal descubrimiento ayudaría en gran medida al diseño de fármacos virales.

El árbol filogenético se calcula utilizando ClustalW . Este algoritmo construye dos árboles filogenéticos; uno basado en secuencias completas y el otro solo para ORF, revelando así la varianza entre los dos árboles.

Paso 3: Análisis de Diversidad entre Marcos de Lectura Abiertos. La diversidad generalmente representa el número de identidades diferentes en un grupo. En este trabajo, la diversidad demuestra la varianza de especies en una posición específica en la secuencia de proteínas. Un pequeño valor de diversidad en una posición implica que las secuencias de proteínas son muy similares en esa posición. Por el contrario, un valor de alta diversidad denota una baja similitud en esa posición. Un marco con alta varianza también indica que este marco muta fácilmente. Estos marcos de alta varianza se pueden usar para observar diferencias estructurales de proteínas y para ayudar al desarrollo de vacunas. En este trabajo, la diversidad se calcula a partir de la entropía de la siguiente manera: donde está el valor de la entropía y es la probabilidad de encontrar un aminoácido especificado en la posición . Para encontrar la posición significativa, se filtran los valores de entropía por debajo de un determinado umbral. En este estudio, el umbral se fijó en 1.4.

2.2. Plataforma en la nube Basada en Virtaulización y Marco de Hadoop

La plataforma en la nube para la herramienta de análisis filogenético propuesta se basa en dos tecnologías importantes: la virtualización y el marco de Hadoop. Hadoop es un sistema distribuido altamente escalable y disponible. La escalabilidad y la disponibilidad están garantizadas por HDFS, un sistema de almacenamiento distribuido autorreparable y MapReduce, un algoritmo de procesamiento distribuido específico tolerante a fallos . La arquitectura de un clúster de Hadoop se muestra en la Figura 2.

Figura 2

La arquitectura de un clúster Hadoop.

El clúster Hadoop constituye un maestro y varios nodos esclavos. El nodo maestro consta de un rastreador de trabajos, un rastreador de tareas, un nodo de nombre y un nodo de datos. Un nodo esclavo, o nodo informático, comprende un nodo de datos y un rastreador de tareas. El rastreador de trabajos asigna tareas de asignación / reducción a nodos específicos dentro del clúster, idealmente aquellos que ya contienen los datos o al menos dentro del mismo rack. Un nodo de seguimiento de tareas acepta mapear, reducir y barajar operaciones desde un rastreador de tareas. La operación mapa / reducción se muestra en la Figura 3.

Figura 3

El procedimiento de Hadoop map/reduce modelo.

HDFS es el sistema de archivos de distribución principal utilizado por el framework Hadoop. Cada archivo de entrada se divide en bloques de datos que se distribuyen a nodos de datos. Hadoop también crea múltiples réplicas de bloques de datos y los distribuye a nodos de datos en un clúster para permitir cálculos fiables y extremadamente rápidos. El nodo de nombre sirve tanto como administrador de espacio de nombres de directorio como administrador de metadatos de nodo para los HDFS. La arquitectura HDFS contiene un nodo de un solo nombre.

Una de las características deseables de Hadoop es su alta tolerancia a fallos. El HDFS permite que los datos se distribuyan entre cientos o miles de nodos o máquinas, y las tareas se calculan en nodos que contienen datos. Hadoop replica los datos, de modo que si se pierde una réplica, existen copias de seguridad. Cuando un nodo falla durante el cálculo, Hadoop reinicia la tarea detenida en otro nodo que contiene datos replicados. En el marco de Hadoop, los errores de nodo se detectan mediante el mecanismo heartbeat, mediante el cual los nodos de tareas individuales (rastreadores de tareas) se comunican constantemente con el rastreador de tareas. Si un rastreador de tareas no se comunica con el rastreador de tareas durante un período de tiempo, el rastreador de tareas asumirá que el rastreador de tareas se ha bloqueado . El rastreador de trabajos sabe qué rastreadores de tareas (nodos de datos) contienen datos replicados y emite una tarea de reinicio. En este documento, el servicio en la nube propuesto se implementó combinando la distribución de clústeres de Hadoop con un modelo de gestión. En nuestro servidor en la nube, un trabajo enviado se calcula en un nodo de datos. En lugar de procesar datos paralelos, los trabajos en sí se paralelizan. Por lo tanto, los datos enviados se distribuyen a un nodo de datos por los HDFS, mientras que el proceso de cálculo se entrega al rastreador de tareas y se copia con los datos enviados. La virtualización es un componente crítico del entorno de computación en la nube. La potencia de computación física es esencialmente una utilidad que los usuarios pueden comprar según sea necesario. El objetivo habitual de la virtualización es mejorar la escalabilidad y la utilización general de los recursos de hardware. La virtualización permite la ejecución en paralelo de varios sistemas operativos en un solo ordenador físico. Mientras que una computadora física en el sentido clásico constituye una máquina completa y real, una máquina virtual (VM) es una máquina completamente aislada que ejecuta un sistema operativo invitado dentro de la computadora física. Para garantizar la escalabilidad y la eficiencia, todos los componentes (rastreador de trabajos, rastreador de tareas, nodo de nombres y nodo de datos) de nuestro servicio en la nube funcionan como máquinas virtuales. La figura 4 muestra la arquitectura de máquinas virtuales de nuestro servicio propuesto.

Figura 4

servicio de Cloud computing basado en la tecnología de virtualización.

2.3. Servicio de Análisis Filogenético ORF basado en la nube

El servicio de análisis filogenético ORF basado en la nube se desarrolló en una plataforma de virtualización con el marco de Hadoop como se describió anteriormente. El procedimiento del servicio propuesto se muestra en la Figura 5. El nodo maestro (nodo de nombre) y el nodo esclavo (nodo de datos) son la máquina virtual maestra y la máquina virtual esclava, respectivamente. Cuando se envía una solicitud de análisis filogenético, se guarda en una cola de trabajos. El nodo maestro extrae periódicamente los trabajos de la cola de trabajos y los asigna a nodos esclavos (o mapeadores), que realizan la tarea. Al finalizar todos los trabajos, el reductor recopila los resultados y los guarda en el almacenamiento del Sistema de archivos de red (NFS). Un único resultado de comparación de un trabajo filogenético se guarda en un único archivo de NFS. Como se muestra en la Figura 5, un nodo de datos que se ejecuta en VM2 realiza un análisis filogenético y un nodo de nombre se ejecuta en VM1. El reductor, que se ejecuta , recopila los resultados de los nodos de datos que ejecutan los análisis filogenéticos. En este servicio, el usuario carga secuencias de proteínas y envía una solicitud de análisis filogenético en el portal del sitio web. Todos los trabajos de análisis enviados se recopilan en la cola de trabajos y los datos de secuencia se almacenan en diferentes hosts mediante HDFS. Los análisis filogenéticos se asignan a los nodos de datos que ya contienen datos de secuencia. Los resultados del análisis se envían tanto al nodo de datos como al reductor para producir el resultado final almacenado en NFS. El usuario recupera el resultado final iniciando sesión en el sitio web. El servicio se implementa de la siguiente manera.

Figura 5

Diagrama de flujo basado en la nube ORF análisis filogenético de servicio.

Paso 1: Presentación de Trabajo. Los usuarios envían su trabajo en línea a través del portal web del servicio en la nube propuesto. Los usuarios ingresan las secuencias comparativas de ADN / ARN en el portal web o cargan un archivo que contiene secuencias comparativas de ARN desde un portal web.

Paso 2: Traducción de secuencias. Para detectar las regiones ORF, todas las secuencias de ARN de entrada se traducen a secuencias de proteínas basadas en el código genético. El código genético es el conjunto de reglas por las cuales la información de la secuencia de ARN se traduce en proteínas. Cada codón en una secuencia de ARN generalmente representa un solo aminoácido especificado por el código genético correspondiente. El código especifica el aminoácido que se agregará a continuación durante la síntesis de proteínas. Los códigos genéticos se muestran en la Tabla 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Este paso identifica los ORF funcionales, recuerde que los ORF significativos son raros. En nuestro servicio, el usuario puede proporcionar la longitud de ORF que considere significativa. A continuación, el servicio localiza los ORF significativos. En la Figura 6 se muestra un ejemplo de ORF. En este ejemplo, el primer ORF (denotado como AB447445_1) se extiende desde las posiciones 3 a 5099 en la secuencia AB447445. En este paso, se construyen dos tipos de árboles filogenéticos, uno usando la longitud completa de la secuencia y el otro usando solo ORF. De las tres regiones ORF identificadas en el análisis, se construyen tres árboles filogenéticos ORF. Estos árboles se registran en formato ph y luego se transfieren y almacenan en el portal. Mientras tanto, se calcula el valor de diversidad de cada posición en la secuencia. Estos valores se guardan en un archivo.

Figura 6

Un ejemplo de ORFs detectado por la ORF finder.

Paso 4: Informe de resultados. En este paso, los árboles con formato de ph se dibujan como tres diagramas y se muestran en el portal. El usuario observa estos diagramas en línea o los descarga del sitio web. Del mismo modo, un gráfico de barras de diversidad agregada aparece en el sitio web.

3. Experimento

El servicio en la nube propuesto para el análisis de virus se realizó en cuatro servidores IBM blade. Cada servidor estaba equipado con dos CPU Intel Xeon de cuatro núcleos a 2,26 GHz, 24 GB de RAM y 296 GB de disco duro, que se ejecutaban bajo la versión 10.4 del sistema operativo Ubuntu, con 8 máquinas virtuales en cada servidor. La plataforma MapReduce de Hadoop versión 0.2 se instaló en cada servidor. Una máquina virtual constituyó el rastreador de trabajos y el nodo de nombre; los demás son rastreadores de tareas y nodos de datos. El rastreador de trabajos es también el portal de nuestro servicio en la nube. El portal se muestra en la Figura 7.

Figura 7

Portal de basado en la nube ORF análisis filogenético de servicio.

Nuestro actual entorno de nube permite ocho máquinas virtuales. Dos de estas máquinas virtuales son nodo de nombre y nodo de datos que ejecutan el Reductor; las seis restantes son responsables de la operación del mapa. Para el experimento, se produjeron aleatoriamente tres conjuntos de datos, cada uno con 20 secuencias de diferentes longitudes (300, 400 y 600 nucleótidos). Todas las secuencias de cada conjunto de datos se compararon mediante métodos de análisis filogenético. ClustalW y el servicio propuesto se aplicaron tres veces, para simular tres análisis filogenéticos ORF.

El tiempo de cálculo del servicio propuesto ilustrado en la Figura 8 es proporcional al número de mapeadores. El tiempo de ejecución se reduce considerablemente cuando se utilizan seis mapeadores, en comparación con dos mapeadores. La Figura 9 compara el rendimiento entre los métodos de análisis filogenético secuencial como ClustalW y el servicio propuesto con seis mapeadores, para diferentes longitudes de secuencia. Claramente, el servicio propuesto en el marco de Hadoop logra un mejor rendimiento que el análisis filogenético secuencial estándar.

Figura 8

Tiempo de cálculo del análisis filogenético ORF basado en la nube con diferentes números de mapeadores y longitudes de secuencia.

Figura 9

las Comparaciones del tiempo de cálculo secuencial basada en la nube y ORF análisis filogenético.

4. Estudio de caso

El norovirus (NoV) es un agente etiológico importante de la gastroenteritis aguda en todo el mundo. Causa diarrea en todas las edades, especialmente en Taiwán. El genoma NoV es un ARN poliadenilado de sentido positivo monocatenario que codifica tres marcos de lectura abiertos, ORF1, ORF2 y ORF3 . ORF1 codifica un polipéptido largo que es escindido intracelularmente en seis proteínas por la proteinasa viral . Estas proteínas permiten que la NOV se replique en las células huésped . ORF2 codifica una proteína de la cápside viral, VP1, mientras que ORF3 codifica una proteína VP2 que se considera un componente estructural menor de las partículas virales , aparentemente responsable de la expresión y estabilización de VP1 . Al igual que la mayoría de los virus de ARN, NoV es genética y antigénicamente diversa . El virus se divide tentativamente en cinco genogrupos y más de 25 genotipos, basados en similitudes entre secuencias ORF2 . Por lo tanto, la homología de este tipo de virus puede identificarse a partir de similitudes ORF. La identificación de esta homología ayudará en el diseño de medicamentos y vacunas virales. Por lo tanto, NoV fue seleccionado como un estudio de caso en nuestros experimentos. Seleccionamos quince NoV que se han descubierto en Taiwán. Estas secuencias de NoV se pueden descargar desde NCBI.

Los árboles filogenéticos construidos a partir de secuencias de longitud completa y tres ORF se muestran en la Figura 10. Obviamente, estos árboles difieren entre sí. El árbol construido a partir de las secuencias de longitud completa (Figura 10(a)) demuestra una relación evolutiva entre los virus. Sin embargo, diferentes ORF producen árboles claramente diferentes (Figuras 10(b)-10(d)), lo que sugiere que los virus pueden copiar ORF de otros virus y alterar su función integrándolos en sus propias secuencias. Por lo tanto, al establecer relaciones evolutivas para cada ORF, los virólogos pueden analizar las enfermedades causadas por ORF específicos. La Figura 11 muestra el gráfico de barras de diversidad generado por la plataforma. La posición de los residuos de alta entropía se muestra en la Figura 12, que muestra cuatro árboles filogenéticos y el gráfico de barras de diversidad. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: (a) largura completa, (b) ORF1, (c) ORF2, y (d) ORF3.

Figura 11

la Diversidad de gráfico de barras para cada posición.

Figura 12

Ejemplo de muestra de alta entropía de valor en las posiciones específicas.

5. Conclusión

La computación en la nube es la entrega en línea de recursos informáticos, como hardware y software. Los usuarios pueden acceder a aplicaciones basadas en la nube a través de un navegador web o a través de aplicaciones en dispositivos móviles. Aunque muchas herramientas bioinformáticas se han desarrollado como aplicaciones web, generalmente se implementan en un servidor, que tiene una potencia de computación limitada. Actualmente, algunas herramientas se han rediseñado como herramientas de computación distribuida basadas en el marco de Hadoop. Estas herramientas se implementan fácilmente en un clúster proporcionado por un proveedor de computación en la nube, como Amazon EC2. El despliegue de herramientas preexistentes en el entorno de nube es la tendencia actual de la bioinformática como servicio.

En este documento, proponemos un servicio de análisis filogenético de marcos de lectura abiertos de gran escala, disponible y basado en la nube, basado en un clúster de Hadoop que utiliza tecnología de virtualización. La virtualización permite que el servicio propuesto copie grandes cantidades de trabajos. Debido a que Hadoop está fuertemente protegido contra fallos, el servicio en la nube propuesto garantiza que los trabajos enviados se recuperen mediante reasignación de tareas, lo que garantiza un servicio en la nube de alta disponibilidad. Nuestro estudio de caso demostró que nuestro servicio puede construir diferentes árboles filogenéticos a partir de comparaciones de diferentes ORF. Estas relaciones pueden ayudar significativamente a los biólogos a observar evoluciones de secuencia en diferentes ORF. El servicio propuesto también puede ayudar a las investigaciones a desarrollar nuevos medicamentos contra los virus patógenos.

Conflicto de intereses

Este documento no tiene intereses en conflicto.

Reconocimiento

Parte de este trabajo fue apoyado por el Consejo Nacional de Ciencia bajo Subvenciones NSC-99-2632-E-126-001-MY3 y NSC-100-2221-E-126-007-MY3.



Deja una respuesta

Tu dirección de correo electrónico no será publicada.