Cadre de lecture ouvert Analyse phylogénétique sur le Nuage
Résumé
L’analyse phylogénétique est devenue essentielle dans la recherche des relations évolutives entre les virus. Ces relations sont représentées sur des arbres phylogénétiques, dans lesquels les virus sont regroupés en fonction de la similitude des séquences. Les relations évolutives virales sont identifiées à partir de cadres de lecture ouverts plutôt que de séquences complètes. Récemment, le cloud computing est devenu populaire pour développer des outils de bioinformatique basés sur Internet. Biocloud est un service de calcul bioinformatique efficace, évolutif et robuste. Dans cet article, nous proposons un service d’analyse phylogénétique de cadre de lecture ouvert basé sur le cloud. Le service proposé intègre le framework Hadoop, la technologie de virtualisation et les méthodes d’analyse phylogénétique pour fournir un bioservice haute disponibilité à grande échelle. Dans une étude de cas, nous analysons les relations phylogénétiques entre les norovirus. Les relations évolutives sont élucidées en alignant différentes séquences de cadre de lecture ouvertes. La plate-forme proposée identifie correctement les relations évolutives entre les membres du Norovirus.
1. Introduction
La compréhension des relations évolutives entre groupes d’organismes dépend de plus en plus de l’analyse phylogénétique. Les phylogénies sont généralement présentées sous forme de diagrammes d’arbres, appelés arbres phylogénétiques. Ces arbres sont construits à partir de similitudes génétiques et de différences entre différents organismes. L’analyse comparative des séquences est une méthode utile permettant d’identifier un gène, d’en déduire la fonction du produit d’un gène et d’identifier de nouveaux éléments fonctionnels. En comparant plusieurs séquences sur toute leur longueur, les chercheurs peuvent trouver des résidus conservés qui sont probablement préservés par la sélection naturelle. La reconstruction de séquences ancestrales peut révéler le moment et la directivité des mutations. Ces analyses comparatives reposent sur la construction de l’arbre phylogénétique.
Un cadre de lecture est un ensemble de triplets consécutifs non superposés de trois nucléotides consécutifs. Un codon est un triplet assimilant un acide aminé ou un signal d’arrêt lors de la traduction. Un cadre de lecture ouvert (ORF) est la section d’un cadre de lecture ne contenant aucun codon d’arrêt. Une protéine ne peut pas être fabriquée si la transcription de l’ARN cesse avant d’atteindre le codon stop. Par conséquent, pour s’assurer que le codon d’arrêt est traduit à la position correcte, le site de pause de terminaison de transcription est situé après l’ORF. Les ORF peuvent identifier des régions traduites dans des séquences d’ADN. Les ORF longs indiquent des régions codantes de protéines candidates dans une séquence d’ADN. Les ORF ont également été utilisés pour classer diverses familles de virus, y compris les membres du norovirus. L’Open Reading Frame Finder (ORF Finder) est un outil d’analyse graphique qui recherche des cadres de lecture ouverts dans des séquences d’ADN. Le programme de recherche ORF fournit des informations sur les séquences codantes et non codantes et effectue l’alignement par paires de différentes régions d’ADN. Cet outil identifie efficacement les ORF et les convertit en codes d’acides aminés, déclarant leurs positions respectives dans la séquence. L’alignement par paires détecte également les mutations, y compris les polymorphismes mononucléotidiques entre séquences. StarORF facilite l’identification de la ou des protéines codées au sein d’une séquence d’ADN. Tout d’abord, la séquence d’ADN est transcrite en ARN et tous les ORF potentiels sont identifiés. Ces ORF sont codés dans chacune des six trames de traduction (3 dans le sens avant et 3 dans le sens inverse), de sorte que les utilisateurs puissent identifier la trame de traduction donnant la séquence codante protéique la plus longue.
Plusieurs organisations biologiques ont mis en place des outils de bioinformatique sur des sites Web. Le National Center for Biotechnology Information (NCBI) fournit de nombreux outils pour comparer des séquences de nucléotides ou de protéines stockées dans des bases de données, y compris les algorithmes de BLAST bien connus. NCBI fournit également plusieurs bases de données, telles que GenBank et SNP, dans lesquelles les biologistes peuvent rechercher une homologie ou des fonctions spécifiques. Le Laboratoire Européen de Biologie Moléculaire (EMBL) fournit des données et des outils de bioinformatique en ligne disponibles gratuitement à toutes les facettes de la communauté scientifique. Ces données et outils sont indispensables dans les études médicales et biologiques. La plupart de ces services sont accessibles via Internet et utilisés en ligne.
Le Cloud computing est un concept récemment développé qui fournit des ressources informatiques, matérielles ou logicielles, sur Internet. De nombreux types de cloud computing ont été proposés, tels que l’infrastructure en tant que service (IaaS), la plate-forme en tant que service (PaaS), le logiciel en tant que service (SaaS), le réseau en tant que service (NaaS) et le stockage en tant que service (STaaS). La plupart de ces services reposent sur la technologie de virtualisation — la création de plates-formes matérielles virtuelles, de systèmes d’exploitation, de périphériques de stockage et de ressources réseau. Le Cloud computing est apprécié pour sa convivialité, sa virtualisation, sa focalisation centrée sur Internet, sa variété de ressources, son adaptation automatique, son évolutivité, son optimisation des ressources, son paiement à l’utilisation, ses SLA de service (Accords de niveau de service) et ses SLA d’infrastructure. De nombreux fournisseurs de cloud computing distribuent ces ressources à la demande à partir de grands pools de ressources installés dans des centres de données. Amazon EC2 fournit un service d’infrastructure, tandis que Google App Engine et la plate-forme Azure Services de Microsoft fournissent des services de plate-forme. Dans le monde universitaire, de nombreux projets de cloud computing sont en construction ou pleinement opérationnels.
Le Cloud computing est essentiellement un système de distribution qui permet le calcul parallèle. Hadoop est un framework logiciel open source qui prend en charge le calcul distribué à forte intensité de données. Sous Hadoop, les applications peuvent être implémentées sur de grands groupes d’ordinateurs de base. Le cluster Hadoop comprend un seul nœud maître et plusieurs nœuds esclaves. Le nœud maître attribue des tâches aux nœuds esclaves, qui terminent les tâches assignées. Hadoop fournit le modèle de programmation MapReduce pour le traitement parallèle de grands ensembles de données. La tâche de calcul est divisée en plusieurs petites tâches, chacune pouvant être exécutée ou réexécutée sur un nœud de calcul du cluster Hadoop. MapReduce fournit également un système de fichiers distribué, le Hadoop Distributed File System (HDFS), qui stocke les données sur les nœuds de calcul, permettant une bande passante agrégée très élevée à travers le cluster. map/reduce et le système de fichiers distribué sont robustes contre les pannes. Plusieurs outils d’analyse de séquences ont été réaménagés en outils cloud basés sur l’architecture Hadoop, tels que CloudBlast et CrossBow. Par conséquent, les outils en ligne standard peuvent être portés sur l’architecture cloud. Cette importation d’outils préexistants constitue l’objectif principal de la bioinformatique en tant que service (BaaS).
Dans cet article, nous développons un service cloud d’analyse phylogénétique ORF haute disponibilité et à grande échelle basé sur la technologie de virtualisation et Hadoop. Ce service fournit des analyses phylogénétiques à partir d’ORF basées sur des clusters Hadoop pour prendre en charge plusieurs demandes. L’essence de l’environnement de cloud computing est la virtualisation. La puissance de calcul physique est considérée comme un utilitaire payant que les utilisateurs peuvent demander à leur guise. L’utilitaire est également connu sous le nom de machine virtuelle. Chaque nœud d’un cluster Hadoop est une machine virtuelle. Les utilisateurs peuvent télécharger leurs données de séquence ou leurs fichiers via le nœud maître (portail Web), puis soumettre une tâche. La tâche est affectée au nœud esclave contenant les données téléchargées et le nœud esclave termine la tâche. Puisque les comparaisons ORF ont établi sans ambiguïté l’homologie du Norovirus, nous adoptons ici le norovirus comme étude de cas. Les résultats montrent que l’outil d’analyse en nuage proposé, en vertu de la technologie de virtualisation et du cadre Hadoop, peut facilement faciliter les BaaS. L’outil phylogénétique ORF proposé en nuage est disponible à l’adresse http://bioinfo.cs.pu.edu.tw/CloudORF/.
2. Methods
Dans cet article, nous proposons un service d’analyse phylogénétique ORF basé sur le cloud combinant le framework Hadoop, la technologie de virtualisation, l’outil d’arbre phylogénétique et l’analyse de la diversité. Comme mentionné précédemment, la plate-forme cloud est construite à partir de la virtualisation et du framework Hadoop. Hadoop est effectué sur les machines virtuelles créées par la technologie de virtualisation telle que la Machine virtuelle basée sur le noyau (KVM). Hadoop effectue l’analyse phylogénétique de manière informatique distribuée. L’architecture sous-jacente garantit l’élasticité, l’évolutivité et la disponibilité du service cloud proposé.
2.1. Analyse phylogénétique
Le service cloud proposé intègre le processus de recherche de l’ORF, les contractions d’arbres phylogénétiques et l’analyse de la diversité de l’ORF pour générer une analyse phylogénétique complète. La procédure d’analyse est décrite ci-dessous et illustrée à la figure 1.
La procédure d’analyse phylogénétique.
Étape 1: Détection Des Images De lecture ouvertes. Les ORF fonctionnels sont extraits de séquences. Bien que de nombreux ORF existent dans une séquence protéique, la plupart sont insignifiants. Le chercheur ORF localise toutes les images de lecture ouvertes d’une taille minimale spécifiée dans une séquence. Dans cette étude, le chercheur d’ORF couramment utilisé sur le site Web des outils NCBI a été adopté. Cet outil identifie tous les cadres de lecture ouverts à l’aide des codes génétiques standard ou alternatifs.
Étape 2: Construction d’un Arbre Phylogénétique Basé sur des Cadres de Lecture Ouverts. Un arbre phylogénétique (ou arbre évolutif) est un diagramme de ramification (arbre) montrant les relations évolutives inférées entre des espèces biologiques ou d’autres entités basées sur des similitudes et des différences dans leurs caractéristiques physiques et / ou génétiques. Les taxons regroupés dans l’arbre descendent vraisemblablement d’un ancêtre commun. L’analyse phylogénétique aligne généralement les séquences sur toute la longueur. Cependant, différents ORF peuvent donner des arbres phylogénétiques différents. Les alignements de virus ORF peuvent révéler un ancêtre viral commun ou un ORF commun à tous les virus. Une telle découverte aiderait grandement la conception de médicaments viraux.
L’arbre phylogénétique est calculé en utilisant ClustalW. Cet algorithme construit deux arbres phylogénétiques ; l’un basé sur des séquences complètes et l’autre pour les ORF uniquement, révélant ainsi la variance entre les deux arbres.
Étape 3: Analyse de la diversité parmi les Cadres de lecture ouverts. La diversité représente généralement le nombre d’identités différentes dans un groupe. Dans cet article, la diversité démontre la variance des espèces à une position spécifique dans la séquence protéique. Une faible valeur de diversité à une position implique que les séquences protéiques sont très similaires à cette position. En revanche, une valeur de diversité élevée indique une faible similitude à cette position. Une trame à forte variance indique également que cette trame mute facilement. De tels cadres à forte variance peuvent être utilisés pour observer les différences structurelles des protéines et pour faciliter le développement de vaccins. Dans cet article, la diversité est calculée à partir de l’entropie comme suit: où est la valeur de l’entropie et la probabilité de trouver un acide aminé spécifié à la position. Pour trouver la position significative, les valeurs d’entropie sous un certain seuil sont filtrées. Dans cette étude, le seuil a été fixé à 1,4.
2.2. Plate-forme Cloud Basée sur la virtualisation et le framework Hadoop
La plate-forme cloud pour l’outil d’analyse phylogénétique proposé est construite sur deux technologies importantes: la virtualisation et le framework Hadoop. Hadoop est un système distribué hautement évolutif et disponible. L’évolutivité et la disponibilité sont garanties par HDFS, un système de stockage distribué auto-réparateur et MapReduce, un algorithme de traitement distribué spécifique tolérant aux pannes. L’architecture d’un cluster Hadoop est illustrée à la figure 2.
L’architecture d’un cluster Hadoop.
Le cluster Hadoop constitue un seul nœud maître et plusieurs nœuds esclaves. Le nœud maître se compose d’un traqueur de tâches, d’un traqueur de tâches, d’un nœud de nom et d’un nœud de données. Un nœud esclave, ou nœud informatique, comprend un nœud de données et un traqueur de tâches. Le suivi des tâches attribue des tâches de mappage/réduction à des nœuds spécifiques du cluster, idéalement ceux contenant déjà les données ou au moins dans le même rack. Un nœud de suivi de tâches accepte les opérations de mappage, de réduction et de mélange à partir d’un suivi de tâches. L’opération map/reduce est illustrée à la figure 3.
La procédure du modèle Hadoop map/reduce.
HDFS est le système de fichiers de distribution principal utilisé par le framework Hadoop. Chaque fichier d’entrée est divisé en blocs de données qui sont distribués aux nœuds de données. Hadoop crée également plusieurs répliques de blocs de données et les distribue aux nœuds de données d’un cluster pour permettre des calculs fiables et extrêmement rapides. Le nœud de nom sert à la fois de gestionnaire d’espace de noms de répertoire et de gestionnaire de métadonnées de nœud pour le HDFS. L’architecture HDFS contient un nœud de nom unique.
Une des caractéristiques souhaitables de Hadoop est sa tolérance aux pannes élevée. Le HDFS permet aux données de se répartir sur des centaines ou des milliers de nœuds ou de machines, et les tâches sont calculées sur des nœuds détenteurs de données. Hadoop réplique les données, de sorte qu’en cas de perte d’un réplica, des copies de sauvegarde existent. Lorsqu’un nœud échoue pendant le calcul, Hadoop redémarre la tâche arrêtée sur un autre nœud contenant des données de réplication. Dans le framework Hadoop, les défaillances de nœuds sont détectées à l’aide du mécanisme de pulsation, par lequel des nœuds de tâche individuels (trackers de tâches) communiquent constamment avec le traqueur de tâches. Si un traqueur de tâches ne parvient pas à communiquer avec le traqueur de tâches pendant un certain temps, le traqueur de tâches supposera que le traqueur de tâches s’est écrasé. Le traqueur de tâches sait quels traqueurs de tâches (nœuds de données) contiennent des données répliquées et émet une tâche de redémarrage. Dans cet article, le service cloud proposé a été implémenté en combinant la distribution de clusters Hadoop avec un modèle de gestion. Dans notre serveur cloud, une tâche soumise est calculée dans un nœud de données. Plutôt que de traiter des données parallèles, les travaux eux-mêmes sont parallélisés. Par conséquent, les données soumises sont distribuées à un nœud de données par le HDFS, tandis que le processus de calcul est livré au traqueur de tâches et copié avec les données soumises. La virtualisation est une composante essentielle de l’environnement de cloud computing. La puissance de calcul physique est essentiellement un utilitaire que les utilisateurs peuvent acheter au besoin. L’objectif habituel de la virtualisation est d’améliorer l’évolutivité et l’utilisation globale des ressources matérielles. La virtualisation permet le fonctionnement parallèle de plusieurs systèmes d’exploitation sur un seul ordinateur physique. Alors qu’un ordinateur physique au sens classique du terme constitue une machine complète et réelle, une machine virtuelle (VM) est une machine complètement isolée exécutant un système d’exploitation invité au sein de l’ordinateur physique. Pour garantir l’évolutivité et l’efficacité, tous les composants — suivi des tâches, suivi des tâches, nœud de nom et nœud de données — de notre service cloud fonctionnent comme des machines virtuelles. La figure 4 montre l’architecture de la machine virtuelle de notre service proposé.
Service de Cloud computing basé sur la technologie de virtualisation.
2.3. Service d’Analyse phylogénétique ORF basé sur le Cloud
Le service d’analyse phylogénétique ORF basé sur le cloud a été développé sur une plate-forme de virtualisation avec le framework Hadoop comme décrit ci-dessus. La procédure du service proposé est illustrée à la figure 5. Le nœud maître (nœud de nom) et le nœud esclave (nœud de données) sont respectivement la machine virtuelle maître et la machine virtuelle esclave. Lorsqu’une demande d’analyse phylogénétique est soumise, elle est enregistrée dans une file d’attente de travaux. Le nœud maître extrait périodiquement les tâches de la file d’attente des tâches et les affecte aux nœuds esclaves (ou mappeurs), qui exécutent la tâche. À la fin de toutes les tâches, le réducteur collecte les résultats et les enregistre dans le stockage du système de fichiers réseau (NFS). Un seul résultat de comparaison d’un travail phylogénétique est enregistré dans un seul fichier de NFS. Comme le montre la figure 5, un nœud de données s’exécutant dans VM2 effectue une analyse phylogénétique et un nœud de nom s’exécute dans VM1. Le réducteur, en cours d’exécution, rassemble les résultats des nœuds de données exécutant les analyses phylogénétiques. Dans ce service, l’utilisateur télécharge des séquences protéiques et soumet une demande d’analyse phylogénétique sur le portail du site Web. Toutes les tâches d’analyse soumises sont rassemblées dans la file d’attente des tâches et les données de séquence sont stockées dans différents hôtes par HDFS. Des analyses phylogénétiques sont affectées aux nœuds de données contenant déjà des données de séquence. Les résultats d’analyse sont envoyés à la fois au nœud de données et au réducteur pour produire le résultat final stocké dans NFS. L’utilisateur récupère le résultat final en se connectant au site Web. Le service est implémenté comme suit.
Organigramme du service d’analyse phylogénétique ORF basé sur le cloud.
Étape 1: Soumission du travail. Les utilisateurs soumettent leur travail en ligne via le portail Web du service cloud proposé. Les utilisateurs saisissent les séquences d’ADN/ARN comparatives sur le portail Web ou téléchargent un fichier contenant des séquences d’ARN comparatives à partir d’un portail Web.
Étape 2: Traduction de séquence. Pour détecter les régions ORF, toutes les séquences d’ARN d’entrée sont traduites en séquences protéiques basées sur le code génétique. Le code génétique est l’ensemble des règles par lesquelles les informations de séquence d’ARN sont traduites en protéines. Chaque codon d’une séquence d’ARN représente généralement un seul acide aminé spécifié par le code génétique correspondant. Le code spécifie l’acide aminé à ajouter ensuite lors de la synthèse des protéines. Les codes génétiques sont présentés dans le tableau 1.
|
Step 3: Phylogenetic Analysis. Cette étape identifie les ORF fonctionnels, rappelons que les ORF significatifs sont rares. Dans notre service, l’utilisateur peut fournir la longueur d’ORF qu’il considère comme significative. Le service localise ensuite les ORF significatifs. Un exemple d’ORF est illustré à la figure 6. Dans cet example, le premier ORF (noté AB447445_1) s’étend des positions 3 à 5099 dans la séquence AB447445. Dans cette étape, deux types d’arbres phylogénétiques sont construits, l’un utilisant la longueur complète de la séquence et l’autre utilisant uniquement les ORF. À partir des trois régions ORF identifiées dans l’analyse, trois arbres phylogénétiques ORF sont construits. Ces arbres sont enregistrés au format ph et sont ensuite transférés et stockés dans le portail. Pendant ce temps, la valeur de diversité de chaque position dans la séquence est calculée. Ces valeurs sont enregistrées dans un fichier.
Un exemple d’ORFS détectés par ORF finder.
Étape 4: Résultat du rapport. Dans cette étape, les arbres formatés au ph sont dessinés sous forme de trois diagrammes et affichés sur le portail. L’utilisateur observe ces diagrammes en ligne ou les télécharge depuis le site Web. De même, un graphique à barres de la diversité agrégée apparaît sur le site Web.
3. Expérience
Le service cloud proposé pour l’analyse de virus a été réalisé sur quatre serveurs lames IBM. Chaque serveur était équipé de deux processeurs Intel Xeon 2,26 GHz quadricœur, de 24 Go de RAM et de 296 Go de disque dur, fonctionnant sous la version 10.4 du système d’exploitation Ubuntu, avec 8 machines virtuelles sur chaque serveur. La plate-forme MapReduce Hadoop version 0.2 a été installée sur chaque serveur. Une machine virtuelle constituait le traqueur de tâches et le nœud de nom ; les autres sont des traqueurs de tâches et des nœuds de données. Le job tracker est également le portail de notre service cloud. Le portail est représenté à la figure 7.
Portail du service d’analyse phylogénétique ORF basé sur le cloud.
Notre environnement cloud actuel permet huit machines virtuelles. Deux de ces machines virtuelles sont le nœud de nom et le nœud de données exécutant le réducteur ; les six autres sont responsables du fonctionnement de la carte. Pour l’expérience, nous avons produit au hasard trois ensembles de données contenant chacun 20 séquences de longueurs différentes (300, 400 et 600 nucléotides). Toutes les séquences de chaque ensemble de données ont été comparées par des méthodes d’analyse phylogénétique. ClustalW et le service proposé ont été appliqués trois fois, pour simuler trois analyses phylogénétiques ORF.
Le temps de calcul du service proposé illustré à la figure 8 est proportionnel au nombre de cartographes. Le temps d’exécution est considérablement réduit lorsque six mappeurs sont utilisés, par rapport à deux mappeurs. La figure 9 compare les performances entre les méthodes d’analyse phylogénétique séquentielle telles que ClustalW et le service proposé avec six cartographes, pour différentes longueurs de séquence. De toute évidence, le service proposé dans le cadre Hadoop offre de meilleures performances que l’analyse phylogénétique séquentielle standard.
Temps de calcul de l’analyse phylogénétique ORF en nuage avec différents nombres de mappeurs et longueurs de séquences.
Comparaisons du temps de calcul entre les analyses phylogénétiques ORF séquentielles et basées sur des nuages.
4. Étude de cas
Le norovirus (NoV) est un agent étiologique important de la gastro-entérite aiguë dans le monde entier. Il provoque la diarrhée à tous les âges, en particulier à Taiwan. Le génome NoV est un ARN polyadénylé à sens positif simple brin codant pour trois cadres de lecture ouverts, ORF1, ORF2 et ORF3. ORF1 code un polypeptide long qui est clivé intracellulairement en six protéines par la protéinase virale. Ces protéines permettent à NoV de se répliquer dans les cellules hôtes. ORF2 code une protéine de capside virale, VP1, tandis qu’ORF3 code une protéine VP2 qui est considérée comme un composant structurel mineur des particules virales, apparemment responsable de l’expression et de la stabilisation de VP1. Comme la majorité des virus à ARN, NoV est génétiquement et antigéniquement diversifié. Le virus est provisoirement divisé en cinq génogroupes et plus de 25 génotypes, en fonction des similitudes entre les séquences d’ORF2. Par conséquent, l’homologie de ce type de virus peut être identifiée à partir de similitudes ORF. L’identification de cette homologie aidera à la conception du médicament viral et du vaccin. Par conséquent, NoV a été sélectionné comme étude de cas dans nos expériences. Nous avons sélectionné quinze NoV qui ont été découverts à Taiwan. Ces séquences NoV peuvent être téléchargées à partir de NCBI.
Les arbres phylogénétiques construits à partir de séquences complètes et de trois ORF sont représentés à la figure 10. De toute évidence, ces arbres diffèrent les uns des autres. L’arbre construit à partir des séquences complètes (Figure 10(a)) démontre une relation évolutive entre les virus. Cependant, différents ORF produisent des arbres nettement différents (Figures 10(b) -10(d)), ce qui suggère que les virus peuvent copier des ORF à partir d’autres virus et modifier leur fonction en les intégrant dans leurs propres séquences. Par conséquent, en établissant des relations évolutives pour chaque ORF, les virologues peuvent analyser les maladies causées par des ORF spécifiques. La figure 11 montre le graphique à barres de diversité généré par la plateforme. La position des résidus d’entropie élevée est fournie à la figure 12, qui montre quatre arbres phylogénétiques et le graphique à barres de diversité. The positions (also the amino acids) of high diversity are shown in the box.
(a)
(b)
(c)
(d)
(a)
(b)
(c)
(d)
Phylogenetic trees for full length and different ORF regions: (a) pleine longueur, (b) ORF1, (c) ORF2 et (d) ORF3.
Graphique à barres de diversité pour chaque position.
Exemple d’affichage d’une valeur d’entropie élevée aux positions spécifiques.
5. Conclusion
Le Cloud computing est la fourniture en ligne de ressources informatiques, telles que le matériel et les logiciels. Les utilisateurs peuvent accéder à des applications basées sur le cloud via un navigateur Web ou via des applications sur des appareils mobiles. Bien que de nombreux outils bioinformatiques aient été développés sous forme d’applications Web, ceux-ci sont généralement déployés sur un serveur, dont la puissance de calcul est limitée. Actuellement, certains outils ont été réaménagés en outils informatiques distribués basés sur le framework Hadoop. Ces outils sont facilement déployés sur un cluster fourni par un fournisseur de cloud computing tel qu’Amazon EC2. Le déploiement d’outils préexistants dans l’environnement cloud est la tendance actuelle de la bioinformatique en tant que service.
Dans cet article, nous proposons un service d’analyse phylogénétique de cadre de lecture ouvert à grande échelle, disponible dans le cloud, basé sur un cluster Hadoop utilisant la technologie de virtualisation. La virtualisation permet au service proposé de copier de grandes quantités de tâches. Comme Hadoop est fortement tamponné contre les défauts, le service cloud proposé garantit que les tâches soumises sont récupérées par réaffectation de tâches, garantissant ainsi un service cloud haute disponibilité. Notre étude de cas a démontré que notre service peut construire différents arbres phylogénétiques à partir de comparaisons de différents ORF. Ces relations peuvent aider de manière significative les biologistes à observer les évolutions de séquences dans différents ORF. Le service proposé peut également aider les chercheurs à mettre au point de nouveaux médicaments contre les virus pathogènes.
Conflit d’intérêts
Il n’y a pas d’intérêts concurrents pour ce document.
Reconnaissance
Une partie de ce travail a été soutenue par le Conseil national des sciences dans le cadre de subventions NSC-99-2632- E-126-001- MY3 et NSC-100-2221- E-126-007- MON3.