Open Reading Frame Phylogenetische Analyse in der Wolke

Zusammenfassung

Die phylogenetische Analyse ist für die Erforschung der evolutionären Beziehungen zwischen Viren von wesentlicher Bedeutung. Diese Beziehungen werden auf phylogenetischen Bäumen dargestellt, in denen Viren basierend auf Sequenzähnlichkeit gruppiert werden. Virale evolutionäre Beziehungen werden eher aus offenen Leserahmen als aus vollständigen Sequenzen identifiziert. In letzter Zeit ist Cloud Computing für die Entwicklung internetbasierter Bioinformatik-Tools populär geworden. Biocloud ist ein effizienter, skalierbarer und robuster Bioinformatik-Computing-Service. In diesem Papier, Wir schlagen einen Cloud-basierten phylogenetischen Analysedienst für offene Leserahmen vor. Der vorgeschlagene Dienst integriert das Hadoop-Framework, Virtualisierungstechnologie, und phylogenetische Analysemethoden, um eine hohe Verfügbarkeit bereitzustellen, groß angelegter Bioservice. In einer Fallstudie analysieren wir die phylogenetischen Beziehungen zwischen Norovirus. Evolutionäre Zusammenhänge werden durch die Ausrichtung verschiedener offener Leserahmensequenzen aufgeklärt. Die vorgeschlagene Plattform identifiziert die evolutionären Beziehungen zwischen Mitgliedern des Norovirus korrekt.

1. Einleitung

Das Verständnis der evolutionären Beziehungen zwischen Organismengruppen ist zunehmend auf phylogenetische Analysen angewiesen. Phylogenien werden normalerweise als Baumdiagramme dargestellt, bekannt als phylogenetische Bäume. Diese Bäume sind aus genetischen Ähnlichkeiten und Unterschieden zwischen verschiedenen Organismen aufgebaut. Die vergleichende Sequenzanalyse ist eine nützliche Methode, mit der man Gene identifizieren, auf die Funktion eines Genprodukts schließen und neue funktionelle Elemente identifizieren kann. Durch den Vergleich mehrerer Sequenzen über ihre gesamte Länge können Forscher konservierte Rückstände finden, die wahrscheinlich durch natürliche Selektion erhalten bleiben. Die Rekonstruktion von Ahnensequenzen kann das Timing und die Direktionalität von Mutationen aufdecken. Diese vergleichenden Analysen beruhen auf dem phylogenetischen Baumkonstrukt.

Ein Leserahmen ist ein Satz aufeinanderfolgender, nicht überlappender Tripletts von drei aufeinanderfolgenden Nukleotiden. Ein Codon ist ein Triplett, das einer Aminosäure oder einem Stoppsignal während der Translation entspricht. Ein offener Leserahmen (ORF) ist der Abschnitt des Leserahmens, der keine Stoppcodons enthält. Ein Protein kann nicht hergestellt werden, wenn die RNA-Transkription vor Erreichen des Stop-Codons aufhört. Um sicherzustellen, dass das Stopcodon an der richtigen Position translatiert wird, befindet sich die Transkriptionsabbruchpausestelle nach dem ORF. Das ORFs kann translatierte Regionen in DNA-Sequenzen identifizieren. Lange ORFs zeigen kandidatenproteinkodierende Regionen in einer DNA-Sequenz an. ORFs wurden auch verwendet, um verschiedene Virusfamilien zu klassifizieren , einschließlich der Mitglieder des Norovirus . Der Open Reading Frame Finder (ORF Finder) ist ein grafisches Analysetool, das nach offenen Leserahmen in DNA-Sequenzen sucht. Das ORF Investigator Programm gibt Auskunft über die kodierenden und nicht-kodierenden Sequenzen und führt die paarweise Ausrichtung verschiedener DNA-Regionen durch. Dieses Tool identifiziert ORFs effizient und wandelt sie in Aminosäurencodes um, wobei ihre jeweiligen Positionen in der Sequenz deklariert werden. Die paarweise Ausrichtung erkennt auch Mutationen, einschließlich Einzelnukleotidpolymorphismen zwischen Sequenzen. Star-Code erleichtert die Identifizierung des Proteins (der Proteine), die innerhalb einer DNA-Sequenz kodiert sind. Zunächst wird die DNA-Sequenz in RNA transkribiert und alle potenziellen ORFs identifiziert. Diese ORFs werden in jedem der sechs Translationsrahmen (3 in Vorwärtsrichtung und 3 in Rückwärtsrichtung) codiert, so dass Benutzer den Translationsrahmen identifizieren können, der die längste Proteincodierungssequenz ergibt.

Mehrere biologische Organisationen haben Bioinformatik-Tools auf Websites implementiert. Das National Center for Biotechnology Information (NCBI) bietet viele Tools zum Vergleich von in Datenbanken gespeicherten Nukleotid- oder Proteinsequenzen, einschließlich der bekannten BLAST-Algorithmen. NCBI bietet auch mehrere Datenbanken, wie GenBank und SNP, in denen Biologen Homologie oder spezifische Funktionen suchen können. Das European Molecular Biology Laboratory (EMBL) stellt frei verfügbare Daten und Online-Bioinformatik-Tools für alle Facetten der wissenschaftlichen Gemeinschaft zur Verfügung. Diese Daten und Werkzeuge sind in medizinischen und biologischen Studien unverzichtbar. Die meisten dieser Dienste werden über das Internet abgerufen und online genutzt. Cloud Computing ist ein kürzlich entwickeltes Konzept, das Rechenressourcen, entweder Hardware oder Software, über das Internet bereitstellt. Es wurden viele Arten von Cloud Computing vorgeschlagen, z. B. Infrastructure as a Service (IaaS), Platform as a Service (PaaS), Software as a Service (SaaS), Network as a Service (NaaS) und Storage as a Service (STaaS). Die meisten dieser Dienste basieren auf Virtualisierungstechnologie — der Erstellung virtueller Hardwareplattformen, Betriebssysteme, Speichergeräte und Netzwerkressourcen. Cloud Computing wird aufgrund seiner Benutzerfreundlichkeit, Virtualisierung, internetzentrierten Ausrichtung, Ressourcenvielfalt, automatischen Anpassung, Skalierbarkeit, Ressourcenoptimierung, Pay-per-Use, Service-SLAs (Service Level Agreements) und Infrastruktur-SLAs begrüßt . Viele Cloud-Computing-Anbieter verteilen diese Ressourcen bei Bedarf aus großen Ressourcenpools, die in Rechenzentren installiert sind. Amazon EC2 stellt einen Infrastrukturdienst bereit, während Google App Engine und die Azure Services Platform von Microsoft Plattformdienste bereitstellen. In der Wissenschaft befinden sich zahlreiche Cloud-Computing-Projekte im Aufbau oder sind voll funktionsfähig .

Cloud Computing ist im Wesentlichen ein Verteilungssystem, das paralleles Rechnen ermöglicht. Hadoop ist ein Open-Source-Software-Framework, das datenintensive verteilte Berechnungen unterstützt. Unter Hadoop können Anwendungen auf großen Clustern von Commodity-Computern implementiert werden. Der Hadoop-Cluster umfasst einen einzelnen Master- und mehrere Slave-Knoten. Der Master-Knoten weist Slave-Knoten Jobs zu, die die zugewiesenen Aufgaben ausführen. Hadoop stellt das MapReduce-Programmiermodell für die parallele Verarbeitung großer Datensätze bereit. Die Rechenaufgabe ist in viele kleine Aufgaben unterteilt, von denen jede auf einem Rechenknoten im Hadoop-Cluster ausgeführt oder erneut ausgeführt werden kann. MapReduce bietet auch ein verteiltes Dateisystem, das Hadoop Distributed File System (HDFS), das die Daten auf Rechenknoten speichert und eine sehr hohe Gesamtbandbreite im gesamten Cluster ermöglicht. Sowohl Map / Reduce als auch das verteilte Dateisystem sind robust gegen Fehler. Mehrere Sequenzanalyse-Tools wurden als Cloud-Tools basierend auf der Hadoop-Architektur neu entwickelt, wie CloudBlast und CrossBow . Daher können Standard-Online-Tools auf die Cloud-Architektur portiert werden. Ein solcher Import bereits vorhandener Werkzeuge ist das Hauptziel von Bioinformatik als Dienstleistung (BaaS).

In diesem Beitrag entwickeln wir einen hochverfügbaren, groß angelegten Cloud-Service für ORF-phylogenetische Analysen, der auf Virtualisierungstechnologie und Hadoop basiert. Dieser Dienst bietet phylogenetische Analysen von ORFs basierend auf Hadoop-Clustern, um mehrere Anforderungen zu unterstützen. Die Essenz der Cloud-Computing-Umgebung ist die Virtualisierung. Die physikalische Rechenleistung wird als ein benutzerfreundliches Dienstprogramm angesehen, das Benutzer nach Wunsch anfordern können. Das Dienstprogramm wird auch als virtuelle Maschine bezeichnet. Jeder Knoten in einem Hadoop-Cluster ist eine virtuelle Maschine. Benutzer können ihre Sequenzdaten oder Dateien über den Master-Knoten (Webportal) hochladen und dann einen Job einreichen. Der Auftrag wird dem Slave-Knoten zugewiesen, der die hochgeladenen Daten enthält, und der Slave-Knoten schließt den Auftrag ab. Da ORF-Vergleiche die Homologie des Norovirus eindeutig festgestellt haben , nehmen wir hier Norovirus als Fallstudie an. Die Ergebnisse zeigen, dass das vorgeschlagene Cloud-basierte Analysetool aufgrund der Virtualisierungstechnologie und des Hadoop-Frameworks BaaS problemlos erleichtern kann. Das vorgeschlagene cloud-basierte ORF phylogenetic Tool ist verfügbar unter http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Methoden

In diesem Beitrag schlagen wir einen Cloud-basierten ORF-phylogenetischen Analysedienst vor, der Hadoop-Framework, Virtualisierungstechnologie, phylogenetisches Baumwerkzeug und Diversitätsanalyse kombiniert. Wie bereits erwähnt, besteht die Cloud-Plattform aus Virtualisierung und Hadoop-Framework. Hadoop wird auf den VMs ausgeführt, die durch Virtualisierungstechnologie wie Kernel-based Virtual Machine (KVM) erstellt wurden. Hadoop führt die phylogenetische Analyse auf verteilte Weise durch. Die zugrunde liegende Architektur gewährleistet die Elastizität, Skalierbarkeit und Verfügbarkeit des vorgeschlagenen Cloud-basierten Dienstes.

2.1. Phylogenetische Analyse

Der vorgeschlagene Cloud-Dienst integriert den ORF-Findungsprozess, die phylogenetische Baumanalyse und die ORF-Diversitätsanalyse, um eine vollständige phylogenetische Analyse zu erstellen. Das Verfahren der Analyse ist unten skizziert und in Abbildung 1 dargestellt.

Abbildung 1

Das phylogenetische Analyseverfahren.

Schritt 1: Erkennen offener Leserahmen. Funktionelle ORFs werden aus Sequenzen extrahiert. Obwohl viele ORFs in einer Proteinsequenz existieren, sind die meisten unbedeutend. Der ORF Finder lokalisiert alle offenen Leserahmen einer vorgegebenen Mindestgröße in einer Sequenz. In dieser Studie wurde der auf der NCBI Tools-Website häufig verwendete ORF-Finder übernommen. Dieses Tool identifiziert alle offenen Leserahmen mit den Standard- oder alternativen genetischen Codes.

Schritt 2: Aufbau eines phylogenetischen Baums basierend auf offenen Leserahmen. Ein phylogenetischer Baum (oder evolutionärer Baum) ist ein Verzweigungsdiagramm, das die abgeleiteten evolutionären Beziehungen zwischen biologischen Arten oder anderen Entitäten basierend auf Ähnlichkeiten und Unterschieden in ihren physischen und / oder genetischen Eigenschaften zeigt. Die im Baum zusammengefassten Taxa stammen vermutlich von einem gemeinsamen Vorfahren ab. Die phylogenetische Analyse richtet normalerweise Sequenzen ganzer Länge aus. Verschiedene ORFs können jedoch unterschiedliche phylogenetische Bäume ergeben. Virus-ORF-Alignments können einen gemeinsamen viralen Vorfahren oder einen ORF aufweisen, der allen Viren gemeinsam ist. Eine solche Entdeckung würde das Design viraler Medikamente erheblich unterstützen.

Der Stammbaum wird mit ClustalW berechnet. Dieser Algorithmus erstellt zwei phylogenetische Bäume; Einer basiert auf vollständigen Sequenzen und der andere nur für ORFs, Dadurch wird die Varianz zwischen den beiden Bäumen aufgedeckt.

Schritt 3: Diversitätsanalyse unter offenen Leserahmen. Diversität beschreibt in der Regel die Anzahl der verschiedenen Identitäten in einer Gruppe. In diesem Papier, Vielfalt zeigt Spezies Varianz an einer bestimmten Position in der Proteinsequenz. Ein kleiner Diversitätswert an einer Position impliziert, dass Proteinsequenzen an dieser Position sehr ähnlich sind. Im Gegensatz dazu bedeutet ein hoher Diversitätswert eine geringe Ähnlichkeit an dieser Position. Ein Frame mit hoher Varianz zeigt auch an, dass dieser Frame leicht mutiert. Solche Rahmen mit hoher Varianz können verwendet werden, um Proteinstrukturunterschiede zu beobachten und die Impfstoffentwicklung zu unterstützen. In diesem Papier wird die Diversität wie folgt aus der Entropie berechnet: wo ist der Wert der Entropie und ist die Wahrscheinlichkeit, eine bestimmte Aminosäure an Position zu finden. Um die signifikante Position zu finden, werden Entropiewerte unter einem bestimmten Schwellenwert herausgefiltert. In dieser Studie wurde der Schwellenwert auf 1,4 festgelegt.

2.2. Cloud-Plattform basierend auf Virtualisierung und Hadoop-Framework

Die Cloud-Plattform für das phylogenetische Analysetool basiert auf zwei wichtigen Technologien: Virtualisierung und Hadoop-Framework. Hadoop ist ein hoch skalierbares und verfügbares verteiltes System. Die Skalierbarkeit und Verfügbarkeit wird durch HDFS, ein selbstheilendes verteiltes Speichersystem, und MapReduce, einen spezifischen fehlertoleranten verteilten Verarbeitungsalgorithmus, garantiert . Die Architektur eines Hadoop-Clusters ist in Abbildung 2 dargestellt.

Abbildung 2

Die Architektur eines Hadoop-Clusters.

Der Hadoop-Cluster besteht aus einem einzelnen Master- und mehreren Slave-Knoten. Der Master-Knoten besteht aus einem Job-Tracker, einem Task-Tracker, einem Namensknoten und einem Datenknoten. Ein Slave-Knoten oder Rechenknoten umfasst einen Datenknoten und einen Task-Tracker. Der Job Tracker weist Map / Reduce-Aufgaben bestimmten Knoten innerhalb des Clusters zu, idealerweise solchen, die bereits die Daten enthalten oder sich zumindest im selben Rack befinden. Ein Task-Tracker-Knoten akzeptiert Map-, Reduce- und Shuffle-Vorgänge von einem Job-Tracker. Die Map/Reduce-Operation ist in Abbildung 3 dargestellt.

Abbildung 3

Das Verfahren von Hadoop map/reduce model.

HDFS ist das primäre Verteilungsdateisystem, das vom Hadoop-Framework verwendet wird. Jede Eingabedatei wird in Datenblöcke aufgeteilt, die auf Datenknoten verteilt werden. Hadoop erstellt auch mehrere Replikate von Datenblöcken und verteilt sie auf Datenknoten in einem Cluster, um zuverlässige, extrem schnelle Berechnungen zu ermöglichen. Der Namensknoten dient sowohl als Verzeichnis-Namespace-Manager als auch als Knotenmetadaten-Manager für das HDFS. Die HDFS-Architektur enthält einen einzelnen Namensknoten.

Eine wünschenswerte Eigenschaft von Hadoop ist seine hohe Fehlertoleranz. Das HDFS ermöglicht es den Daten, sich über Hunderte oder Tausende von Knoten oder Maschinen zu verteilen, und die Aufgaben werden auf datenhaltenden Knoten berechnet. Hadoop repliziert Daten, sodass bei Verlust eines Replikats Sicherungskopien vorhanden sind. Wenn ein Knoten während der Berechnung ausfällt, startet Hadoop die angehaltene Aufgabe auf einem anderen Knoten, der Replikatdaten enthält, neu. Im Hadoop-Framework werden Knotenfehler mithilfe des Heartbeat-Mechanismus erkannt, durch den einzelne Task-Knoten (Task-Tracker) ständig mit dem Job-Tracker kommunizieren. Wenn ein Task-Tracker für einen bestimmten Zeitraum nicht mit dem Job-Tracker kommunizieren kann, geht der Job-Tracker davon aus, dass der Task-Tracker abgestürzt ist . Der Job-Tracker weiß, welche Task-Tracker (Datenknoten) Replikatdaten enthalten, und gibt eine Neustartaufgabe aus. In diesem Papier wurde der vorgeschlagene Cloud-Service implementiert, indem die Hadoop-Clusterverteilung mit einem Verwaltungsmodell kombiniert wurde. In unserem Cloud-Server wird ein eingereichter Job in einem Datenknoten berechnet. Anstatt parallele Daten zu verarbeiten, werden Jobs selbst parallelisiert. Daher werden die übermittelten Daten vom HDFS an einen Datenknoten verteilt, während der Rechenprozess an den Task-Tracker geliefert und mit den übermittelten Daten kopiert wird. Virtualisierung ist eine kritische Komponente der Cloud-Computing-Umgebung. Die physische Rechenleistung ist im Wesentlichen ein Dienstprogramm, das Benutzer nach Bedarf erwerben können. Das übliche Ziel der Virtualisierung ist die Verbesserung der Skalierbarkeit und der allgemeinen Auslastung der Hardwareressourcen. Virtualisierung ermöglicht den parallelen Betrieb mehrerer Betriebssysteme auf einem einzigen physischen Computer. Während ein physischer Computer im klassischen Sinne eine vollständige und tatsächliche Maschine darstellt, ist eine virtuelle Maschine (VM) eine vollständig isolierte Maschine, auf der ein Gastbetriebssystem innerhalb des physischen Computers ausgeführt wird. Um Skalierbarkeit und Effizienz zu gewährleisten, arbeiten alle Komponenten — Job Tracker, Task Tracker, Name Node und Data Node — in unserem Cloud-Service als virtuelle Maschinen. Abbildung 4 zeigt die VM-Architektur unseres vorgeschlagenen Dienstes.

Abbildung 4

Cloud-Computing-Dienst basierend auf Virtualisierungstechnologie.

2.3. Cloud-basierter ORF Phylogenetic Analysis Service

Der Cloud-basierte ORF Phylogenetic Analysis Service wurde wie oben beschrieben auf einer Virtualisierungsplattform mit dem Hadoop Framework entwickelt. Das Verfahren des vorgeschlagenen Dienstes ist in Abbildung 5 dargestellt. Der Master-Knoten (Namensknoten) und der Slave-Knoten (Datenknoten) sind die Master-VM bzw. die Slave-VM. Wenn eine phylogenetische Analyseanforderung gesendet wird, wird sie in einer Jobwarteschlange gespeichert. Der Master-Knoten extrahiert die Jobs regelmäßig aus der Jobwarteschlange und weist sie Slave-Knoten (oder Mappern) zu, die die Aufgabe ausführen. Nach Abschluss aller Jobs sammelt der Reduzierer die Ergebnisse und speichert sie im Network File System Storage (NFS). Ein einzelnes Vergleichsergebnis eines phylogenetischen Auftrags wird in einer einzigen Datei von NFS gespeichert. Wie in Abbildung 5 dargestellt, führt ein in VM2 ausgeführter Datenknoten eine phylogenetische Analyse durch, und ein Namensknoten wird in VM1 ausgeführt. Der Reduzierer, Einlaufen , sammelt die Ergebnisse der Datenknoten, die die phylogenetischen Analysen ausführen. In diesem Dienst lädt der Benutzer Proteinsequenzen hoch und sendet eine phylogenetische Analyseanfrage auf dem Website-Portal. Alle eingereichten Analyseaufträge werden in der Jobwarteschlange gesammelt und Sequenzdaten werden von HDFS auf verschiedenen Hosts gespeichert. Phylogenetische Analysen werden den Datenknoten zugeordnet, die bereits Sequenzdaten enthalten. Die Analyseergebnisse werden sowohl an den Datenknoten als auch an den Reduzierer gesendet, um das in NFS gespeicherte Endergebnis zu erzeugen. Der Benutzer ruft das Endergebnis ab, indem er sich auf der Website anmeldet. Der Dienst wird wie folgt implementiert.

Abbildung 5

Flussdiagramm des Cloud-basierten ORF-phylogenetischen Analysedienstes.

Schritt 1: Job Submission. Benutzer reichen ihren Job online über das Webportal des vorgeschlagenen Cloud-Dienstes ein. Benutzer geben entweder die vergleichenden DNA / RNA-Sequenzen im Webportal ein oder laden eine Datei mit vergleichenden RNA-Sequenzen von einem Webportal hoch.

Schritt 2: Sequenzübersetzung. Zum Nachweis der ORF-Regionen werden alle Inputsequenzen der RNA auf Basis des genetischen Codes in Proteinsequenzen translatiert. Der genetische Code ist das Regelwerk, nach dem RNA-Sequenzinformationen in Proteine übersetzt werden. Jedes Codon in einer RNA-Sequenz repräsentiert normalerweise eine einzelne Aminosäure, die durch den entsprechenden genetischen Code spezifiziert ist. Der Code gibt die Aminosäure an, die als nächstes während der Proteinsynthese hinzugefügt werden soll. Die genetischen Codes sind in Tabelle 1 dargestellt.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Dieser Schritt identifiziert das funktionelle ORFs, daran erinnern, dass signifikante ORFs selten sind. In unserem Service kann der Nutzer die Länge des ORF angeben, die er für sinnvoll hält. Der Dienst lokalisiert dann die signifikanten ORFs. Ein Beispiel für ORFs ist in Abbildung 6 dargestellt. In diesem Beispiel erstreckt sich der erste ORF (bezeichnet als AB447445_1) von den Positionen 3 bis 5099 in der Sequenz AB447445. In diesem Schritt werden zwei Arten von phylogenetischen Bäumen erstellt, einer mit der vollen Sequenzlänge und der andere nur mit ORFs. Aus den drei in der Analyse identifizierten ORF-Regionen werden drei ORF-Stammbäume aufgebaut. Diese Bäume werden im ph-Format aufgezeichnet und dann in das Portal übertragen und dort gespeichert. In der Zwischenzeit wird der Diversitätswert jeder Position in der Sequenz berechnet. Diese Werte werden in einer Datei gespeichert.

Abbildung 6

Ein Beispiel für ORFs, die von ORF Finder erkannt wurden.

Schritt 4: Ergebnis melden. In diesem Schritt werden die Phasenbäume als drei Diagramme gezeichnet und auf dem Portal angezeigt. Der Benutzer beobachtet diese Diagramme online oder lädt sie von der Website herunter. In ähnlicher Weise wird auf der Website ein Balkendiagramm der aggregierten Vielfalt angezeigt.

3. Experiment

Der vorgeschlagene Cloud-Dienst für die Virenanalyse wurde auf vier IBM Blade-Servern durchgeführt. Jeder Server war mit zwei Quad-Core Intel Xeon 2,26 GHz CPUs, 24 GB RAM und 296 GB Festplatte ausgestattet, die unter dem Ubuntu-Betriebssystem Version 10.4 mit 8 virtuellen Maschinen auf jedem Server ausgeführt wurden. Hadoop Version 0.2 MapReduce-Plattform wurde auf jedem Server installiert. Eine VM ist der Jobtracker und der Namensknoten; die anderen sind Tasktracker und Datenknoten. Der Job Tracker ist auch das Portal unseres Cloud-Dienstes. Das Portal ist in Abbildung 7 dargestellt.

Abbildung 7

Portal des Cloud-basierten ORF-phylogenetischen Analysedienstes.

Unsere aktuelle Cloud-Umgebung erlaubt acht virtuelle Maschinen. Zwei dieser VMs sind Namensknoten und Datenknoten, auf denen der Reduzierer ausgeführt wird. Für das Experiment produzierten wir zufällig drei Datensätze mit jeweils 20 Sequenzen unterschiedlicher Länge (300, 400 und 600 Nukleotide). Alle Sequenzen in jedem Datensatz wurden durch phylogenetische Analysemethoden verglichen. ClustalW und der vorgeschlagene Service wurden dreimal angewendet, um drei ORF-phylogenetische Analysen zu simulieren.

Die in Abbildung 8 dargestellte Rechenzeit des vorgeschlagenen Dienstes ist proportional zur Anzahl der Mapper. Die Ausführungszeit wird erheblich reduziert, wenn sechs Mapper verwendet werden, relativ zu zwei Mappern. Abbildung 9 vergleicht die Leistung zwischen sequentiellen phylogenetischen Analysemethoden wie ClustalW und dem vorgeschlagenen Dienst mit sechs Mappern für unterschiedliche Sequenzlängen. Der vorgeschlagene Dienst im Hadoop-Framework erzielt eindeutig eine bessere Leistung als die sequentielle phylogenetische Standardanalyse.

Abbildung 8

Rechenzeit der cloud-basierten ORF-phylogenetischen Analyse mit unterschiedlicher Anzahl von Mappern und Sequenzlängen.

Abbildung 9

Vergleiche der Rechenzeit zwischen sequenziellen und Cloud-basierten ORF-phylogenetischen Analysen.

4. Fallstudie

Norovirus (NoV) ist ein wichtiger ätiologischer Erreger der akuten Gastroenteritis weltweit. Es verursacht Durchfall in allen Altersgruppen, besonders in Taiwan. Das NoV-Genom ist eine einzelsträngige, positiv gesinnte, polyadenylierte RNA, die für drei offene Leserahmen ORF1, ORF2 und ORF3 kodiert . ORF1 kodiert für ein langes Polypeptid, das von der viralen Proteinase intrazellulär in sechs Proteine gespalten wird . Diese Proteine ermöglichen es NoV, sich in Wirtszellen zu replizieren . ORF2 kodiert für ein virales Kapsidprotein, VP1, während ORF3 für ein VP2-Protein kodiert, das als geringfügiger struktureller Bestandteil von Viruspartikeln angesehen wird und anscheinend für die Expression und Stabilisierung von VP1 verantwortlich ist . Wie die meisten RNA-Viren ist NoV genetisch und antigenisch vielfältig . Das Virus wird vorläufig in fünf Genogruppen und mehr als 25 Genotypen unterteilt, basierend auf Ähnlichkeiten zwischen ORF2-Sequenzen . Daher kann die Homologie dieses Virustyps anhand von ORF-Ähnlichkeiten identifiziert werden. Die Identifizierung dieser Homologie hilft bei der Entwicklung von viralen Medikamenten und Impfstoffen. Daher wurde NoV als Fallstudie in unseren Experimenten ausgewählt. Wir haben fünfzehn Pflanzen ausgewählt, die in Taiwan entdeckt wurden. Diese NoV-Sequenzen können von NCBI heruntergeladen werden.

Die phylogenetischen Bäume, die aus Sequenzen voller Länge und drei ORFs aufgebaut sind, sind in Abbildung 10 dargestellt. Offensichtlich unterscheiden sich diese Bäume voneinander. Der aus den Sequenzen in voller Länge konstruierte Baum (Abbildung 10 (a)) zeigt eine evolutionäre Beziehung zwischen den Viren. Verschiedene ORFs ergeben jedoch deutlich unterschiedliche Bäume (Abbildungen 10 (b) -10 (d)), was darauf hindeutet, dass Viren ORFs von anderen Viren kopieren und ihre Funktion verändern können, indem sie sie in ihre eigenen Sequenzen integrieren. Durch die Etablierung evolutionärer Beziehungen für jeden ORF können Virologen daher die durch bestimmte ORFs verursachten Krankheiten analysieren. Abbildung 11 zeigt das von der Plattform generierte Diversity-Balkendiagramm. Die Restposition der hohen Entropie ist in Abbildung 12 dargestellt, die vier phylogenetische Bäume und das Diversitätsbalkendiagramm zeigt. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: (a) in voller Länge, (b) ORF1, (c) ORF2 und (d) ORF3.

Abbildung 11

Diversity-Balkendiagramm für jede Position.

Abbildung 12

Beispiel für die Anzeige eines hohen Entropiewerts an bestimmten Positionen.

5. Fazit

Cloud Computing ist die Online-Bereitstellung von Computerressourcen wie Hardware und Software. Benutzer können über einen Webbrowser oder über Anwendungen auf Mobilgeräten auf cloudbasierte Anwendungen zugreifen. Obwohl viele Bioinformatik-Tools als Webanwendungen entwickelt wurden, werden diese typischerweise auf einem Server mit begrenzter Rechenleistung bereitgestellt. Derzeit wurden einige Tools als verteilte Computing-Tools auf Basis des Hadoop-Frameworks neu entwickelt. Diese Tools können problemlos in einem Cluster bereitgestellt werden, der von einem Cloud-Computing-Anbieter wie Amazon EC2 bereitgestellt wird. Die Bereitstellung bereits vorhandener Tools in der Cloud-Umgebung ist der aktuelle Trend der Bioinformatik als Service.

In diesem Beitrag schlagen wir einen hochskalierten, verfügbaren Cloud-basierten Open Reading Frame Phylogenetic Analysis Service vor, der auf einem Hadoop-Cluster unter Verwendung von Virtualisierungstechnologie basiert. Virtualisierung ermöglicht es dem vorgeschlagenen Dienst, große Mengen von Jobs zu kopieren. Da Hadoop stark gegen Fehler gepuffert ist, garantiert der vorgeschlagene Cloud-Service, dass übermittelte Jobs durch Neuzuweisung von Aufgaben wiederhergestellt werden, wodurch ein hochverfügbarer Cloud-Service sichergestellt wird. Unsere Fallstudie hat gezeigt, dass unser Service verschiedene phylogenetische Bäume aus Vergleichen verschiedener ORFs konstruieren kann. Diese Beziehungen können Biologen erheblich dabei helfen, Sequenzentwicklungen in verschiedenen ORFs zu beobachten. Der vorgeschlagene Dienst kann auch Forschungen zur Entwicklung neuartiger Arzneimittel gegen pathogene Viren unterstützen.

Interessenkonflikt

Es gibt keine konkurrierenden Interessen für dieses Papier.

Anerkennung

Ein Teil dieser Arbeit wurde vom National Science Council im Rahmen von Grants NSC unterstützt-99-2632- E-126-001- MY3 und NSC-100-2221- E-126-007- MEIN FREUND.



Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.