Open Reading Frame analiza filogenetyczna w chmurze

Streszczenie

analiza filogenetyczna stała się niezbędna w badaniach ewolucyjnych związków między wirusami. Relacje te są przedstawione na drzewach filogenetycznych, w których wirusy są grupowane na podstawie podobieństwa sekwencji. Wirusowe związki ewolucyjne są identyfikowane z otwartych ramek odczytu, a nie z kompletnych sekwencji. Ostatnio cloud computing stał się popularny do tworzenia internetowych narzędzi bioinformatycznych. Biocloud to wydajna, skalowalna i Solidna usługa przetwarzania bioinformatycznego. W niniejszym artykule proponujemy opartą na chmurze usługę analizy filogenetycznej open reading frame. Proponowana usługa integruje framework Hadoop, technologię wirtualizacji i metody analizy filogenetycznej, aby zapewnić wysoką dostępność i dużą skalę usługi bioservice. W studium przypadku analizujemy relacje filogenetyczne norowirusów. Ewolucyjne relacje są wyjaśnione przez wyrównanie różnych sekwencji otwartych ramek odczytu. Proponowana Platforma poprawnie identyfikuje ewolucyjne relacje między członkami Norovirus.

1. Wprowadzenie

zrozumienie ewolucyjnych relacji między grupami organizmów staje się coraz bardziej uzależnione od analizy filogenetycznej. Filogenezy są zwykle przedstawiane jako diagramy drzew, znany jako drzewa filogenetyczne. Drzewa te zbudowane są z genetycznych podobieństw i różnic pomiędzy różnymi organizmami. Analiza sekwencji porównawczej jest użyteczną metodą, dzięki której można zidentyfikować Gen, wnioskować o funkcji produktu genu i zidentyfikować nowe elementy funkcjonalne. Porównując kilka sekwencji wzdłuż ich całej długości, naukowcy mogą znaleźć zachowane pozostałości, które są prawdopodobnie zachowane przez dobór naturalny. Rekonstrukcja sekwencji przodków może ujawnić czas i kierunek mutacji. Te analizy porównawcze opierają się na konstrukcji drzewa filogenetycznego.

ramka odczytu jest zbiorem następujących po sobie trojaczek trzech kolejnych nukleotydów. Kodon jest trójpłytkiem odpowiadającym aminokwasowi lub sygnałowi stop podczas translacji. Otwarta ramka odczytu (ang. open reading frame, ORF) – część ramki odczytu, która nie zawiera kodonów stop. Białko nie może zostać wytworzone, jeśli transkrypcja RNA ustanie przed osiągnięciem kodonu stop. Dlatego, aby upewnić się, że kodon stop jest przetłumaczony we właściwej pozycji, miejsce pauzy zakończenia transkrypcji znajduje się po ORF. ORFs mogą identyfikować przetłumaczone regiony w sekwencjach DNA. Długie ORF wskazują kandydujące regiony kodujące białko w sekwencji DNA. ORFs również zostały wykorzystane do klasyfikacji różnych rodzin wirusów, w tym członków Norovirus . Open Reading Frame Finder (ORF Finder) to graficzne narzędzie do analizy, które wyszukuje otwarte ramki odczytu w sekwencjach DNA. Program badacza ORF dostarcza informacji na temat sekwencji kodujących i niekodujących oraz wykonuje parowe wyrównanie różnych regionów DNA. Narzędzie to skutecznie identyfikuje ORFs i konwertuje je na kody aminokwasów, deklarując ich odpowiednie pozycje w sekwencji. Wyrównanie par wykrywa również mutacje, w tym polimorfizmy jednonukleotydowe między sekwencjami. StarORF ułatwia identyfikację białek kodowanych w sekwencji DNA. Najpierw sekwencja DNA jest transkrybowana do RNA, a wszystkie potencjalne ORF są identyfikowane. Te ORF są kodowane w każdej z sześciu ramek translacji (3 w kierunku do przodu i 3 w kierunku do tyłu), dzięki czemu użytkownicy mogą zidentyfikować ramkę translacji dającą najdłuższą sekwencję kodującą białko.

kilka organizacji biologicznych wdrożyło narzędzia bioinformatyczne na stronach internetowych. Narodowe Centrum Informacji biotechnologicznej (NCBI) udostępnia wiele narzędzi do porównywania sekwencji nukleotydów lub białek przechowywanych w bazie danych, w tym dobrze znane algorytmy BLAST. NCBI udostępnia również kilka baz danych, takich jak GenBank i SNP, w których biolodzy mogą szukać homologii lub określonych funkcji. Europejskie Laboratorium Biologii Molekularnej (EMBL) udostępnia bezpłatnie Dane i narzędzia bioinformatyczne online wszystkim członkom społeczności naukowej. Te dane i narzędzia są niezbędne w badaniach medycznych i biologicznych. Większość z tych usług jest dostępna przez Internet i wykorzystywana online.

cloud computing to niedawno opracowana koncepcja, która dostarcza zasoby obliczeniowe, sprzęt lub oprogramowanie, za pośrednictwem Internetu. Zaproponowano wiele rodzajów przetwarzania w chmurze, takich jak infrastruktura jako usługa (IaaS), Platforma jako usługa (PaaS), oprogramowanie jako usługa (SaaS), sieć jako usługa (Naas) i storage as a service (STaaS). Większość tych usług opiera się na technologii wirtualizacji—tworzeniu wirtualnych platform sprzętowych, systemów operacyjnych, urządzeń pamięci masowej i zasobów sieciowych. Przetwarzanie w chmurze jest mile widziane ze względu na łatwość obsługi, wirtualizację, koncentrację na Internecie, różnorodność zasobów, automatyczną adaptację, skalowalność, optymalizację zasobów, pay-per-use, service SLA (umowy o poziomie usług) i Infrastructure SLA . Wielu dostawców przetwarzania w chmurze dystrybuuje te zasoby na żądanie z dużych pul zasobów zainstalowanych w centrach danych. Amazon EC2 dostarcza usługę infrastruktury, podczas gdy Google App Engine i platforma usług Azure firmy Microsoft dostarczają usługi platformowe. W środowisku akademickim wiele projektów przetwarzania w chmurze jest w trakcie budowy lub w pełni funkcjonalnych .

przetwarzanie w chmurze jest zasadniczo systemem dystrybucji, który umożliwia przetwarzanie równoległe. Hadoop jest open-source framework, który obsługuje dane intensywne obliczeń rozproszonych. W ramach Hadoop, aplikacje mogą być implementowane na dużych klastrach komputerów towarowych. Klaster Hadoop zawiera jeden węzeł master i wiele węzłów slave. Węzeł główny przypisuje zadania węzłom podrzędnym, które wykonują przypisane zadania. Hadoop dostarcza model programowania MapReduce do równoległego przetwarzania dużych zbiorów danych. Zadanie obliczeniowe jest podzielone na wiele małych zadań, z których każde może być wykonane lub ponownie wyeksponowane na węźle obliczeniowym w klastrze Hadoop. MapReduce udostępnia również rozproszony system plików Hadoop Distributed File System (HDFS), który przechowuje dane w węzłach obliczeniowych, umożliwiając bardzo wysoką łączną przepustowość w całym klastrze. Zarówno map / reduce, jak i rozproszony system plików są odporne na awarie. Kilka narzędzi do analizy sekwencji zostało przebudowanych jako narzędzia chmurowe oparte na architekturze Hadoop, takie jak CloudBlast i CrossBow . Dlatego standardowe narzędzia online można przenieść na architekturę chmury. Taki import istniejących narzędzi stanowi główny cel bioinformatics as a service (BaaS).

w niniejszym artykule opracowujemy wysokiej dostępności, wielkoskalową usługę chmurową ORF w oparciu o technologię wirtualizacji i Hadoop. Usługa ta dostarcza analizy filogenetyczne z ORFs oparte na klastrach Hadoop do obsługi wielu żądań. Istotą środowiska cloud computing jest wirtualizacja. Fizyczna moc obliczeniowa jest uważana za narzędzie płatne przez Użytkownika, które użytkownicy mogą żądać zgodnie z życzeniem. Narzędzie jest również znane jako maszyna wirtualna. Każdy węzeł w klastrze Hadoop jest maszyną wirtualną. Użytkownicy mogą przesyłać swoje dane sekwencji lub pliki za pośrednictwem głównego węzła (portal internetowy), a następnie przesłać zadanie. Zadanie jest przypisywane do węzła slave zawierającego przesłane dane, a węzeł slave kończy zadanie. Ponieważ porównania ORF jednoznacznie ustaliły homologię norowirusa, przyjmujemy norowirusa jako studium przypadku. Wyniki pokazują, że proponowane narzędzie do analizy oparte na chmurze, dzięki technologii wirtualizacji i frameworkowi Hadoop, może łatwo ułatwić BaaS. Proponowane narzędzie filogenetyczne ORF oparte na chmurze jest dostępne pod adresem http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Metody

w niniejszym artykule proponujemy opartą na chmurze usługę analizy filogenetycznej ORF łączącą Framework Hadoop, technologię wirtualizacji, narzędzie drzewa filogenetycznego i analizę różnorodności. Jak wspomniano wcześniej, platforma w chmurze jest zbudowana z wirtualizacji i frameworka Hadoop. Hadoop jest wykonywany na maszynach wirtualnych utworzonych za pomocą technologii wirtualizacji, takich jak maszyna wirtualna oparta na jądrze (KVM). Hadoop przeprowadza analizę filogenetyczną w sposób rozproszony. Podstawowa architektura zapewnia elastyczność, skalowalność i dostępność proponowanej usługi opartej na chmurze.

2.1. Analiza filogenetyczna

proponowana usługa w chmurze integruje proces znajdowania ORF, skurcze drzewa filogenetycznego i analizę różnorodności ORF w celu wygenerowania pełnej analizy filogenetycznej. Procedura analizy jest przedstawiona poniżej i pokazana na rysunku 1.

Rysunek 1

procedura analizy filogenetycznej.

Krok 1: wykrywanie otwartych ramek odczytu. Funkcjonalne Orfy są wyodrębniane z sekwencji. Chociaż wiele ORF istnieje w sekwencji białka, większość z nich jest nieistotna. Wyszukiwarka ORF lokalizuje wszystkie otwarte ramki odczytu o określonym minimalnym rozmiarze w sekwencji. W badaniu tym przyjęto wyszukiwarkę ORF powszechnie używaną na stronie internetowej NCBI tools. Narzędzie to identyfikuje wszystkie otwarte ramki odczytu za pomocą standardowych lub alternatywnych kodów genetycznych.

Krok 2: konstruowanie drzewa filogenetycznego na podstawie otwartych ramek odczytu. Drzewo filogenetyczne (lub drzewo ewolucyjne) to rozgałęzienie (drzewo) diagram pokazujący wnioskowane ewolucyjne relacje między gatunkami biologicznymi lub innymi jednostkami w oparciu o podobieństwa i różnice w ich fizycznych i/lub genetycznych cechach. Taksony zgrupowane w drzewie pochodzą prawdopodobnie od wspólnego przodka. Analiza filogenetyczna Zwykle wyrównuje sekwencje całej długości. Jednak różne Orfy mogą dawać różne drzewa filogenetyczne. ORF wirusa może ujawnić wspólnego przodka wirusa lub ORF, który jest wspólny dla wszystkich wirusów. Takie odkrycie znacznie pomogłoby w projektowaniu leków wirusowych.

drzewo filogenetyczne oblicza się za pomocą ClustalW . Algorytm ten buduje dwa drzewa filogenetyczne; jeden oparty na pełnych sekwencjach, a drugi tylko dla ORFs, ujawniając w ten sposób wariancję między dwoma drzewami.

Krok 3: Analiza różnorodności wśród otwartych ramek odczytu. Różnorodność zazwyczaj przedstawia liczbę różnych tożsamości w grupie. W tym artykule różnorodność pokazuje zmienność gatunku w określonym położeniu w sekwencji białka. Mała wartość różnorodności w pozycji oznacza, że sekwencje białek są bardzo podobne w tej pozycji. Natomiast wysoka wartość różnorodności oznacza niskie podobieństwo w tej pozycji. Ramka o dużej zmienności wskazuje również, że ramka ta łatwo się mutuje. Takie ramki o dużej zmienności mogą być używane do obserwacji różnic strukturalnych białek i wspomagania rozwoju szczepionek. W tym artykule różnorodność oblicza się z entropii w następujący sposób: gdzie jest wartością entropii i jest prawdopodobieństwem znalezienia określonego aminokwasu w pozycji . Aby znaleźć pozycję znaczącą, wartości entropii poniżej określonego progu są filtrowane. W badaniu tym próg został ustalony na poziomie 1,4.

2.2. Platforma chmurowa oparta na Virtaulization i Hadoop Framework

platforma chmurowa dla proponowanego narzędzia analizy filogenetycznej jest zbudowana w oparciu o dwie ważne technologie: wirtualizację i Framework Hadoop. Hadoop jest wysoce skalowalnym i dostępnym systemem rozproszonym. Skalowalność i dostępność są gwarantowane przez HDFS, samonaprawiający się rozproszony system pamięci masowej i MapReduce, specyficzny algorytm przetwarzania rozproszonego odpornego na błędy . Architektura klastra Hadoop jest pokazana na rysunku 2.

Rysunek 2
Architektura klastra Hadoop.

klaster Hadoop stanowi pojedynczy węzeł master i wiele węzłów slave. Główny węzeł składa się z trackera zadań, trackera zadań, węzła nazw i węzła danych. Węzeł slave lub węzeł obliczeniowy składa się z węzła danych i trackera zadań. Śledzenie zadań przypisuje zadania map / reduce do konkretnych węzłów w klastrze, najlepiej tych, które już zawierają dane lub przynajmniej w tej samej szafie. Węzeł śledzenia zadań akceptuje mapowanie, zmniejszanie i tasowanie operacji z modułu śledzenia zadań. Działanie map / reduce pokazano na rysunku 3.

Rysunek 3
procedura modelu Hadoop map/reduce.

HDFS jest podstawowym systemem plików dystrybucji używanym przez framework Hadoop. Każdy plik wejściowy jest podzielony na bloki danych, które są dystrybuowane do węzłów danych. Hadoop tworzy również wiele replik bloków danych i rozprowadza je do węzłów danych w klastrze, aby umożliwić niezawodne, niezwykle szybkie obliczenia. Węzeł name służy zarówno jako menedżer przestrzeni nazw katalogów, jak i menedżer metadanych węzłów dla plików HDFS. Architektura HDFS zawiera pojedynczy węzeł o nazwie.

jedną z pożądanych cech Hadoop jest jego wysoka odporność na uszkodzenia. HDFS pozwala na rozłożenie danych na setki lub tysiące węzłów lub maszyn, a zadania są obliczane na węzłach przechowujących dane. Hadoop replikuje dane, dzięki czemu w przypadku utraty jednej repliki istnieją kopie zapasowe. Gdy węzeł zawiedzie podczas obliczeń, Hadoop uruchamia ponownie zatrzymane zadanie na innym węźle zawierającym replikowane dane. W ramach Hadoop awarie węzłów są wykrywane za pomocą mechanizmu heartbeat, za pomocą którego poszczególne węzły zadań (trackery zadań) stale komunikują się z trackerem zadań. Jeśli tracker zadań nie komunikuje się z trackerem zadań przez pewien czas, tracker zadań zakłada, że tracker zadań uległ awarii . Moduł śledzenia zadań wie, które Moduły śledzenia zadań (węzły danych) zawierają replikowane Dane i uruchamia ponownie zadanie. W niniejszym artykule zaproponowana usługa w chmurze została zaimplementowana poprzez połączenie dystrybucji klastrów Hadoop z modelem zarządzania. Na naszym serwerze w chmurze przesłane zadanie jest obliczane w węźle danych. Zamiast przetwarzania równoległych danych, same zadania są równoległe. Dlatego przesłane dane są dystrybuowane do węzła danych przez HDFS, podczas gdy proces obliczeniowy jest dostarczany do trackera zadań i kopiowany wraz z przesłanymi danymi. Wirtualizacja jest kluczowym elementem środowiska przetwarzania w chmurze. Fizyczna moc obliczeniowa jest zasadniczo narzędziem, które użytkownicy mogą zakupić w razie potrzeby. Zwykle celem wirtualizacji jest poprawa skalowalności i ogólnego wykorzystania zasobów sprzętowych. Wirtualizacja umożliwia równoległe działanie kilku systemów operacyjnych na jednym fizycznym komputerze. Podczas gdy komputer fizyczny w klasycznym sensie stanowi kompletną i rzeczywistą maszynę, Maszyna wirtualna (VM) jest całkowicie odizolowaną maszyną z systemem operacyjnym gościa w fizycznym komputerze. Aby zapewnić skalowalność i wydajność, wszystkie komponenty-Job tracker, Task tracker, name node i data node—w naszej usłudze w chmurze działają jak maszyny wirtualne. Rysunek 4 przedstawia architekturę maszyny wirtualnej proponowanej przez nas usługi.

Rysunek 4

usługa przetwarzania w chmurze oparta na technologii wirtualizacji.

2.3. Usługa cloud-Based ORF Phylogenetic Analysis Service

usługa Cloud-based ORF phylogenetic analysis service została opracowana na platformie wirtualizacji z frameworkiem Hadoop, jak opisano powyżej. Procedurę proponowanej usługi przedstawiono na rysunku 5. Węzeł master (węzeł nazwa) i węzeł slave (węzeł danych) są odpowiednio master VM i slave VM. Po przesłaniu wniosku o analizę filogenetyczną jest on zapisywany w kolejce zadań. Węzeł główny okresowo wyodrębnia zadania z kolejki zadań i przypisuje je do węzłów podrzędnych (lub maperów), które wykonują zadanie. Po zakończeniu wszystkich zadań reduktor zbiera wyniki i zapisuje je w Network File System storage (NFS). Pojedynczy wynik porównania pracy filogenetycznej jest zapisywany w jednym pliku NFS. Jak pokazano na fig. 5, węzeł danych działający w VM2 przeprowadza analizę filogenetyczną, a węzeł nazwy działa w VM1. Reduktor , uruchomiony, zestawia wyniki z węzłów danych wykonujących analizy filogenetyczne. W tej usłudze użytkownik przesyła sekwencje białek i przesyła wniosek o analizę filogenetyczną na portalu internetowym. Wszystkie przesłane zadania analizy są gromadzone w kolejce zadań, a dane sekwencji są przechowywane w różnych hostach przez HDFS. Analizy filogenetyczne przypisuje się węzłom danych zawierającym już dane sekwencyjne. Wyniki analizy są przesyłane zarówno do węzła danych, jak i reduktora, aby uzyskać końcowy wynik zapisany w NFS. Użytkownik uzyskuje wynik końcowy logując się do serwisu. Usługa jest realizowana w następujący sposób.

Rysunek 5
Flowchart usługi analizy filogenetycznej ORF opartej na chmurze.

Krok 1: zgłoszenie pracy. Użytkownicy zgłaszają swoją pracę online za pośrednictwem portalu internetowego proponowanej usługi w chmurze. Użytkownicy wprowadzają porównawcze sekwencje DNA/RNA na portalu internetowym lub przesyłają plik zawierający porównawcze sekwencje RNA z portalu internetowego.

Krok 2: tłumaczenie sekwencji. Aby wykryć regiony ORF, wszystkie wejściowe sekwencje RNA są tłumaczone na sekwencje białkowe oparte na kodzie genetycznym. Kod genetyczny jest zbiorem zasad, za pomocą których informacja o sekwencji RNA jest tłumaczona na białka. Każdy kodon w sekwencji RNA Zwykle reprezentuje pojedynczy aminokwas określony przez odpowiedni kod genetyczny. Kod określa aminokwas, który ma być dodany podczas syntezy białek. Kody genetyczne przedstawiono w tabeli 1.

2nd base
U C A G
1st base
U UUU Phenylalanine (Phe) UCU Serine (Ser) UAU Tyrosine (Tyr) UGU Cysteine (Cys)
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leucine (Leu) UCA Ser UAA STOP UGA STOP
UUG Leu UCG Ser UAG STOP UGG Tryptophan (Trp)
C CUU Leucine (Leu) CCU Proline (Pro) CAU Histidine (His) CGU Arginine (Arg)
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Glutamine (Gln) CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A AUU Isoleucine (Ile) ACU Threonine (Thr) AAU Asparagine (Asn) AGU Serine (Ser)
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lysine (Lys) AGA Arginine (Arg)
AUG Methionine (Met) or START ACG Thr AAG Lys AGG Arg
G GUU Valine Val GCU Alanine (Ala) GAU Aspartic acid (Asp) GGU Glycine (Gly)
GUC (Val) GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glutamic acid (Glu) GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Table 1
The genetic code: nucleotides to amino acids.

Step 3: Phylogenetic Analysis. Ten krok identyfikuje funkcjonalne ORFs, pamiętaj, że znaczące ORFs są rzadkie. W naszej usłudze Użytkownik może podać długość ORF, którą uważa za znaczącą. Usługa następnie lokalizuje znaczące ORFs. Przykład ORFs pokazano na rysunku 6. W tym przykładzie pierwszy ORF (oznaczony jako AB447445_1) rozciąga się od pozycji 3 do 5099 w sekwencji AB447445. Na tym etapie budowane są dwa typy drzew filogenetycznych, z których jeden wykorzystuje pełną długość sekwencji, a drugi tylko ORFs. Z trzech regionów ORF zidentyfikowanych w analizie zbudowane są trzy drzewa filogenetyczne ORF. Drzewa te są rejestrowane w formacie ph, a następnie przenoszone i przechowywane w portalu. Tymczasem obliczana jest wartość różnorodności każdej pozycji w sekwencji. Wartości te są zapisywane w pliku.

Rysunek 6
przykład ORFs wykrytego przez ORF finder.

Krok 4: zgłoś wynik. W tym kroku drzewa sformatowane ph są rysowane jako trzy diagramy i wyświetlane na portalu. Użytkownik obserwuje te schematy online lub pobiera je ze strony internetowej. Podobnie na stronie internetowej pojawia się wykres słupkowy o zagregowanej różnorodności.

3. Eksperyment

proponowana usługa w chmurze do analizy wirusów została wykonana na czterech serwerach blade IBM. Każdy serwer był wyposażony w dwa czterordzeniowe procesory Intel Xeon 2,26 GHz, 24 GB PAMIĘCI RAM i 296 GB dysku twardego, działający pod systemem operacyjnym Ubuntu w wersji 10.4, z 8 maszyn wirtualnych na każdym serwerze. Na każdym serwerze zainstalowano platformę Hadoop w wersji 0.2 MapReduce. Jedna maszyna wirtualna stanowiła węzeł śledzenia zadań i nazwy; Pozostałe to śledzenie zadań i węzły danych. Job tracker jest również portalem naszej usługi w chmurze. Portal jest przedstawiony na rysunku 7.

Rysunek 7

Portal serwisu analizy filogenetycznej ORF.

nasze obecne środowisko chmurowe umożliwia korzystanie z ośmiu maszyn wirtualnych. Dwie z tych maszyn wirtualnych to name node i data node uruchamiające reduktor; pozostałe sześć jest odpowiedzialnych za działanie mapy. Do eksperymentu losowo wygenerowaliśmy trzy zbiory danych, z których każdy zawierał 20 sekwencji o różnej długości (300, 400 i 600 nukleotydów). Wszystkie sekwencje w każdym zbiorze danych porównano za pomocą metod analizy filogenetycznej. ClustalW i proponowana usługa były stosowane trzykrotnie, do symulacji trzech analiz filogenetycznych ORF.

czas obliczeń proponowanej usługi przedstawiony na rysunku 8 jest proporcjonalny do liczby maperów. Czas wykonania jest znacznie skrócony, gdy używa się sześciu maperów, w porównaniu do dwóch maperów. Rysunek 9 porównuje wydajność między sekwencyjnymi metodami analizy filogenetycznej, takimi jak ClustalW i proponowaną usługą z sześcioma maperami, dla różnych długości sekwencji. Oczywiście proponowana usługa w ramach Hadoop osiąga lepszą wydajność niż standardowa Sekwencyjna analiza filogenetyczna.

Rysunek 8
Obliczanie czasu analizy filogenetycznej ORF opartej na chmurze z różną liczbą maperów i długością sekwencji.

Rysunek 9

porównanie czasu obliczeniowego między sekwencyjnymi i chmurowymi analizami filogenetycznymi ORF.

4. Studium przypadku

Norovirus (NoV) jest ważnym czynnikiem etiologicznym ostrego zapalenia żołądka i jelit na całym świecie. Powoduje biegunkę w każdym wieku, zwłaszcza na Tajwanie. Genom NoV to jednoniciowy, dodatni sens, poliadenylowany RNA kodujący trzy otwarte ramki odczytu, ORF1, ORF2 i ORF3 . ORF1 koduje długi polipeptyd, który jest rozszczepiany wewnątrzkomórkowo na sześć białek przez proteinazę wirusową . Białka te umożliwiają NoV replikację w komórkach gospodarza . ORF2 koduje wirusowe białko kapsydu, VP1, podczas gdy ORF3 koduje białko VP2, które jest uważane za niewielki składnik strukturalny cząstek wirusa , najwyraźniej odpowiedzialny za ekspresję i stabilizację VP1 . Podobnie jak większość wirusów RNA, NoV jest zróżnicowany genetycznie i antygenowo . Wirus jest wstępnie podzielony na pięć genogrup i ponad 25 genotypów, w oparciu o podobieństwa między sekwencjami ORF2 . Dlatego homologia tego typu wirusa może być zidentyfikowana na podstawie podobieństw ORF. Identyfikacja tej homologii pomoże w projektowaniu leków wirusowych i szczepionek. Dlatego NoV został wybrany jako studium przypadku w naszych eksperymentach. Wybraliśmy piętnaście NoV, które zostały odkryte na Tajwanie. Te sekwencje NoV można pobrać z NCBI.

drzewa filogenetyczne zbudowane z sekwencji pełnej długości i trzech Orfów są pokazane na rysunku 10. Oczywiście, te drzewa różnią się od siebie. Drzewo zbudowane z sekwencji pełnej długości(Fig. 10 (A)) pokazuje ewolucyjną zależność pomiędzy wirusami. Jednak różne ORF dają wyraźnie różne drzewa (Fig. 10 (b) -10 (d)), co sugeruje, że wirusy mogą kopiować ORF z innych wirusów i zmieniać ich funkcję poprzez integrację ich z własnymi sekwencjami. Dlatego też, ustanawiając ewolucyjne relacje dla każdego ORF, wirusolodzy mogą analizować choroby wywołane przez określone ORF. Rysunek 11 przedstawia wykres słupkowy różnorodności generowany przez platformę. Pozycja pozostałości o wysokiej entropii jest przedstawiona na rysunku 12, który pokazuje cztery drzewa filogenetyczne i wykres słupkowy różnorodności. The positions (also the amino acids) of high diversity are shown in the box.

(a)
(a)
(b)
(b)
(c)
(c)
(d)
(d)

(a)
(a)(b)
(b)(c)
(c)(d)
(d)

Figure 10

Phylogenetic trees for full length and different ORF regions: a) Pełnej długości, B) ORF1, C) ORF2 oraz D) ORF3.

Rysunek 11
wykres słupkowy różnorodności dla każdej pozycji.

Rysunek 12
przykład pokazania wysokiej wartości entropii w określonych pozycjach.

5. Wniosek

cloud computing to internetowe dostarczanie zasobów obliczeniowych, takich jak sprzęt i oprogramowanie. Użytkownicy mogą uzyskać dostęp do aplikacji w chmurze za pośrednictwem przeglądarki internetowej lub aplikacji na urządzeniach mobilnych. Chociaż wiele narzędzi bioinformatycznych zostało opracowanych jako aplikacje internetowe, są one zazwyczaj wdrażane na serwerze, który ma ograniczoną moc obliczeniową. Obecnie niektóre narzędzia zostały przebudowane jako rozproszone narzędzia obliczeniowe oparte na frameworku Hadoop. Narzędzia te są łatwo wdrażane w klastrze dostarczanym przez dostawcę chmury obliczeniowej, takiego jak Amazon EC2. Wdrażanie istniejących narzędzi do środowiska chmurowego jest aktualnym trendem bioinformatyki jako usługi.

w niniejszym artykule proponujemy usługę analizy filogenetycznej opartej na chmurze opartej na klastrze Hadoop z wykorzystaniem technologii wirtualizacji. Wirtualizacja umożliwia proponowanej usłudze kopiowanie dużych ilości zadań. Ponieważ usługa Hadoop jest silnie buforowana przed błędami, proponowana usługa w chmurze gwarantuje, że przesłane zadania zostaną odzyskane przez zmianę przydziału zadań, zapewniając wysoką dostępność usługi w chmurze. Nasze studium przypadku wykazało, że nasz serwis może konstruować różne drzewa filogenetyczne z porównań różnych ORFs. Związki te mogą znacząco pomóc biologom obserwować ewolucje sekwencji w różnych ORFs. Proponowana usługa może również pomóc w badaniach nad opracowaniem nowych leków przeciwko chorobotwórczym wirusom.

konflikt interesów

nie ma konkurencyjnych interesów dla tego artykułu.

podziękowanie

część prac została wsparta przez Krajową Radę nauki w ramach grantów NSC-99-2632-E-126-001-MY3 i NSC-100-2221-E-126-007-MY3.



Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.