Open Reading Frameクラウド上の系統発生解析
Abstract
ウイルス間の進化的関係を研究する上で系統発生解析が不可欠となっています。 これらの関係は、ウイルスが配列の類似性に基づいてグループ化されている系統樹上に描かれています。 ウイルスの進化的関係は、完全な配列からではなく、開いた読み取りフレームから同定される。 近年,インターネットベースのバイオインフォマティクスツールを開発するためにクラウドコンピューティングが普及している。 Biocloudは、効率的でスケーラブルで堅牢なバイオインフォマティクスコンピューティングサービスです。 本論文では,クラウドベースのオープンリーディングフレーム系統解析サービスを提案した。 提案されたサービスは、Hadoopフレームワーク、仮想化技術、および系統発生分析方法を統合して、高可用性、大規模なバイオサービスを提供します。 事例研究では,ノロウイルス間の系統発生関係を解析した。 異なるオープンリーディングフレームシーケンスを整列させることにより進化的関係を解明した。 提案されたプラットフォームは、ノロウイルスのメンバー間の進化的関係を正しく識別する。
1. はじめに
生物群間の進化的関係を理解することは、系統解析にますます依存するようになってきています。 系統発生は、通常、系統樹として知られている木図として提示されます。 これらの木は、異なる生物間の遺伝的類似性および相違から構築される。 比較配列解析は、遺伝子を同定し、遺伝子産物の機能を推測し、新規な機能要素を同定することができる有用な方法である。 それらの全長に沿っていくつかの配列を比較することによって、研究者は自然選択によって保存される可能性が高い保存された残基を見つ 先祖の配列を再構築することで、突然変異のタイミングと方向性を明らかにすることができます。 これらの比較分析は、系統樹構築物に依存している。
読み取りフレームは、三つの連続したヌクレオチドの連続した、オーバーラップしていない三重項のセットです。 コドンは、翻訳中のアミノ酸または停止シグナルに相当する三重項である。 オープン読み取りフレーム(ORF)は、停止コドンを含まない読み取りフレームのセクションです。 RNAの転写が停止コドンに到達する前に停止した場合、タンパク質を作ることはできません。 したがって、停止コドンが正しい位置に翻訳されることを確実にするために、転写終了休止部位は、ORFの後に位置する。 Orfは、DNA配列中の翻訳された領域を同定することができる。 長いOrfは、DNA配列内の候補タンパク質コード領域を示します。 Orfはまた、ノロウイルスのメンバーを含む様々なウイルスファミリーを分類するために利用されている。 Open Reading Frame Finder(ORF Finder)は、DNA配列内のopen reading frameを検索するグラフィカルな解析ツールです。 ORF Investigatorプログラムは、コード配列と非コード配列に関する情報を提供し、異なるDNA領域のペアワイズアラインメントを実行します。 このツールは、Orfを効率的に識別し、それらをアミノ酸コードに変換して、配列内のそれぞれの位置を宣言します。 ペアワイズアライメントはまた、配列間の一塩基多型を含む変異を検出する。 StarORFはDNA配列内でコードされる蛋白質の同一証明を促進する。 最初に、DNA配列をRNAに転写し、全ての潜在的なOrfを同定する。 これらのOrfは、ユーザーが最長のタンパク質コード配列をもたらす翻訳フレームを識別できるように、六つの翻訳フレーム(順方向に3と逆方向に3)のそれぞれ
いくつかの生物学的組織は、ウェブサイト上でバイオインフォマティクスツールを実装しています。 国立バイオテクノロジー情報センター(NCBI)は、よく知られているBLASTアルゴリズムを含む、データベースに格納されたヌクレオチドまたはタンパク質配列を比較 NCBIはまた、生物学者が相同性や特定の機能を求めることができるGenBankやSNPなどのいくつかのデータベースを提供しています。 欧州分子生物学研究所(EMBL)は、科学界のすべての面に自由に利用可能なデータとオンラインバイオインフォマティクスツールを提供しています。 これらのデータとツールは、医学や生物学の研究に不可欠です。 これらのサービスのほとんどは、インターネットを介してアクセスされ、オンラインで利用されています。
クラウドコンピューティングは、インターネット上で、ハードウェアまたはソフトウェアのいずれかのコンピュー サービスとしてのインフラストラクチャ(IaaS)、サービスとしてのプラットフォーム(PaaS)、サービスとしてのソフトウェア(SaaS)、サービスとしてのネットワーク(NaaS)、サービスとしてのストレージ(STaaS)など、多くのタイプのクラウドコンピューティングが提案されている。 これらのサービスのほとんどは、仮想化技術—仮想ハードウェアプラットフォーム、オペレーティングシステム、ストレージデバイス、およびネットワー クラウドコンピューティングは、その使いやすさ、仮想化、インターネット中心の焦点、リソースの多様性、自動適応、スケーラビリティ、リソースの最適化、ペイパーユース、サー 多くのクラウドコンピューティングベンダーは、データセンターに設置された大規模なリソースプー Amazon EC2はインフラストラクチャサービスを提供し、Google App EngineとMicrosoftのAzureサービスプラットフォームはプラットフォームサービスを提供します。 学界では、多数のクラウドコンピューティングプロジェクトが建設中または完全に運用されています。
クラウドコンピューティングは、本質的に並列コンピューティングを可能にする分散システムです。 Hadoopは、データ集約型の分散計算をサポートするオープンソースのソフトウェアフレームワークです。 Hadoopの下では、アプリケーションは、コモディティコンピュータの大規模なクラスター上に実装することができます。 Hadoopクラスターには、単一のマスターノードと複数のスレーブノードが含まれています。 マスターノードはスレーブノードにジョブを割り当て、割り当てられたタスクを完了します。 Hadoopは、大規模なデータセットの並列処理のためのMapReduceプログラミングモデルを提供します。 計算タスクは多くの小さなタスクに分割され、それぞれがHadoopクラスター内の計算ノードで実行または再実行される可能性があります。 また、MapReduceには、データを計算ノードに格納する分散ファイルシステムHADOOP Distributed File System(HDFS)も用意されており、クラスター全体で非常に高い集約帯域幅を実現します。 Map/reduceと分散ファイルシステムの両方が障害に対して堅牢です。 いくつかのシーケンス解析ツールは、CloudBlastやCrossBowなど、Hadoopアーキテクチャに基づいたクラウドツールとして再開発されています。 そのため、標準的なオンラインツールをクラウド-アーキテクチャに移植できます。 このような既存のツールのインポートは、サービスとしてのバイオインフォマティクス(BaaS)の主な目標を構成しています。
本稿では、仮想化技術とHadoopに基づいて、高可用性、大規模なORF系統解析クラウドサービスを開発します。 このサービスは、複数の要求をサポートするために、Hadoopクラスターに基づくORFsからの系統発生分析を提供します。 クラウドコンピューティング環境の本質は仮想化です。 物理的な計算能力は、ユーザーが必要に応じて要求できるユーザー支払いユーティリティとみなされます。 このユーティリティは、仮想マシンとも呼ばれます。 Hadoopクラスター内の各ノードは仮想マシンです。 ユーザーは、マスターノード(webポータル)を介してシーケンスデータまたはファイルをアップロードしてから、ジョブを送信できます。 ジョブは、アップロードされたデータを含むスレーブノードに割り当てられ、スレーブノードがジョブを完了します。 ORFの比較はノロウイルスの相同性を明確に確立しているので、ここではノロウイルスをケーススタディとして採用します。 その結果,提案したクラウドベースの解析ツールは,仮想化技術とHadoopフレームワークにより,Baasを容易に容易に容易に容易に容易に容易にすることができることを示した。 提案されたクラウドベースのORF系統発生ツールは、http://bioinfo.cs.pu.edu.tw/CloudORF/で利用可能です。
2. メソッド
本稿では、hadoopフレームワーク、仮想化技術、系統樹ツール、および多様性分析を組み合わせたクラウドベースのORF系統解析サービスを提案します。 前述したように、クラウドプラットフォームは仮想化とHadoopフレームワークから構築されています。 Hadoopは、Kernel-based Virtual Machine(KVM)などの仮想化技術によって作成されたVm上で実行されます。 Hadoopは、分散コンピューティングの方法で系統解析を実行します。 基盤となるアーキテクチャは、提案されたクラウドベースのサービスの弾力性、スケーラビリティ、および可用性を保証します。 2.1.
系統解析
提案されたクラウドサービスは、完全な系統解析を生成するために、ORF発見プロセス、系統樹収縮、およびORF多様性分析を統合します。 解析の手順を以下に示し、図1に示します。
系統解析手順。
ステップ1:開いている読み取りフレームを検出します。 機能的Orfは、配列から抽出される。 多くのOrfはタンパク質配列に存在しますが、ほとんどは重要ではありません。 ORF finderは、指定された最小サイズの開いているすべての読み取りフレームをシーケンス内で検索します。 本研究では,NCBIツールのウェブサイトで一般的に使用されているORFファインダーを採用した。 この用具は標準的なか代わりとなる遺伝コードを使用して開いたすべての読書フレームを識別する。 ステップ2:オープンリーディングフレームに基づいて系統樹を構築する。
ステップ2:オープンリーディングフレームに基づいて系統樹を構築する。
系統樹(phylogenetic tree)または進化樹(evolutionary tree)は、生物種またはそれらの物理的および/または遺伝的特徴の類似性および相違に基づいて他の実体間の推論された進化的関係を示す分岐(木)図である。 木の中で一緒に集まった分類群は、おそらく共通の祖先の子孫です。 系統解析は、通常、全長の配列を整列させる。 しかし、異なるOrfは、異なる系統樹をもたらす可能性があります。 ウイルスORFアライメントは、共通のウイルスの祖先またはすべてのウイルスに共通のORFを明らかにする可能性があります。 このような発見は、ウイルス性薬物の設計を大いに支援するであろう。
系統樹はClustalWを使用して計算されます。 このアルゴリズムは二つの系統樹を構築し,一つは完全な配列に基づいており,もう一つはOrfのみに基づいており,二つの木の間の分散を明らかにした。 ステップ3:開いている読み取りフレーム間の多様性分析。
ステップ3:開いている読み取りフレーム間の多様性分析。 多様性は、通常、グループ内の異なるアイデンティティの数を示しています。 ここでは,多様性は蛋白質配列中の特定の位置で種の分散を示した。 位置の小さい多様性の価値は蛋白質配列がその位置で非常に類似していることを意味します。 対照的に、高い多様性値は、その位置での低い類似性を示す。 分散が高いフレームは、このフレームが容易に変異することも示しています。 このような高分散フレームは、タンパク質の構造の違いを観察し、ワクチンの開発を支援するために使用することができます。 ここでは,エントロピーから多様性を次のように計算した: ここで、はエントロピーの値であり、は位置で指定されたアミノ酸を見つける確率です。 有意な位置を見つけるために、特定のしきい値の下のエントロピー値が除外されます。 この研究では、閾値を1.4に設定した。
2.2. VirtaulizationとHadoopフレームワークに基づくクラウドプラットフォーム
提案された系統解析ツールのクラウドプラットフォームは、仮想化とHadoopフレームワークの二つの重要な技術に基づいて構築されています。 Hadoopは、拡張性が高く、利用可能な分散システムです。 スケーラビリティと可用性は、自己回復分散ストレージシステムであるHDFSと、特定のフォールトトレラント分散処理アルゴリズムであるMapReduceによって保 Hadoopクラスターのアーキテクチャを図2に示します。
Hadoopクラスターのアーキテクチャ。
Hadoopクラスターは、単一のマスターノードと複数のスレーブノードを構成します。 マスターノードは、ジョブトラッカー、タスクトラッカー、名前ノード、およびデータノードで構成されます。 スレーブノード、またはコンピューティングノードは、データノードとタスクトラッカーを備えています。 ジョブトラッカーは、マップ/リデュースタスクをクラスター内の特定のノード、理想的には既にデータを含むノード、または少なくとも同じラック内のノードに割 タスクトラッカーノードは、ジョブトラッカーからのmap、reduce、およびshuffle操作を受け入れます。 Map/reduce操作を図3に示します。
Hadoop map/reduceモデルの手順。HDFSは、Hadoopフレームワークで使用される主要な配布ファイルシステムです。 各入力ファイルは、データノードに分散されるデータブロックに分割されます。 また、Hadoopはデータブロックの複数のレプリカを作成し、クラスター全体のデータノードに配布して、信頼性の高い非常に迅速な計算を可能にします。 名前ノードは、HDFSのディレクトリ名前空間マネージャとノードメタデータマネージャの両方として機能します。 HDFSアーキテクチャには、単一の名前ノードが含まれています。
Hadoopの一つの望ましい特性は、その高いフォールトトレランスです。 HDFSを使用すると、データが数百または数千のノードまたはマシンに分散され、タスクはデータ保持ノードで計算されます。 Hadoopはデータを複製するため、1つのレプリカが失われた場合、バックアップコピーが存在します。 計算中にノードが失敗すると、hadoopはレプリケートデータを含む別のノードで停止したタスクを再起動します。 Hadoopフレームワークでは、個々のタスクノード(タスクトラッカー)がジョブトラッカーと常に通信するハートビートメカニズムを使用してノード障害が検出されます。 タスクトラッカーがジョブトラッカーとの通信に一定期間失敗した場合、ジョブトラッカーはタスクトラッカーがクラッシュしたとみなします。 ジョブトラッカーは、どのタスクトラッカー(データノード)に複製データが含まれているかを認識し、再起動タスクを発行します。 本論文では,提案したクラウドサービスを,Hadoopクラスタ分散と管理モデルを組み合わせて実装した。 クラウドサーバーでは、送信されたジョブはデータノードで計算されます。 並列データを処理するのではなく、ジョブ自体が並列化されます。 したがって、送信されたデータはHDFSによってデータノードに配布され、計算プロセスはタスクトラッカーに配信され、送信されたデータとともにコピーされます。 仮想化は、クラウドコンピューティング環境の重要なコンポーネントです。 物理的な計算能力は、本質的にユーザーが必要に応じて購入できるユーティリティです。 仮想化の通常の目標は、スケーラビリティと全体的なハードウェアリソースの使用率を向上させることです。 仮想化は、単一の物理コンピュータ上で複数のオペレーティングシステムの並列実行を可能にします。 古典的な意味での物理コンピュータは完全で実際のマシンを構成しますが、仮想マシン(VM)は、物理コンピュータ内でゲストオペレーティングシステムを実 スケーラビリティと効率性を確保するために、クラウドサービス内のすべてのコンポーネント(job tracker、task tracker、name node、data node)は仮想マシンとして動作します。 図4は、提案したサービスのVMアーキテクチャを示しています。
仮想化技術に基づくクラウドコンピューティングサービス。
2.3. クラウドベースのORF系統解析サービス
クラウドベースのORF系統解析サービスは、上記のようにHadoopフレームワークを備えた仮想化プラットフォーム上で開発さ 提案されたサービスの手順を図5に示します。 マスターノード(名前ノード)とスレーブノード(データノード)は、それぞれマスター VMとスレーブVMです。 系統解析要求が送信されると、その要求はジョブキューに保存されます。 マスターノードは、ジョブキューから定期的にジョブを抽出し、タスクを実行するスレーブノード(またはマッパー)に割り当てます。 すべてのジョブが完了すると、reducerは結果を収集し、ネットワークファイルシステムストレージ(NFS)に保存します。 系統発生ジョブの単一の比較結果は、NFSの単一のファイルに保存されます。 図5に示すように、VM2で実行されているデータノードは系統解析を実行し、vm1では名前ノードが実行されます。 減速機は、系統発生分析を実行するデータノードからの結果を照合します。 このサービスでは、ユーザーはタンパク質配列をアップロードし、ウェブサイトポータル上で系統解析要求を送信します。 送信されたすべての分析ジョブはジョブキューに収集され、シーケンスデータはHDFSによって異なるホストに格納されます。 系統解析は、すでに配列データを含むデータノードに割り当てられます。 解析結果はdata nodeとreducerの両方に送信され、NFSに格納された最終結果が生成されます。 ユーザーは、webサイトにログインして最終結果を取得します。 このサービスは以下のように実装されています。
クラウドベースのORF系統解析サービスのフローチャート。ステップ1:ジョブの送信。 ユーザーは、提案されたクラウドサービスのwebポータルを介してオンラインで仕事を提出します。 ユーザーは、webポータルで比較DNA/RNA配列を入力するか、webポータルから比較RNA配列を含むファイルをアップロードします。 ステップ2:配列変換。 ORF領域を検出するために、全ての入力RNA配列は、遺伝コードに基づいてタンパク質配列に翻訳される。 遺伝コードは、RNA配列情報がタンパク質に翻訳される規則のセットです。 RNA配列中の各コドンは、通常、対応する遺伝コードによって指定される単一のアミノ酸を表す。 コードは蛋白質の統合の間に次に加えられるべきアミノ酸を指定する。 遺伝コードを表1に示す。
|
Step 3: Phylogenetic Analysis. このステップは、機能的なOrfを識別し、重要なOrfはまれであることを思い出してください。 当社のサービスでは、ユーザーは、彼/彼女が意味のあるとみなすORFの長さを提供することができます。 その後、サービスは重要なOrfを検索します。 ORFsの例を図6に示します。 この例では、最初のORF(AB447445_1と表示)は、シーケンスAB447445の位置3から5099まで拡張されています。 このステップでは、2つのタイプの系統樹が構築され、1つは完全な配列長を使用し、もう1つはOrfのみを使用します。 解析で同定された三つのORF領域から、三つのORF系統樹が構築される。 これらの木はphのフォーマットで記録され、次にに移り、入口で貯えられる。 一方、シーケンス内の各位置のダイバーシティ値が計算されます。 これらの値はファイルに保存されます。 図6.ORF finderで検出されたOrfの例。
ステップ4:結果を報告します。 このステップでは、phフォーマットされたツリーが三つの図として描画され、ポータルに表示されます。 ユーザーはこれらの図をオンラインで観察するか、webサイトからダウンロードします。 同様に、集計された多様性の棒グラフがウェブサイトに表示されます。
3. 実験
ウイルス分析のための提案されたクラウドサービスは、四つのIBMブレードサーバー上で実行されました。 各サーバーには、2つのクアッドコアIntel Xeon2.26GHz Cpu、24GB RAM、および296GBのハードディスクが搭載されており、Ubuntuオペレーティングシステムバージョン10.4で実行され、各サーバーに8つの仮想マシンが搭載されていました。 Hadoopバージョン0.2MapReduce platformが各サーバーにインストールされました。 一つのVMはジョブトラッカーと名前ノードを構成し、もう一つはタスクトラッカーとデータノードである。 ジョブトラッカーは、当社のクラウドサービスのポータルでもあります。 ポータルは図7に示されています。
クラウドベースのORF系統解析サービスのポータル。
現在のクラウド環境では、八つの仮想マシンが許可されています。 これらのVmのうち2つは、reducerを実行しているname nodeとdata nodeであり、残りの6つはmap操作を担当します。 実験のために、我々はランダムに異なる長さ(300、400、および600ヌクレオチド)の20配列を含むそれぞれの三つのデータセットを生成しました。 各データセット内のすべての配列を系統発生解析法によって比較した。 三つのORF系統発生解析をシミュレートするために,clustalwと提案したサービスを三回適用した。
図8に示す提案されたサービスの計算時間は、マッパーの数に比例します。 6つのマッパーを使用すると、2つのマッパーと比較して実行時間が大幅に短縮されます。 図9は、異なる配列長について、ClustalWなどのシーケンシャル系統発生解析法と提案されたサービスとの性能を六つのマッパーで比較したものです。 明らかに、Hadoopフレームワークで提案されたサービスは、標準のシーケンシャル系統発生分析よりも優れたパフォーマ
マッパーの数とシーケンスの長さが異なるクラウドベースのORF系統解析の計算時間。
シーケンシャルおよびクラウドベースのORF系統解析間の計算時間の比較。
4. 症例研究
ノロウイルス(NoV)は、世界中の急性胃腸炎の重要な病因である。 これは、特に台湾では、すべての年齢で下痢を引き起こします。 NoVゲノムは、三つのオープンリーディングフレーム、ORF1、ORF2、およびORF3をコードする一本鎖、陽性センス、ポリアデニル化RNAです。 ORF1は、ウイルスプロテイナーゼによって六つのタンパク質に細胞内に切断された長いポリペプチドをコードしている。 これらの蛋白質はNoVが宿主細胞で複製することを可能にする。 ORF2はウイルスカプシドタンパク質、VP1をコードし、ORF3はウイルス粒子のマイナーな構造成分とみなされるVP2タンパク質をコードし、明らかにVP1の発現と安定化に関与している。 RNAウイルスの大部分と同様に、NoVは遺伝的および抗原的に多様である。 ウイルスは、ORF2配列間の類似性に基づいて、暫定的に五つの遺伝子グループと25以上の遺伝子型に分割されています。 したがって、このタイプのウイルスの相同性は、ORF類似性から同定することができる。 この相同性を同定することは、ウイルス性薬物およびワクチンの設計を支援する。 そこで,novを実験のケーススタディとして選択した。 私たちは、台湾で発見された十五のNoVを選択しました。 これらのNoVシーケンスはNCBIからダウンロードできます。
全長配列と三つのOrfから構築された系統樹を図10に示します。 明らかに、これらの木は互いに異なる。 完全な長さの配列から構築されたツリー(図10(a))は、ウイルス間の進化的関係を示しています。 しかし、異なるOrfは明らかに異なる木をもたらす(図10(b)-10(d))、ウイルスは他のウイルスからOrfをコピーし、それらを独自の配列に統合することによっ したがって、各ORFの進化的関係を確立することによって、ウイルス学者は特定のOrfによって引き起こされる疾患を分析することができる。 図11は、プラットフォームによって生成されたダイバーシチ棒グラフを示しています。 高エントロピーの残基位置は図12に示されており、これは四つの系統樹と多様性棒グラフを示しています。 The positions (also the amino acids) of high diversity are shown in the box.
(a)
(b)
(c)
(d)
(a)
(b)
(c)
(d)
Phylogenetic trees for full length and different ORF regions: (a)全長、(b)ORF1、(c)ORF2、および(d)ORF3。
各位置のダイバーシティ棒グラフ。
特定の位置で高いエントロピー値を示す例。
5. 結論
クラウドコンピューティングは、ハードウェアやソフトウェアなどのコンピューティングリソー ユーザーは、webブラウザまたはモバイルデバイス上のアプリケーションを介してクラウドベースのアプリケーションにアクセスできます。 多くのバイオインフォマティクスツールはwebアプリケーションとして開発されてきましたが、これらは通常、計算能力が限られているサーバーに展開され 現在、いくつかのツールは、Hadoopフレームワークに基づいた分散コンピューティングツールとして再開発されています。 これらのツールは、Amazon EC2などのクラウドコンピューティングベンダーが提供するクラスターに容易にデプロイできます。 クラウド環境への既存のツールの展開は、サービスとしてのバイオインフォマティクスの現在の傾向です。
本稿では、仮想化技術を用いたHadoopクラスタに基づく大規模で利用可能なクラウドベースのオープンリーディングフレーム系統解析サービスを提案します。 仮想化は、提案されたサービスが大量のジョブをコピーすることを可能にする。 Hadoopは障害に対して強くバッファリングされているため、提案されたクラウドサービスは、送信されたジョブがタスクの再割り当てによって回復され、高可用性のクラウドサービスを確保することを保証します。 我々のケーススタディは、我々のサービスは、異なるOrfの比較から異なる系統樹を構築することができることを実証した。 これらの関係は、生物学者が異なるOrfにおける配列進化を観察するのを大幅に支援することができる。 提案されたサービスは、病原性ウイルスに対する新規薬剤の開発のための研究を支援することもできます。
利益相反
この論文には競合する利益はありません。
謝辞
この作業の一部は、助成金NSCの下で国家科学評議会によってサポートされました-99-2632-E-126-001-MY3およびNSC-100-2221-E-126-007-マイ3