プレゼンテーション資料

Transcript プレゼンテーション資料

Slide 1

構築済み”ビッグ”データ解析システム Takeruシリーズ

2012.10.15 生命医薬情報学連合大会

Slide 2

データ解析に何を使用するか？

スーパーコンピューター
ex.
クラウドコンピューティング
ex.

The “Powered by Amazon Web Services” logo
is a trademark of Amazon.com, Inc.

構築済み
”ビッグ”データ解析システム
次世代シーケンシングデータ

Slide 3

特長2： ”ビッグ”データへ対応
データ解析に何を使用するか？（比較）

・スーパーコンピューター
→「待ち時間が長い、混んでいてすぐに使えない」
→「ソフトウェアやコンパイラーのバージョンが希望と異なると
計算を投げる前に環境を合わせなければならない」
・クラウドコンピューティング
→「希望する環境や機器使用が存在しない場合がある
（テラバイト級の大容量メモリ搭載サーバー等）」
→「ライブラリーが一つ変わるだけで結果に影響の出る
科学技術計算には向かない」
・構築済み”ビッグ”データ解析システムを導入すれば
→自由な時間に自分の希望する環境で解析できる
→スーパーコンピューターやクラウドコンピューティングでは
それらに向いた計算を行う

手元に”ビッグ”データ解析システムを構築する

Slide 4

特長1：最適な解析環境を構築

データ解析に最適な環境は様々な条件で異なる

・
・
・
・
・

対象ゲノムの種類
データを出した次世代シーケンサーの種類
データ量
解析システムユーザー数
予算
・・・etc.

Slide 5

特長1：最適な解析環境を構築（図）

Takeru for Sequencer
拡張ローカルストレージ構成

Takeru Large-Memory Server IV

Takeru for Sequencer IV
Takeru GPGPU搭載サーバー
Takeru Lite for Sequencer II

自分の使用条件に合った最適な解析環境を導入できる

Slide 6

特長2： ”ビッグ”データへ対応（図）

Slide 7

特長2： ”ビッグ”データへ対応（特長）

・高速ローカルストレージ
→NFSで取り扱いし易い、安価でそこそこ高速
・分散ファイルシステム
→大規模計算機システムで活きるストレージ
・ ZFSを用いたバックアップ／スナップショット
→2の64乗個のスナップショットを作成可能
→差分による高速バックアップが可能
→ストレージ拡張が容易
→特にペタバイト級では必須

対応するストレージシステムを提供

Slide 8

特長3：シークエンシング関連ソフトウェア構築済みリスト

Takeru for Sequencerシリーズ構築済みソフトウエア

解析
ベーシック

ABySS, AGeS, ALLPATHs, ALLPATHS-LG, AMOS, Arachne, ARB, BEDTools, BFAST,
Bioconductor, Biojava, bioperl, Biopython, bioruby, BLAT, Bowtie2, BreakDancer, BWA,
CABOG, CAP3, CASAVA, Circos, ClustalW, Consed/Phred/Phrap (Cross_match),
Cufflinks, CummerRBund, Cytoscape, Edena, EMBOSS, Ensembl, ERANGE, Euler-SR,
FastQC, FastTree2, FASTX-Toolkit, FragGeneScan, Galaxy, GATK, GBrowse2, Glimmer,
Gnuplot, GS De Novo Assembler (Newbler)/ GS Reference Mapper/ GS Amplicon
Variant Analyzer, GSNP, GView, hmmer, IDBA-UD, IGV, Interproscan, LifeScope, MACS,
MAFFT, Maq, Maqview, MEGAN, MEME, Meta-IDBA, MIRA3, ModelTest, mothur,
MrBayes, MUMmer, ncbitools, NIA Array Analysis, Oases, PAUP*4.0, PCAP.REP,
PHYLIP, Picard, PIPA, Qiime, RAxML, RepeatMasker, SAMtools, SC,
SOAP/SOAPdenovo2, SRA Toolkit, Tablet, T-COFFEE, TopHat, trans-ABySS, Trinity,
tRNAscan-SE, UCSC Genome Browser, USEARCH, Velvet, Velvet-SC, Velvet WGA
Assembler, etc.

プログラミング言語
Java, Perl, PHP, Python, R, Ruby
その他ライブラリー・モジュール
BLAS, Boost, GD, LAPACK,
numpy, scipy, spp, etc
負荷分散
GridScheduler
並列ライブラリー
mpich, MPICH2, openMPI,
MVAPICH2
データベース
PostgreSQL, MySQL, SQLite
有償コンパイラー
Intelコンパイラー、PGIコンパイラー
GPU用環境
CUDA

Slide 9

特長3：シークエンシング関連ソフトウェア構築済み

なぜ「構築済み」が有効か

・次世代シークエンシング解析ツールは多数存在する。
また、複数のツールで試す必要あり
・インストールが手間、並列環境設定が大変、
最適ハードウェアが変わってくる
・オープンソース多いので動作の点でサポート無し

使用ソフトウェアをインストール、設定済みのシステムであれば
これらの問題をクリア

すぐに解析に着手できる

Slide 10

特長3：シークエンシング関連ソフトウェア構築済み例1

Qiime動作例

Slide 11

特長3：シークエンシング関連ソフトウェア構築済み例2

Galaxy動作例

UCSC Genome Browser動作例

Slide 12

特長4：Project Lifetime Support

Project Lifetime Support --- リモートアプリケーション構築サービス

・ Takeruシステム導入後でも、リモートにて
ソフトウェアのインストール／アップデートが可能
→進化の速いシーケンサー技術に対応

導入した解析システムを研究プロジェクト終了まで使える

Slide 13

まとめ
Takeru：手元に”ビッグ”データ解析システムを構築する
最適な解析環境を構築
→自分の使用条件に合った最適な解析環境を導入できる

”ビッグ”データへ対応
→対応するストレージシステムを提供
シークエンシング関連ソフトウェア構築済み
→すぐに解析に着手できる
Project Lifetime Support
→導入した解析システムを研究プロジェクト終了まで使える

プレゼンテーション資料

Transcript プレゼンテーション資料

Directory