日本語によるバイオ情報ポータルサイトの開発 バイオポータルプロジェクト

Download Report

Transcript 日本語によるバイオ情報ポータルサイトの開発 バイオポータルプロジェクト

日本語によるバイオ情報ポータルサイトの開発
バイオポータルプロジェクト
The development of a portal site for biological information with a Japanese user interface
.
代表:藤山秋佐夫 | 参加研究機関:情報研・遺伝研・東京理科大・㈱三菱総研
A.Fujiyama ( project leader ) | collaborative research with NII, NIG(DDBJ), TUS(RIKADAI), MRI Inc.
● イントロダクション
私たちヒトを含む生物の研究は、その設計図であるゲノムや遺伝子を中心に、
幅広く展開され、膨大な情報が蓄積されています。そこで、誰もが簡単に、わか
りやすく、バイオ情報にアクセスできるポータルサイトを公開しました。日本語に
よる遺伝子データベースの検索、文献検索、用語辞書、コラムなどのメニューを
作製し、バイオオントロジ、ウェブサービスやメタデータを利用した知識の解釈や
解析自動化の研究を行っています。
(a With the remarkable progress in biological researches in recent years, as in
the study of genomes and genes, we are now exposed to a huge collection of
information available. Now the key issue is its utilization. Given this, we have
been developing a portal site, which aims to provide a wide range of users with
an easy and sensible access to biological information with a Japanese user
interface. The site is now released with the menu including: searches in gene
databases, information retrieval, E/J terminology dictionary and columns on
state-of-the-art researches to help ordinary people's understanding. Our
technical concern includes: creation/use of biological ontologies, and the
interpretation and automatic analysis of knowledge by means of web services
and meta data.)
● バイオ / ライフサイエンス分野の現状
ゲノム・タンパク質配列 タンパク質立体構造 文献情報
タンパク質間相互作用 脳活動
● バイオポータルWebサイトの課題
共通のデータ/知識をベースに、研究者と一般それぞれに応じたコンテンツ、
ツールの提供。
日本語と英語、専門用語を意識しない利用環境。
21世紀のゲノム情報科学の成果の普及。
バイオポータルプロジェクトが取り組む課題
膨大で難解なバイオ情
報を共有する問題
バイオ情報からの
知識発見の課題
実用化(ウェブサイト)
ゲノムをはじめとする配列や分子に関するデータが爆発的に増加
Webの普及で世界中のバイオデータを誰もが検索・閲覧・解析できるよう
になった
しかし、情報やツールは分散しているために、最新で良質のものを選択す
る知識が必要。また使いこなす技術も必要。
幅広い生命科学分野の研究者(生物学、医学、農学、工学、教育関係)
相互のコミュニケーションすら困難である。
医療や食糧、環境、技術などバイオ関連のニュースがマスメディアを通じ
て伝えられるものの、一般の人が内容や意義を詳しく知るためには専門的
な本やウェブサイトしか用意されていない。
コラム 読み物
バイオニュース
日本語ゲノムブラウザ
生物種変動
断片化された生命情報
ウ
ェ
ブ
サ
ー
ビ
ス
ゲ
ノ
ム
解
析
技
術
バイオ文献検索
e-Workbench
メタデータベース
日本語インターフェースの開発
バイオ専門用語辞書の構築
バイオオントロジの構築と利用
バイオセマンティックウェブの実現
研究/
研究者
一般向け
● 生命科学情報を理解するための環境構築
(1) 日本語で利用できる環境の整備
(ex.1) 配列/文献データの推移
キーワード
検索
キーワードの
和英変換
現在、約480億文字のデータ!
バイオ研究と社会の接
点創造の役割
現在、約500万文献!
日本語
キーワード
英語
キーワード
対訳辞書
(日本語→英語)
バイオ
コンテンツ
(英語)
日本語
訳付け
対訳辞書
(英語→日本語)
検索結果
(日本語)
配列データ登録数の推移(GenkBank)
生物医学関連文献登録数の推移(PubMed)
(ex.2) バイオ用語と教科書ごとの使用数
UM LS > 1000000
ライフサイエンス辞書 40000
Bioportal 32000
M eSH
22568
ヒト遺伝子 20000
生化学辞典 14300
生物学辞典 11000
細胞生物学辞典 9600
大学一般生物学 4300
大学生化学 4283
大学細胞生物学 4254
系列1
中学と大学、研究では使用する用語に
数百~数万倍の差がある!
高校理科参考書 2250
高校理科教科書 549
中学理科教科書 92
収録用語数
● バイオ用語辞書の作製 (用語数3万、解説数4千)
マウスをもっていく
と日本語訳が表示
(2) 教科書構造を利用したオントロジの研究
1. 科学そして進みゆく生命の流れ
1.1 自然科学とその系譜
1.2 生命化学の基礎
1.3 生命を担う分子
1.4 細胞の構造と機能
1.5 細胞輸送
1.6 エネルギーと細胞
1.7 光合成
1.7.1 光合成の戦略
1.7.2 葉緑体
1.7.3 光合成の過程
1.7.4 明反応
1.7.5 暗反応
1.7.5.1 カルビン回路
1.8 解糖と呼吸
1.9 有糸分裂と細胞分裂
1.10 減数分裂と染色体のかくはん
2. 遺伝と進化 –歴史と展望
3. 原核生物から植物へ
4. 動物の進化と多様性
5. 動物における調節のしくみ
6. 動物の個体維持と生殖
7. 行動と生態 –生物圏内の相互作用
最新の研究データ
教科書の目次構造を既知情報が構造化
されたオントロジとみなす。
複数分野の教科書を組み合わせること
で、幅広い専門分野を簡単にカバーするこ
とができる。
各セクションの用語をもとに、より詳細な
情報や最新の研究データを教科書上に
マップし、概念間の関係を拡張。
生命科学の文献(Medline)から
共起する用語を抽出
教科書レベルの用語から、関
連する専門用語を見つけ出すこ
とが可能
類義語などの抽出
検索キーワードの拡張などの
ユーザ支援
共起する用語間のネットワーク(例)
http://www.bioportal.jp
用語ネットワーク構造解
析
abion
日本語バイオポータルサイト