Transcript Web

Webから作る人工知能
ダヌシカ・ボッレーガラ
東京大学大学院情報理工学系研究科石塚研究室
日本学術振興会特別研究員
自己紹介




氏名:ダヌシカ・ボッレーガラ (スリランカ出身)
所属:東京大学大学院情報理工学系研究科石塚研究室
日本学術振興会特別研究員(PD)
2009年9月東京大学博士課程修了



Webからentity対間の属性類似性と関係類似性計測
情報理工学系研究科では初となる課程博士の短縮修了
これまでのWebマイニングに関する研究




属性類似性: WWW 2007, NAACL 2007
関係類似性: WWW 2009, WSDM 2009, ECAI 2008
同姓同名分類: ECAI 2006
別名抽出: GoTAL 2008
One Web - Two Views
RIVAL_OF
CEO_OF
CEO_OF
ACQUIRED_BY
ACQUIRED_BY
Entityが関係で繋がれた
ページ(サイト)がリンクで繋がれた
ネットワークとしてのWeb
ネットワークとしてのWeb
人工知能としてWeb

人工知能の永遠の課題:



知識ベースをつくる





人間がもつ知識をどのように計算機に教えるか
持っている知識を使ってどのように推論、予測するか
プロが作る (例:Cyc Project, YAGO Ontology)
皆で作る (例:Wikipedia, freebase, delicious, flickr)
自動的に作る(例: SOFIE, Entity Cube, SPYSEE)
上記の組み合わせ (例:YAGO+SOFIE)
Semantic Web



Entityがもつ属性とEntity間の関係を表現 (RDF, OWL)
検索と推論 (SPARQL)
例:FOAF, DBpedia
Webから関係抽出の課題
非構造的データが多い(自然言語で書かれた文書)
矛盾する知識が存在する、一貫性がない
データのノイズ
(スペルミス、新語、俗語、punctuationの誤り)
膨大なデータ量、全て処理できない!
Webから関係抽出の課題
Jim Clark
複数のentityが同一の名称で参照される(同姓同名問題)
D. Bollegala, Y. Matsuo, M. Ishizuka,
Disambiguating Personal Names on the Web using
Automatically Extracted Keyphrases, ECAI 2006
Netscape創業者
F1チャンピオン
Webから関係抽出の課題
Godzilla
松井秀喜
ゴジラ
松井秀
同一のentityが複数の名称で参照される(別名問題)
Hideki Matsui
D. Bollegala, T. Honma, Y. Matsuo, M. Ishizuka,
Automatic Extraction of Personal Name Aliases from the Web, GoTAL 2008
Webから関係抽出ー対策
検索エンジン
ページ数(≈共起)
スニペット
(Apple, Computer)
D. Bollegala, Y. Matsuo and M. Ishizuka
Measuring Semantic Similarity between Words using
Web Search Engines, In proc. of WWW 2007
Entityの類似性と関係の類似性
属性類似性
関係類似性
猫
ジャガー
(X,Y)
(ダチョウ、鳥)
(ライオン、猫)
Xは最大のYである
肉
食
動
物
哺 4本足
乳
類
肉
食
動
物
哺
乳
類
4本足
二つのentityの属性がどれくらい似ているか
二つのentity対の間で成り立つ
関係がどれくらい似ているか
関係類似性の計測
(ダチョウ、鳥)
(ライオン、猫)
スニペットから
パターン抽出
語彙パターン
クラスター
Mahalanobis
距離の学習
Step 1
• entity対をWeb検索で検索しそれらが出現する文脈(スニペット)をダウンロードする。
Step 2
• スニペットから関係を表す語彙パターンを抽出する。(例:Xは最大なYである)
Step 3
• 同一関係を表す異なる語彙パターンをクラスタリングする。
Step 4
• パターンクラスターから特徴量を計算しMahalanobis距離を学習する
D. Bollegala, Y. Matsuo and M. Ishizuka
Measuring Similarity between Implicit Semantic Relations
from the Web, In proc. of WWW 2009
関係類似性の応用

類推問題を解く(米国大学入学試験SAT問題)

(ダチョウ,鳥)と関係が似ているのは次のうちどれでしょう?








(ガチョウ,群)
(メシダ、羊)
(熊の子、熊)
(霊長類、猿)
(ライオン、猫)
人間の正解率(SAT試験)=57%
計算機の正解率(Turney, 2006. LRA法)=56%
関係検索 (Relational Search)


(クリスト教、聖書),(イスラム教、?)
?=コーラン
今後の研究動向

Document RetrievalからObject Retrievalへ




ユーザーが求めている情報は複数のサイトに分散している。
ユーザーはdocumentではなく何らかのobjectを検索している。
オブジェクト検索サイト:clusty.com, renlifang.msra.cn
研究例:



Entity Cube by マイクロソフトリサーチ
Correlator by Yahooリサーチ
人工知能の実現に向けて!


Web = 知識ベース (関係抽出により可能?)
検索 = 推論メカニズム? (どうモデル化、実現できるか)
THANK YOU
Danushka Bollegala
(ボッレーガラ ダヌシカ)
contact: [email protected]
http://www.miv.t.u-tokyo.ac.jp/danushka