研究者ネットワークの抽出

Transcript 研究者ネットワークの抽出

Webからの
研究者ネットワークの抽出と利用
情報技術研究部門知的コンテンツグループ
松尾豊
発表の内容
成果の概要
研究内容の説明
「Webからの研究者ネットワークの抽出」
今後の研究予定、目標
研究成果概要：研究テーマ
2002年4月入所
～2004.7 サイバーアシスト研究センター
～現在情報技術研究部門
建物内の位置履歴からのユーザモデリングの研究
競争的資金：
• 総務省戦略的情報通信研究開発推進制度（SCOPE-R）（H15～17）研究代表者
臨海副都心センターでの位置情報取得の実験など
位置の履歴だけから、ユーザの属性をある程度推測することができる
• ユビキタス空間における情報提供で重要
Webからの研究者ネットワーク抽出の研究
競争的資金
• 科研費基盤B（H17～19）研究代表者
• NEDO 産業技術研究助成事業「人の社会的関係を考慮した情報提供に関する研究」
（H17～19、代表：西村拓一）で主要な研究分担者
Webから研究者の協働関係を抽出する。Polyphonetシステム
研究成果の概要
成果
論文：計20件（筆頭9件）の誌上発表、40件以上の国際会議での発表
• 文書処理、Webマイニング、ユーザモデリング、センサデータの解析等
• 人工知能学会論文賞を受賞。 WWW2006やAAAI-06に採択。
特許出願：7件（筆頭5件）、3件のプレス発表、新聞報道は10件以上
産業との連携
Web系ビジネスと研究コミュニティをつなぐ橋渡し
2003年「Blog勉強会」第1回～3回
• 70人以上。アカデミックでは最も早い時期。多くのIT技術者。
2005年「Webが生み出す関係構造と社会ネットワーク分析ワークショップ」
• 日本初のSNSのワークショップ。プレスも含め100名以上が参加
Polyphonet：
• 大阪市のロボットラボラトリーでの試験運用。
• 産総研イノベーションズと連携し、各企業への技術移転を進めている。
海外との連携
スタンフォード大学CSLI（言語情報研究センター）
2006年4月からは、日本学術振興会の海外特別研究員として長期出張
Webからの研究者ネットワークの抽
出と利用
Webからの研究者ネットワークの抽出と利用
「人」そして「人間関係」の重要性
ユビキタス環境
情報検索、セマンティックオーサリング、セマンティックウェブ：情報の信頼性
「行為を決定するのは、行為者を取り囲む関係構造である．」
社会ネットワーク分析
人同士の社会的関係を記述することは困難
Web上の情報から研究者のネットワークを抽出する。
情報が新しく、多様。今、まさに起こっている関係を捉えられる。
好むと好まざるに関わらず、情報が第三者によって記述される。
研究者ネットワークの抽出：POLYPHONET
研究者の協働関係ネットワーク
融合領域、産学官連携の重要性
研究者ネットワーク
運用実績: POLYPHONET
人工知能学会全国大会: JSAI2003,2004,2005
UbiComp2005, WISS2005
横浜トリエンナーレ
ロボットラボラトリー（大阪市）
予定: AAMAS2006, JSAI2006
※ 実世界指向インタラクションG、国立情報学研究所等と連携
POLYPHONET = POLYPHONY + NETWORK
研究者ネットワークの抽出
Webマイニング
情報検索、自然言語処理、機械学習などの技術を組み合わせて、Web上
の情報を自動的に加工・処理し、有用な知識を抽出する。
処理の流れ
ノード：研究者のリストを与える：名前＋所属（用意する情報はこれだけ）
エッジ：全ての２人の間の関係の強さを測定
エッジラベル：関係が強いと判断された２人の間の関係の種類を測定
•
•
•
•
共著
研究室：同じ研究室や研究所に所属していた
プロジェクト：同じプロジェクトや委員会に所属していた
発表：同じ研究会や全国大会で発表した
その他：研究者の「研究キーワード」、２人の間の「関係キーワード」を抽出。
研究者を研究分野に自動で分類する。
例)124件
抽出の方法
メンバーのリスト（名前、所属）は所与
検索エンジン（Google）を使って、共起関係の強さを測る。
Jaccard係数、相互情報量などさまざまな尺度があるが、
閾値つきOverlap係数を用いる。
例）
“松尾豊石塚満”：１２３件強い
“松尾豊溝口理一郎”：１１件
弱い
“石塚満”：７９１件
“溝口理一郎”：８１３件
検索されたWebページから、ページの特徴量を抽出し関係を把握。
共著、研究室、プロジェクト、発表
Simpson係数は、関係の強さを的確に表す。
９割程度の適合率（再現率は２割～５割）：アンケート調査
共起の指標
Frequency
|X∩Y|
Mutual Information
log N|X∩Y| / |X||Y|
Dice coefficient 2|X∩Y| / (|X|+|Y|)
Jaccard coefficient
|X∩Y| / |X∪Y|
Simpson coefficient
|X∩Y| / min(|X|,|Y|)
Cosine
|X∩Y| / (√|X||Y|)
We use threshold-based Simpson (overlap) coefficient.
 # ( X Y )
if # ( A)  k and# ( B)  k

rel( x, y)   min(#( X ), # (Y ))

0
otherwise
H-axis: index, V-axis: probability of co-authorship
Simpson coefficient
Dice coefficient
Frequency
Jaccard coefficient
同姓同名の問題
“松尾豊”ではなく、
“（松尾豊 AND 産業技術総合研究所）”
いろいろなケース
複数の所属名、過去の所属名：全部ORでつなぐ
所属名の略称など：機関の略称リストを用意
松尾豊 AND (産業技術総合研究所 OR 産総研 OR 東京大学 OR 東京
大 OR 東大）
例えば、“松尾豊”９０３件中２５６件が私。
この拡張で、２６２件（適合率８６％、再現率９３％）となる
※ 日本人ではうまくいくが（必ずと言っていいほど、所属＋姓名で書く）、英語名では
工夫が必要。実は、表現形と実体を結び付ける奥深い問題。
関係の種類の判別
“X and Y”で検索した上位５件のページを対象
属性リスト
・２人の氏名の共起回数・Simpson係数が閾値以上か
・Xの出現回数・Yの出現回数
・｛出版、論文、発表、活動、テーマ、賞、著者｝のいずれかの語がタイトルに含まれるか
・｛メンバー、研究室、研究所、研究機関、チーム｝のいずれかの語がタイトルに含まれるか
・｛ワークショップ、会議、セミナー、ミーティング、スポンサー、シンポジウム｝のいずれかの語がタイト
ルにふくまれるか
・・・・
・｛出版、論文、発表、活動、テーマ、賞、著者｝のいずれかの語が最初の５行に含まれるか
・・・
ページの特徴属性
(more than one, yes, yes, more than one, more than one, no, no, no, no, no, no, yes, no, no, no, yes,
判別ルール
NumCo = more_than_one → 共著
NumCo = more_than_one & GroFFive(F)=no → 研究室
(Rel=yes & GroTitle(E)=no & GroFFIve(C)=no → 研究室
・・・・
関係のクラス：共著、研究室、プロジェクト、発表
Polyphonet
研究者ネットワーク抽出・検索システム Polyphonet
polyphony（多声音楽） + network
研究者情報の検索、自分とのつながりの検索、調べたい研究者の登録
などができる。
学会等での運用
JSAI2003-06 人間関係ネットワーク支援システム
UbiComp05
Polyphonetレスキュー版
• 神奈川県・レスキューテクノロジーソリューションデータベース
Polyphonetロボット版
• 大阪市・ロボットラボラトリー
Polyphonet 横浜トリエンナーレ版
Polyphonet WISS2005
Polyphonetに関する研究成果
基本的なアルゴリズム[Matsuo03, 松尾05, Matsuo06]
検索エンジンの負荷を下げる[浅田05]
n^2のクエリー数のオーダをnにする
研究者の分類をする[浅田06]
氏名がどのような語と共起するかで専門分野の分類を行う
研究者のキーワードを抽出する[森05]
氏名とよく共起する研究に関するキーワードを取得する
同姓同名の解決[Bollegara06]
対象となる人物を同定するクエリーを見つける
中心性の分析[友部05、安田04,05]
得られたネットワークを分析し、重要な人物の同定、研究成果との相関を調べる
研究者ネットワーク以外のネットワーク抽出[金06]
企業間のネットワーク、アーティストネットワーク
横浜トリエンナーレ2005のアーティスト
IT・電機系等の企業
関連研究
Semantic Web
MIT A. McCallumら：WebやEmailからの社会ネットワーク抽出
アムステルダムFree大 P. Mikaら：WebやFOAFからの社会ネット
ワーク抽出
Maryland大学 Tim Fininら： FOAFネットワークの収集・分析
ドイツKarlsruhe大学 S. Staabら：Web上のテキストパターンを用
いたエンティティ間のオントロジの抽出
自然言語処理
Kilgariffら：Web as corpus。検索エンジンを用いた言語処理
P. Turneyら：検索エンジンを用いた類義語。TOEFLで普通の学
生よりもよい結果
今後の研究：技術的方向性
Webからの高次情報のマイニング
一般の人の日々の活動までWebに載るようになってきた
• Blog、掲示板、SNS、検索エンジンの進歩
知識：コミュニティ
• 常識的な知識を抽出できる可能性：
– オントロジの自動獲得、世界知識の獲得、評判の抽出・・・
• 量の変化が質の変化をもたらしている
検索エンジンよりひとつ高次なレイヤー
• 欲しいのは、実世界の情報であって、必ずしも文書ではない。
• 明に現れていない高次情報の抽出、価値の高い情報の提示
ネットワーク的視点
対象の関係性を、総体として捉える。俯瞰を得る。
構造のマイニング：企業間ネットワーク、語のネットワーク・・・
情報システムにおける社会性
コミュニティ、SNS、blog、ソーシャルタギング
人は他人との関係性の中で日常生活を送っている
社会性をどう情報システムに取り込み利用するか
今後の研究：目標
日常生活の場面での情報支援
Webの情報を整理し、生活の各場面で有用な情報を提供：「社会性」
• アノテーション・オーサリング等の技術との融合
ロボットやユビキタスといった実世界での情報支援
意思決定に必要な情報の収集・統合・整理
価値の高い情報の提示：「ネットワーク的視点」
情報の意味内容や情報の価値に関する研究
産業との連携
Webは今後もさらに生活に密着し、情報技術において重要性を増す
Web技術における連携
• アカデミックのコミュニティと産業との連携が十分ではない。⇔シリコンバレー
• これまでにも意識してきた第２種基礎研究を継続する。
ロボットやユビキタスの文脈で生きる、日本独自のWeb技術を目指す
おわり
検索エンジンに対する負荷
普通にやると・・・
氏名リストにn個の氏名があるとすると，共起ページ数
の検索に必要なクエリ数はnC2 個（ほぼO(n2)）
overlap係数の分布
0  約67%
0から0.2  約98%
10000
9000
8000
researcher pairs
7000
ほとんどが弱い関係
6000
5000
4000
3000
2000
1000
0
0
0.1
0.2
0.3
0.4
0.5
0.6
overlap coefficient
0.7
0.8
0.9
1
着想
『浅田洋平』の検索結果の上位ページには、浅田洋平と関係の強い人が
ほとんど出現している．（そうでない人も含まれる）
⇒上位ページから共起を調べる名前の候補を出す
提案手法
強い関係がなさそうな氏名のペアを除き、検索エンジンに与え
るクエリの数を減らす．
氏名「X」の検索結果
k
上位k件のページを取得
Y
Z
氏名リスト
X, Y, Z,...
マッチング
強い関係がありそうなペア⇒検索エンジンで調べる
“X,Y”, “X,Z”,...
結果 – クエリの数
ノード: JSAI2003の参加者
ノード数 : 503
•提案手法 : 19182
・・・基本的にO(n)
•従来手法 : 126253 ・・・基本的にO(n2)
85%のクエリを削減．
手法間のoverlap係数の相関
Correlation of overlap coefficient between former method and proposed method
1
r = 0.931
提案手法で抽出できた関係
0.8
0.6
0.4
提案手法では抽出できな
かった関係
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
overlap coefficient by former method
0.8
0.9
1
Polyphonetで使われている技術
検索エンジンの負荷を下げる
研究者の分類をする
研究者のキーワードを抽出する
Webにおける語の共起
『名前 AND キーワード』でWeb検索
ある研究者の特定の研究テーマについてWebを用い
て調べたいとき…
• 石塚満 AND 仮説推論 → 203件
• 石塚満 AND ロボティクス → 49件
研究トピックの推測
石塚満氏はロボティクスよりも仮説推論の研究を行っ
ている人ではないか？
• 実際，石塚満氏は仮説推論の研究に長年携わっているので，
この推測は当たっている．
基本的な考え方
Web上で研究者名とよく共起*する研究キーワード**は，
研究者の研究トピックと関係が深い
*Web上の共起: 同一Webページ上に出現すること
**研究キーワード: 『仮説推論』や『ロボティクス』のような研究トピッ
クに関連する語．
例
JSAI2004（2004年度の人工知能学会全国大会）の参加者: 540人
研究キーワード：JSAI2004の論文のタイトルから抽出: 188語
• 形態素解析システムによる『名詞』『未知語』
• 出現回数が3回以上のn-gram
研究キーワード
例
JSAI2004（2004年度の人工知能学会全国大会）の参加者: 540人
研究キーワード：JSAI2004の論文のタイトルから抽出: 188語
• 形態素解析システムによる『名詞』『未知語』
• 出現回数が3回以上のn-gram
共起行列
研究者の氏名と研究キーワードのWeb上での共起を共起行列
で表現
keyword1
keyword2
...
マイニング
name1
name2
:
浅田洋平
6
共起行列
行: 研究者名
列: 研究キーワード
分布の類似した行にあたる研究者は類似した研究
を行っていると考えられる
χ2値による重みの計算
期待値からの有意な偏りを出すために、χ2値を用いる．
2
(観測値 期待値)2 (Oij  Eij )
 

期待値
Eij
2
ij
研究者のクラスタリング
ベクトルの類似度
コサイン類似度
va  vb
Sim(a, b) 
| va || vb |
va,vbは研究者a,bのベクトル
クラスタリング法
一般的な最大距離法を用いる．比較的シンプルで，大
きなクラスタができにくいという特徴を持つ．
抽出されたクラスタの具体例
研究者540人を30個のクラスタに分割
クラスタ1: 神嶌敏弘，角田祐一，新村昭好，岡崎直観，倉田岳人，村田剛志，相原健郎，豊田正史，久保山哲二，
藤村滋，仲尾由雄，藤澤瑞樹，橋本泰一，池原悟，徳永健伸，荒木健治，奥村学，鈴木雅実，熊本忠彦，太田公子，
徳久雅人，村上仁一，賀沢秀人，岩垣守彦，川野洋，藪内佳孝，峯松信明，嵯峨山茂樹，西本卓也，中沢正幸，新
田恒雄，桐山伸也，駒谷和範，伊藤敏彦，桂田浩一，天野成昭，中川聖一，古塩貴行，池ヶ谷有希，鈴木夕紀子，
野口靖浩，松本泰明，小玉智志
重みの大きな語: 自然言語，音声，対話，言語，抽出，処理，クラスタリング，生成，検索システム，情報抽出
自然言語や音声，対話処理など，広い意味で言語を扱う研究分野
クラスタ2: 中丸茂，伊東真紀子，諏訪正樹，青柳悦子，松本裕治，田中穂積
重みの大きな語: 言語，自然言語，処理，解析，研究，システム，技術，抽出，情報，ため
自然言語処理
クラスタ10: 小出誠二，官上大輔，武田英明，和泉憲明，岩爪道昭，小路悠介，垂見晋也，來村徳信，古崎晃司，溝口
理一郎，渡邉英一，池田満，酒井隆道，西原陽子，森田武史，見置孝昌，繁田佳宏，田中庸平，武内雅宇
重みの大きな語: オントロジー，支援環境，知能，支援システム，学習支援，構築，エージェント，設計，支援，人工
セマンティックWeb
Polyphonetで使われている技術
検索エンジンの負荷を下げる
研究者の分類をする
研究者のキーワードを抽出する
キーワード例
キーワード抽出
研究者の具体的な研究テーマ、プロジェクト名、組織名、
共同研究者名などを表すもの
分類が目的ではない
ホームページからキーワード抽出
TF, TFIDF?
１回、せいぜい２回
名前で検索
得られた文書“群”に多く含まれる語を出す
テキスト処理が大変
スコアリング
語の関連度を用いる
研究者名とＷｅｂ上でよく共起する語 = 一緒に検索すると多くヒットする語
“石塚満”のキーワードは、“仮説推論”“エージェント”“人工知能”・・・
趣味に関する語や「Web」「ブログ」など一般的な語を除きたいので、「人工知
能」との共起も考慮する
氏名とキーワード候補の関連度
キーワード候補とコンテクストワードの関連度
Jaccard係数
J(石塚満, 高速推論) = 117/(889+364-117)
“石塚満” : 889件 “高速推論” : 364件
“石塚満 and 高速推論” : 117件
評価
ある語（氏名など）を含む文書群をひとつにまとめたときに、Ｗｅｂ全体をコー
パスとしたＴＦＩＤＦの検索エンジンを使った実装になっている。
⇒いろいろなもののキーワード抽出に使えます。
研究動向
同姓同名問題(Bekkerman05, 佐藤04など)
「松尾豊」で検索
クラスタリング（Googleを使った語の類似度を使う）
その人の所属や研究分野との関連で、本人のクラスタを同定
そのクラスタに特有の語をキーワードとして抽出
以降は、「氏名＋キーワード」で検索
表記ゆれ問題(Sahami05、他)
「AI」で検索し、snippetを使ったキーワードベクトルと、「artificial
intelligence」で検索し、snippetを使ったキーワードベクトルが類似して
いる：「AI」=「artificial intelligence」
Googleを使った手法は当たり前になりつつある。
Google-dfはよく使われている。
研究者ネットワークの分析
ネットワーク分析
1940年代から社会学の分野でさまざまな手法が提案されている。
分かること
どんなクラスタがあるのか
どんな人が中心的か
ネットワークの性質：スケールフリー？スモールワー
ルド？
時系列的な変化
• ２００３年、２００４年、２００５年

研究者ネットワークの抽出

Transcript 研究者ネットワークの抽出

Directory