D - 自然言語処理研究室 (徳永研・藤井研)

Transcript D - 自然言語処理研究室 (徳永研・藤井研)

情報爆発時代のツールとしての
知識検索技術
藤井敦
筑波大学
2009.01.30
第84回知識ベースシステム研究会
1
略歴
NEDO 特許からの辞典構築
意
味
解
析
科研費「基盤Ｂ」
マルチメディア百科事典
IPA未踏ソフト
Cycloneの開発
自
動
伴
奏
シ
ス
テ
ム
科研費「情報学」科研費「情報爆発」
Cycloneの拡張知識検索システム
JST CREST マルチメディア
今日の講演内容
NTCIR 特許情報処理のベンチマーク構築
基礎研究
言語横断検索
98
00
受託研究
言語横断特許検索システムの開発・商品化
02
04
06
08
2
科研費「特定領域研究」平成17～22年度
情報爆発時代に向けた新しいIT基盤技術の研究
3
研究の背景
• Web上の情報を使って，「調べ物」，「捜し物」，
「相談」することが日常的になっている
• 既存の検索エンジンやポータルサイト
– 情報要求がキーワードやカテゴリで表現可能
→ 欲しい情報がすぐに見つかる
• キーワードやカテゴリで質問できない情報要
求を対象としたWeb検索 → 知識検索
• Web情報を「オンラインマニュアル」のような
知識として体系化する
4
？
？
？
研究構想
？
さらに詳しい相談
ユーザ
人物情報
言葉の意味，解決策，
操作手順など
社会問題についての
賛否両論，論点など
キーパーソン
オピニオンリーダー
客観情報
チュートリアル
用語集
マニュアル
のモデル
主観情報
リファレンス
賛成意見
トラブルシューティング
支持する理由・論拠
様々な事柄に関するWeb情報を
マニュアルのように体系化する
Web検索システム
反対意見
意見情報
が対象
• アプリケーション
• ミドルウェア
5
検索質問の分類によるWeb検索
ユーザの情報要求に応じて最適な検索モデルを選択
筑波大学
花粉症
リンク先が集中
navigational
（トップページ検索）
アンカーテキスト
を利用した検索
リンク先が分散
informational
（サーベイ検索）
アンカーテキストとしての
使われ方を分析して質問
を分類する
ページ本文を
利用した検索
単一の検索モデルに比べて検索精度を向上させた
6
Web検索システムの概要
本研究の貢献
質問の種類
質問の分類
検索質問
コンテンツ検索
アンカー検索
文書リストC
文書リストA
分類スコア
0   1
検索結果
S(d)でソート
1
1
 (1   ) 
S (d )   
C (d )
A(d )
リストCにおける
dの順位
リストAにおける
dの順位
7
Web検索システムの概要
質問の種類
質問の分類
検索質問
コンテンツ検索
アンカー検索
文書リストC
文書リストA
分類スコア
0   1
検索結果
S(d)でソート
1
1
 (1   ) 
S (d )   
C (d )
A(d )
リストCにおける
dの順位
リストAにおける
dの順位
8
アンカー検索：概要
• アンカーテキストを用いた検索
• 「誘導型（navigational）」の検索質問に効果的
ヤフー
Yahoo
アンカーテキスト
（第三者による評価）
リンク
Yahoo! Japan トップ
www.yahoo.co.jp
ページの本文は使わずに，
アンカーテキストを代理文書
として検索に利用する
9
アンカー検索：方法論
• P(d|q)：質問 q でページ d が検索される確率
arg max P(d | q)  arg max P(q | d )  P(d )
d
d
• P(d)： d の「知名度」
– dへのリンク数 / 全リンク数 ← 現在こちらを使用
– PageRank ← 精度向上せず（スパムには頑健）
• P(q|d)：索引語 t に分解
P(q | d )   P(t | d )
tq
２通りの推定法がある
10
P(t|d)：文書モデル（既存の手法）
代理文書（Surrogate Document: SD）
a1
a2
d
…
aN
Freq(t , SD)
P(t | d ) 
 Freq(t , SD)
t
代理文書SDを１つにまとめて，索引語 t の出現確率を計算する
11
文書モデルの問題
• 「ヤフー」と「Japan」のP(t|d)が同じ
• 「ヤフー」の方が「Japan」よりも重視されるべき
代理文書
Yahoo
ヤフー
Yahoo Japan
www.yahoo.co.jp
12
文書モデルの問題（つづき）
• スパムに弱い（spammable）
• P(t | d) は a2 に強く影響される
代理文書
a1
a2
d
13
P(t|d)：アンカーモデル（提案手法）
P(t | d )   P(t | a) P(a | d )
a
アンカー a ごとに索引語の確率を正規化する
• P(a|d) d へのリンクにアンカー a が使われる確率
• P(t|a) a で索引語 t が使われる確率
P (t | d )  0
の場合は，t の同義語を使って平滑化する
14
同義語の抽出（提案手法）
• 同じページにリンクしているアンカーテキスト
は同一（類似した）言葉であることが多い
• 英語とカタカナ語の翻字ペアを抽出する
google
グーグル
検索エンジン
同義語
www.google.co.jp
15
Web検索システムの概要
質問の種類
質問の分類
検索質問
コンテンツ検索
アンカー検索
文書リストC
文書リストA
分類スコア
0   1
検索結果
S(d)でソート
1
1
 (1   ) 
S (d )   
C (d )
A(d )
リストCにおける
dの順位
リストAにおける
dの順位
16
検索質問分類の概要
• 検索質問のキーワードは「一般事項」と「既知事項」
のどちらか？
• アンカーテキストでの使われ方を分析する
情報検索
Wikipedia
解説
情報検索
Google
検索サイト
リンク先のページが多様
→ 「情報検索」は一般事項
筑波大学
筑波大学
筑波大学
トップページ
特定のページにリンクが集中
→ 「筑波大学」は既知事項 17
リンク先ページの確率分布
t によってリンクされたページが d である確率
P(d | t )
t = 情報検索
歪度が小さい
Wikipedia Google Yahoo!
「調査型（info）」
P(d | t )
t = 筑波大学
歪度が大きい
筑波大学トップページ
「誘導型（navi）」
18
本手法の特長
検索質問 Q = 筑波大学の入試情報
索引語 T = {筑波大学, 入試, 情報}
リンク先のページ集合 D = {d1, d2, …}
t = 筑波大学
t = 入試
t = 情報
P(d | t )
索引語ごとに確率分布の歪度を求めてから統合する
t がアンカーテキストにない場合は同義語に置換
例： Excite → エキサイト
19
分類スコアの計算
先行研究は索引語の組合せを考慮していない
• ページ集合Dのエントロピー
H ( D | T )   P(t )  P(d | t ) log P(d | t )
tT
d D
加重平均 1つの索引語に関するエントロピー
• 分類スコア
H (D | T )
0  i (Q)  1 に正規化
i(Q) 
log | D |
– i (Q )  0.5 → 「調査型（info）」に分類する
– 重みαとして使用する
20
Web検索システムの概要
質問の種類
質問の分類
検索質問
コンテンツ検索
アンカー検索
文書リストC
文書リストA
分類スコア
0   1
検索結果
S(d)でソート
1
1
 (1   ) 
S (d )   
C (d )
A(d )
リストCにおける
dの順位
リストAにおける
dの順位
21
評価実験：テストコレクション
NTCIR-3
質問の型
（件数）
調査型
（47）
文書集合
NTCIR-4
調査型
（80）
誘導型
（168）
1000万
NTCIR-5
誘導型
（841）
1億
正解数
75.7
84.5
1.79
1.94
KW数
2.89
2.39
1.39
1.35
アンカー検索の評価に利用
質問分類の評価に利用
22
アンカー検索の評価： MRRの比較
NTCIR-4
NTCIR-5
文書モデル
0.590
0.675
アンカーモデル
0.606
0.691
アンカーモデル +
同義語による平滑化
0.612
0.691
「ザ・プリンストン・レビュー・オブ・ジャパン」
という質問で効果あり
23
質問分類の精度
• 質問数： 295
– 調査型： 127，誘導型： 168
Kangの手法
75.6%
Leeの手法
72.5%
本手法
79.3%
24
質問分類による検索精度の変化
MAP：上位100件
MRR：上位10件
α=0.5
調査型の評価
に適している
誘導型の評価
に適している
MAP
MRR
質問の分類なし 0.254
0.468
調査型：α=0.7
誘導型：α=0.3
Kangの手法
0.281
0.504
Leeの手法
0.265
0.485
αを自動決定
本手法
0.304
0.517
正しい分類
0.312
0.545
25
質問分類に関する考察
• info（navi）の検索質問に対する誤り
– 索引語に分割したために，個々の索引語に関す
るエントロピーが小さく（大きく）なった
• 分類を誤ったために検索精度が向上した例
– 「京都，寺，神社」
• 本来は info の検索質問
• しかし，navi に誤分類され，京都観光のトップページ
が検索されて精度が向上した
• 同義語が効果的だった検索質問
– 「SHARP，液晶テレビ」，「フランス，観光」
26
質問応答（QA）への応用
• TRECやNTCIRにおけるQA
– WH疑問文を対象とする
• ～は誰ですか？
• ～はいつですか？
• ～はどこにありますか？
– 文書集合から回答となる語句を抽出する
27
QAにおける質問文の分類
情報爆発の代表者は誰ですか？
who
既存の手法で
分類が可能
カナダの首都はどこにありますか？
info
+
where
= 地名
カナダに関する種々の
記述から首都名を抽出
既存の手法で
分類が不可能
筑波大学はどこにありますか？
navi
+ where
= 住所・行き方
筑波大学のトップページから住所や交通手段を抽出
28
別の見方をすると
既存の手法：質問文（Q）を分析
何が問われているのか
5W1Hのどれか
筑波大学はどこにありますか？
navi
+ where
Q-driven
統合
= 住所・行き方
本手法：文書データ（D）を分析
何を提供できるのか
トップページの有無
D-driven
29
発表一覧
• 情報処理学会 DBS/FI 2007 5月
– 山下記念研究賞受賞（DBS）
• インターネットコンファレンス2007
– 論文賞受賞
• World Wide Web Conference 2008
30
？
？
？
研究構想
？
さらに詳しい相談
ユーザ
人物情報
言葉の意味，解決策，
操作手順など
社会問題についての
賛否両論，論点など
キーパーソン
オピニオンリーダー
客観情報
チュートリアル
用語集
マニュアル
のモデル
主観情報
リファレンス
賛成意見
トラブルシューティング
支持する理由・論拠
様々な事柄に関するWeb情報を
マニュアルのように体系化する
Web検索システム
反対意見
意見情報
が対象
• アプリケーション
• ミドルウェア
31
意見情報の体系化
• 話題ごとに賛否両意見の分布を可視化する
– 話題：「赤ちゃんポスト」，「憲法改正」，など
• 個人や組織の意思決定に役立つ
– 賛成意見と反対意見を洗い出し，対立させる
– より合理的な立場を採用する
• 答えがすぐに出ない場合でも解決に向けた努力を続け
ることが重要
• 構築したシステム： OpinionReader
– 意思決定を統率するリーダー（Leader）
– 意見を読むためのツール（Reader）
32
OpinionReaderの概要
入力
トピック
（例：株式会社の病院経営）
【賛成意見】
【反対意見】
情報公開が
されるなら
賛成だ…
利益追求に
走るのでは
ないか…
論点の抽出
賛成・反対の根拠
出力（インタフェース）
座標の計算
・賛成・反対への固有度(Ｘ)
・重要度(Ｙ)
代表的な意見の選択
33
株式会社の病院経営について（実行例）
論点
一方の立場に偏って論じられている
→ 逆の立場にとっては不利な論点
または，議論が不十分な論点
どちらの立場で多く
論じられているか？
両方の立場で
論じられている
34
株式会社の病院経営について（実行例）
どれだけ重要な論点か？
35
株式会社の病院経営について：
代表的な意見の表示
賛成・反対それぞれの立場において
代表的な意見を示す
以上の機能により，議論に途中から参加した
人でもこれまでの議論を把握できる
36
最近取り組んだ課題
• 意見情報を賛否に基づいて自動収集する
– 当初，意見の収集と分類は人手で行っていた
• 関連・対立する論点の検索
– 「相談して」 vs. 「覚悟をもて」
– 注目すべき論点が分かる
• 論点の分布が似ている話題の検索
– 「赤ちゃんポスト」 → 「代理出産」，「不妊治療」
– 議論の参考にする
37
意見収集の概要
精度重視
賛成と反対で個別に行う
World Wide Web
初期検索
検索質問１
Ｘに賛成です
再検索
検索質問２
ページ
の集合
Ｘ賛成関連語
段落抽出
意見の
集合
ページ
の集合
段落抽出
Ｘ＝話題
赤ちゃんポスト
憲法改正など
網羅性重視
検索質問に
関連語を追加
段落の
集合
関連語抽出
段落分類
段落の
集合
関連語の集合
38
段落分類
• 段落集合を賛成と反対に分類する
初期検索
賛成意見
の段落
反対意見
の段落
再検索
賛
成
スコア
＋１
閾値の設定
＋0.3
精度が高い
０
－0.3
反
対
－１
教師事例とみなし，
分類器を学習
サポートベクター
マシン（SVM）
OpinionReader
分類への入力
精度が向上する
39
評価実験：意見収集
赤ちゃんポスト
憲法改正
正しい
意見収集正しい
意見収集
意見の数の精度
意見の数の精度
初期検索
87
87.0%
93
93.0%
2段階検索
139
65.3%
123
64.4%
+SVM（0）
140
65.7%
124
64.9%
+SVM（0.1）
134
72.0%
122
69.3%
+SVM（0.2）
128
75.7%
121
73.8%
+SVM（0.3）
116
77.9%
117
77.5%
40
再検索における誤りの分析
• 誤って収集された段落 101件
「赤ちゃんポスト」と「憲法改正」の合計
トピックに関係のない段落
23件
事実（ニュースなど）
33件
賛否を述べていない段落
11件
逆の立場である意見
34件
41
発表一覧
• COLING/ACL 2006 Sentiment WS
• 電子情報通信学会論文誌, J91-D(2), 2008
42
？
？
？
研究構想
？
さらに詳しい相談
ユーザ
人物情報
言葉の意味，解決策，
操作手順など
社会問題についての
賛否両論，論点など
キーパーソン
オピニオンリーダー
客観情報
チュートリアル
用語集
マニュアル
のモデル
主観情報
リファレンス
賛成意見
トラブルシューティング
支持する理由・論拠
様々な事柄に関するWeb情報を
マニュアルのように体系化する
Web検索システム
反対意見
意見情報
が対象
• アプリケーション
• ミドルウェア
43
説明の観点に基づく情報の体系化
World Wide Web
雑多な情報
統制された用語説明
用語説明が編集される仕組み
＝用語説明モデル
用語説明モデルを学習し，Web上の雑多な情報を事典化する 44
事典検索システム Cyclone
http://cyclone.slis.tsukuba.ac.jp/
• コンテンツの構築
→ コンテンツとしての価値を追求
– Webや特許から説明情報を収集し，体系化する
– 現在の見出し語数：約190万語
• 多様な検索機能
→ サービスとしての価値を追求
– 見出し語，同義語，関連語による検索
– 質問文による検索
– 関連語グラフの可視化
45
見出し語「サブコン」
による検索
分野に分類することで
多義を区別する
業者，計算機，調整室
46
分野や関連語を絞り込み
情報として利用できる
47
見出し語「XML」
複数のページから個別
に抜粋された説明段落
• 重複があり冗長
• 一方にしかない情報がある
48
「XML」に対する要約
結果の例
XMLの定義
XMLの機能
「定義」や「機能」などの
観点ごとに規則を使って
代表文を抽出する
49
要約処理の概要
説明段落
①特定
観点に対応
するグループ
②照合
③選出
代表文
要約
④生成，提示
50
Cycloneの要約における２つの問題
• 用語の種類による観点の違いを未考慮
– コンピュータ：定義，例示，同義など
– 病名：症状，原因，検査など
用語の種類に
– 動物名：生態，形態，分布などよって観点が
• 観点と分類基準を人手で作成
– 手間と時間がかかり高価
– 用語の種類が制限される
異なる
拡張性に乏しい
現在はコンピュータ用語だけが対象で拡張が困難
51
本研究の目的：先の問題を解決
• 用語の種類による観点の違いを未考慮
用語分類 → 観点分類の順番に実行する
• 観点と分類基準を人手で作成
Wikipediaから観点と分類基準を学習する
• Wikipediaの未登録語に対して解説記事を生成できる
• 登録語に対してWebから幅広い情報を集められる
• 個別の記事で欠落している観点を補完できる
52
「破傷風」に関するWikipediaの記事
１つのセクション
＝１つの観点
目次
1. 原因
2. 症状
3. 治療
4. 関連項目
．．．
病名に関する
複数の記事か
ら代表的な観
点を抽出する
53
Wikipediaの記事から「人名」の「生涯」
部分を抜粋したテキスト集合
人名
動物名
生涯
業績
略歴
「人名」の観点に
関する分類器
用語説明のモデル化
事典的検索
形態
生態
「動物名」の観点
に関する分類器
用語の種類に
関する分類器
用語分類
（SVM）
動物名
症状
原因
分布
治療
「病名」の観点に
関する分類器
用語の種類に応じた観点の
分類器を使用する
治療
病名
りんご病
テキスト
シマリス
病名
観点分類
（SVM）
形態
54
応用方法は一通りではない
• 基盤技術：入力の文字列を観点に分類する
– 「事典的検索」を分類問題に帰着させた
• 応用（運用）方法：
汎用性が高い
– Cycloneの要約手法を自動化する
– Cycloneの段落を観点に分類する
– 一般の検索エンジンと組み合わせる
• Cycloneでの運用方法から離れる
• 「事典的検索」という目的は同じ
55
応用方法は一通りではない
• 基盤技術：入力の文字列を観点に分類する
– 「事典的検索」を分類問題に帰着させた
• 応用（運用）方法：
汎用性が高い
– Cycloneの要約手法を自動化する
– Cycloneの段落を観点に分類する
– 一般の検索エンジンと組み合わせる
• Cycloneでの運用方法から離れる
• 「事典的検索」という目的は同じ
56
要約処理の概要
説明段落
①特定
観点に対応
するグループ
②照合
ここを置き換える ③選出
代表文
要約
④生成，提示
57
先日から家の屋根裏で物音がしていま文単位での
す。一昨日、ふと見上げたら天井のすき分類結果
ハクビシン
まから「ハクビシン」が顔を出していまし
形態
た。ハクビシンとは、ジャコウネコ科の動
物で全長７６cm、体重６Kg。鼻から頭に
分布
かけて白い筋があるのが特徴。東アジア
中南部と日本に分布。地元では「むじな」
ともいう。…………….だそうです。
段落分類の結果
1. 形態
2. 分布
3. 分類
4. 人間との関係
5. 生態
58
「分野」と同じように，「観点」という項目を作る
観点 □形態 □分布 □生態．．．
特定の観点に関する説明に絞り込める
59
応用方法は一通りではない
• 基盤技術：入力の文字列を観点に分類する
– 「事典的検索」を分類問題に帰着させた
• 応用（運用）方法：
汎用性が高い
– Cycloneの要約手法を自動化する
– Cycloneの段落を観点に分類する
– 一般の検索エンジンと組み合わせる
• Cycloneでの運用方法から離れる
• 「事典的検索」という目的は同じ
60
ハクビシン
• Web検索のスニペットを観点に分類する
• 観点ごとにスコア最大のスニペットを抽出する
分類先のカテゴリが既知（categorization）
cf. Clusty.jp （clustering）
61
ハクビシン
62
Clusty.jpの分類結果（ハクビシン）
関連語であり，事典的項目とは限らない
ジャコウネコ科，Sars，捕獲，東京，など
63
キーウィ（動物）
64
キーウィ（植物）
65
評価実験
• Wikipediaの記事を分類し，正解率を評価
– 記事は観点（セクション）ごとに分割
– 記事に付与されたセクション名を正解として利用
– ５分割の交差検定
• 20種類の用語を対象（一般10，専門10）
– 記事数が50件以上集まった観点を対象
最大
用語分類
観点分類
91.2%
（動物名）
97.4%
（企業名）
平均
86.5%
79.7%
最小
0%
（獣医学など）
21.7%
（物性物理）
66
「用語分類」の誤り分析
困難
• 本質的にキレイに分類できない
– 「物性物理」と「化学」
• 使用される観点が似ている
– 「動物」と「昆虫」
• 学習用の記事数が不均一
容易
67
「観点分類」の誤り分析
困難
• 依存関係にある
– 病名の「検査」と「診断」
• 複数の観点が同時に記述される
• 整理・統廃合が必要
– 人名の「経歴」と「略歴」
• 学習用の記事が少ない
容易
68
関連研究との比較
• 観点に基づく評判情報の要約 [Blair-Goldensohn,08]
– レストラン：サービス，価格，場所など
– ホテル：部屋，景観，サービス，価格など
• 要約する評判情報そのものから観点を抽出
⇒ 外部情報を使い，精度の向上を目指す
• Wikipediaを使った人物情報の要約 [Biadsy,08]
– 人名とそれ以外の説明情報を分類する
– 人名に限定され，観点を使っていない
⇒ 人名以外も分類できる
69
今後の課題
• Wikipediaの整ったテキストを分類した
– 今後は雑多なテキストを用いて評価する
• 用語の種類 ≠ Wikipediaのカテゴリ
– 用語の種類ごとに記事を自動収集不可
• 情報の統制において自動化が困難な事象を
特定し，人手による編集との棲み分けが必要
70
特許情報を用いた辞典検索システム
71
背景
• 知的な創造の成果を活用して国際競争力を
強化する動きがある
• 特許＝知的財産権の一つ
– 高度な発明の保護を目的とする
• 日本では年間約40万件の特許が出願される
– 多様な分野に関する技術情報が蓄積されている
72
動機と目的
特許情報に内在する知識を体系化できれば
学術や産業における価値が高い
特許情報を用語辞典として活用する検索シ
ステムを構築する
見出し語，説明，関連語，分野など
辞典（用語），事典（用語や事柄）
73
なぜ特許情報から用語辞典を作るのか？
Webになく特許情報には存在する用語があるから
ジルコニウムジクロリド，重合体成分，感光性平版印
刷版，焼付定盤，絶縁基体，沃臭化銀乳剤，ハロゲ
ン化銀乳剤，スルファモイル基，プラテンドラム，塩基
プレカーサー，エチレン性不飽和単量体，トラッキン
グ誤差信号，静電潜像保持体，スロットル弁開度，
マゼンタカプラー
大抵はWebに掲載された特許が検索される
74
特許情報の種類
特許出願
（明細書）
出願者・発明者
量が多い
公開公報
特許庁
登録公報質が高い
本研究の対象
出願後18ヶ月後に公開
特許権が認められた発明
購入することが可能かつ再配布に関する制約が緩い
75
特許情報（公開公報）の構造
書誌事項
出願人要約
日常言語
と異なる
特許請求の範囲（請求項を記載）
請求の範囲を広げるために上位概念
による抽象的な表現が使われる
発明の詳細な説明
従来技術，課題，解決手段，実施例，
発明の効果などを平易に記述する
本研究の
対象
ここから用語
辞典を作る
図面の説明
76
提案するシステムの機能
• 辞典コンテンツを構築する（オフライン）
• 辞典コンテンツを検索する（オンライン）
Web事典検索システム Cyclone の
技術を応用
77
辞典コンテンツ構築の概要
公開特許公報
1993～2007
用語抽出
新しい見出し語を収集
文書検索
見出し語を含む公報を収集
説明抽出
見出し語を説明している
段落を抽出
見出し語数
約190万語
組織化
高品質の説明を選択して，
分野に分類
辞典コンテンツ
関連語抽出
説明によく使われる言葉を
抽出
78
トラッキング誤差信号
関連語：光ディスク，対物レンズ，など
用語説明
79
「トラッキング誤差信号」を
中心とした関連語マップ
選択した関連語の説明にジャンプ
→ 関連語を次々とスムーズに調査できる
80
関連語マップによる発想型検索
テキストによる説明
（トラッキング誤差
信号）
テキストによる説明
（対物レンズ）
関連語マップ
81
アンケート調査による評価
• インターネット調査会社に依頼
– 調査対象者（ユーザ）： 20～59歳 1000人
– サーチャー，研究者，エンジニアを優先して募集
• システムを試用してもらい，種々の設問に回
答してもらった
– 分からない言葉を３語入力し，出力を評価
– システムの各機能に対する使用感を評価
– 自由記述による回答
82
ユーザの職業・業務内容
特許調査のサーチャー
20
研究者，エンジニア
585
会社員（上記以外）
270
大学院生（理工系）
39
大学院生（上記以外）
24
大学生
62
専門分野は
1. 機械
2. 情報通信
3. 電気
4. 化学 …
の順で多い
467人が業務
で特許調査を
行うと回答
83
普段わからない用語を調べるツール
Google
495
Yahoo!
255
通常の辞書
101
Wikipedia
97
IPDL（特許電子図書館）
18
その他
34
84
普段使用するツールと比べて，用語
の意味が分かりやすかったか？
1回目 2回目 3回目
非常に良い
130
123
110
良い
408
348
355
どちらとも
242
274
269
悪い
120
137
146
非常に悪い
100
118
120
比較対象のツール
は膨大なコストを
かけている
49.1%が良い
と回答
85
業務・研究に役立つか？
特許サーチャー，研究者，
エンジニア，理工系学生
の評価が高かった
非常に役立つ
145
役立つ
483
どちらとも
204
役に立たない
121
全く役に立たない
47
62.8%が役立つ
と回答
86
考察： Web版と特許版の比較
Web版
特許版
コンプライアンス
法律遵守
変形のしやすさ
ドレッシング
料理
研磨
ブレークスルー
前進
落ち込む現象
地下組織
グループ
根菜の部位
Webと特許の統合によって語義の網羅性が高まる
87
まとめ
• 知識検索の技術について解説した
– Web検索基盤
– 意見分析
– 事典的検索
藤井敦
検索
つづきはこちら
88

D - 自然言語処理研究室 (徳永研・藤井研)

Transcript D - 自然言語処理研究室 (徳永研・藤井研)

Directory