Transcript pptx - 東京大学
Webフォーラムの構文情報を用いた
トラブルシュート文書抽出
2008.3.14
東京大学工学部電子情報工学科
栗田光晴 柴田剛志 田浦健次郎 近山隆
本研究の背景
• ソフトウェアのトラブルシュート情報
▫ ほとんどの場合 Web上の情報源
トラブル 原因が分からないと
検索できない
原因が分かっても
その表現が多様すぎる
検索語や表現を少しずつ変えて
検索を繰り返してしまう
本研究の目的
• トラブルシュート文書の効率的取得のために
文書の「トラブルシュートらしさ」を評価
• 検索語に対するマッチでは順位の低いトラブル
シュート文書も発見が容易に
• トラブルシュート事例の自動収集等の応用可能
性
トラブルシュート文書の特徴
• 「トラブルシュートらしさ」の所在
▫ 文書の特徴としては、単語を用いるのが一般的
▫ トラブルシュート文書から特徴語を取り出すと、
トラブルシュートの特徴とともに扱われているソ
フトウェアの特徴語が取り出されると考えられる
• 単語よりも大きな単位で、トラブルシュートに
出現するような表現に相当する特徴を抽出
トラブルシュート文書における
構文の構造上の特徴を利用
関連研究
• 構文解析を用いた大量テキストからの情報抽出
▫ Info-Pubmed [薬師寺ら 06]
述語項構造と呼ばれる構文情報を利用
医学・生物学分野の論文からタンパク質の相互作用
情報を抽出
▫ On Demand Information Extraction [関根ら 06]
テキスト中に頻出する係り受け構造を抽出
そこに含まれる固有表現を表にして出力
構造化されていないテキストデータから、構造化さ
れた表形式のデータを作成
提案手法
トラブルシュート文書の構文的特徴を
用いた文書スコアリング
1. トラブルシュート文の構文情報における特徴
的な構造を抽出
2. 取り出された特徴構造の各々をスコア付け
3. 評価対象文書中に出現した特徴構造に基づき
文書のトラブルシュートらしさを評価
構文情報 : 述語項構造
• 文中の単語の意味的なつながりを表す情報
• 意味上の主述関係・修飾関係などが得られる
“The book written by the author is funny.”
トラブルシュート文の構造例
“I am having problem
connecting to the Internet.”
“I am having problem connecting to the Internet.”
“I’ve been having weird
problem with my sound card”.
“I’ve been having weird problem with my sound card”.
• 実際のトラブルシュート文書
から得られた例
• “I am having problem”が共通
• 連続する単語列はbe have 以
外は一致しない
• 構文解析を行い両者のグラフ
の一致を調べることで、上記
の共通する表現の存在が機械
的に確認できる
• この特徴は、“Internet” や
“sound card”よりもトラブル
シュートらしさとして適切
特徴構造の取り出し
• 多数のトラブルシュート文を収集
• それらの文書の構文解析により、構文に基づく
単語のグラフ構造を取得
トラブルシュート
文書
単語をノードとした
グラフ構造
構文解析
特徴構造の取り出し
• 多くのグラフに共通する部分グラフを抽出
▫ 大量のグラフ構造データからの頻出部分抽出
gSpanアルゴリズム
多数のグラフ構造データから一定回数以上出現する部
分グラフを数え上げる
一定回数以上
出現する部分グラフ
特徴構造と文書のスコア
• 特徴構造のスコア
▫ 構造を単位とした TF-IDF によって定める
▫ TFはgSpanの出力から得られている
▫ IDF の算出には、トラブルシュートに限らないク
ロールによる文書を利用
• 評価対象文書のスコア
▫ 文書中の文を構文解析、上述の頻出構造とマッチ
ング
▫ マッチした頻出構造のスコアの和を文書のスコア
とする
実験
• ある検索語について Google による検索結果を
50件取得
• 各文書は人手でトラブルシュートか否か判定
• 提案手法によって文書をスコアリングし、それ
によってソート
• トラブルシュート文書の順位を MAP (Mean
Average Precision)で評価
実験設定
• サンプルとしたトラブルシュート文
▫ Open Source and Linux Forums
各トピックの先頭の発言のうち、タイトルに含ま
れる語の割合が最も高い一文を取り出し 43975文
これらの中に100回以上出現する部分構造を抽出
• IDFの算出に用いる文書
▫ 無作為なクローリングによって収集されたWeb上
のドキュメント 20964件
実験設定
• 検索語
研究室内でのトラブルシュート事例 “Linux sound”、“nic intel”、“python
connection”、“vmware hp”、
“vt vmware 64”、“iptables packet loss”、“nat
connection reset by peer”
筆者自身のトラブルシュート事例
“wine ie”、“xrandr”
それだけではトラブルシュート文書 “perl”、“vgn-tx”
が検索されないような単語
• 構文解析には Enju[宮尾ら]を利用
• gSpanの実装としては Optimized gSpan[Jahnら]
を利用
実験結果
1
MAP
0.9
0.8
手法
MAP
Google
0.32
特徴語
0.41
特徴構造
0.69特徴語
0.7
0.6
0.5
0.4
0.3
0.2
特徴構造
Gogle
0.1
0
•元々の検索結果、特徴語を用いたスコアリングによる
結果と比較し、提案手法によって Average Precision が
上昇
考察
• 特徴語によるスコアリングとの比較
▫ 特徴語によってスコアリングを行った場合にも、
ある程度のMAPの改善は見られた
▫ 一部の検索語に対しては、特徴語と特徴構造で
Average Precisionに大きな違いが見られた
▫ その原因を確認するために、特に顕著な差を示し
た “vmware hp” という検索語に対する結果につい
て調べる
考察:特徴語による評価の例
• “vmware hp” という検索語に対するソート結果
1. HP extends VMWare support - Network World
2. HP Press Release: HP First to Reach Milestone
of 100000 Blade ...
3. ITworld.com - HP, VMware each launch new
virtualization options
• トラブルシュートとは関係のないニュース記事
などが最上位に
• “linux” “server” などの語が高いスコア
考察:特徴構造を用いた場合
• 同じ検索結果を特徴構造でソートした結果
1. Business support forums - HP MSA 1510i
problems with VMWare
2. VMware Communities: VMWare workstation 6
on HP-6910p ...
3. VMware Communities: HP RGX ...
• Web上のフォーラムにおけるトラブルシュート
文書が先頭に配置
考察:特徴語との比較
トラブルシュート文から取り出された特徴の違い
• 特徴語を取り出した場合
特徴語
instal
linux
suse
install
fedora
-quottry
ubuntu
boot
n’t
driver
TF-IDF
0.038414
0.036159
0.033764
0.033731
0.025588
0.025077
0.021797
0.01623
0.015663
0.014187
0.009991
•linux、suse、fedora、ubuntuと
いった、「Linuxの特徴語」が高い
スコアを得ている
•サンプルとした文書の分野の特徴
語を取り出してしまっている
•それに対し、特徴構造ではこのよ
うな語を含む構造のスコアはこれほ
ど高くない
考察:特徴語との比較
トラブルシュート文から取り出された特徴の違い
• 特徴構造を取り出した場合
▫ 特に大きな構造としては以下のようなもの、また
これらの部分構造などが多く取り出されていた
考察
• 特徴構造を用いた場合、抽出単位は語ではなく2
語以上のつながり
• 出現頻度が高い語も、他の語と共に作る構造に
頻出するものがない場合にはほとんど取り出さ
れない
特徴構造は単語よりも広い範囲で
文中の表現上の特徴を捉えている
まとめ
• 構文上の特徴構造の利用
▫ ある文書群に特徴的な構文構造を抽出
▫ 単語よりも大きな範囲での文の特徴を捉えられる
単語による特徴抽出では取り出しにくい表現上の特
徴をとらえられる
▫ トラブルシュート文書の抽出には一定の効果
特徴語によるものと比較して、 MAP にして0.28の
改善
今後の課題
• トラブルの解決部分の抽出
▫ 本実験ではトラブル報告文の構造で文書を評価
▫ その解決法の記述の有無は考慮されていない
• トラブルシュート文書以外の文書群への適用
▫ 表現に共通する特徴を持つ文書の類似文書抽出の
可能性
▫ 文書群ごとの特徴構造の違い