スライド 0

Transcript スライド 0

Perl とYahoo!API を用いた
特定トピックのBlog データの抽出と意見分類
龍谷大学
理工学部
数理情報学科
T070079
濱岡俊介
指導教員馬青
研究の目的
•特定トピックのBlogから情報を得たい→検索エンジンを利用し検索
→特定トピックのBlogは更新頻度が早く、必要な情報の再検索がしづらい
→特定トピックのBlogは情報量が多く、意図しない意見情報を目にすることが多い
今回特定トピックは
“消費税増税に賛成か反対か”
特定トピックのBlogを抽出し
意見情報によって分類
2
Blogの抽出
キーワード“消費税”
でBlog検索
通常のBlogの抽出方法
Blogの検索結果
Webブラウザ
ユーザー
Blogの検索結果
が返ってくる
1件ずつ保存
しなければ
ならない
→ブラウザを使い手動で抽出すると時間がかかる
今回用いたBlogの抽出方法
Yahoo!APIとはプログラム上で
Yahoo!の検索機能を実装できるツール
Yahoo!APIを実装した
Perlのプログラム
ユーザー
キーワードは
“消費税”
複数のBlogを
一気に保存
出来る
抽出された
Blogのソースコード
Blogの検索結果
から取り出した
URLのリスト
URLのリストからそれぞれの
ソースコードを抽出するPerlのプログラム
→プログラムを使うと自動で高速に抽出できる
3
Blogの分類
4
PN分類法
手動で集めた”消費税”に関する賛成／反対文の集合
実験では
それぞれ1万文
使用
（例文）消費税増税は、増税策として有効である。
賛成文から抽出された名詞は+の値
反対文から抽出された名詞は-の値をそれぞれ取る
頻度が高いほど
スコアは高い
抽出したBlogの文章内に手法で抽出された名詞が
現れたら抽出したBlogのスコアとして加算していく
全ての文に対してスコアを加算していきBlog全体として
スコアの合計が大きければ賛成のBlog
スコアの合計が小さければ反対のBlog
とそれぞれ見なせる
スコアの値が0に近いものは
賛成反対があまり関係ないもの
として見なされる
5
Blogの分類
先ほど抽出した
Blogデータ
6
ドメイン特徴語法
手動で集めた”消費税”に関する賛成／反対文の集合
(例文)消費税増税となれば、財源が単純に増え、行政サービスが
向上するというメリットも生まれます。
PN分類法の例
ドメイン特徴語法は
キーワードと関連の強い
名詞のみを抽出
(例文)消費税増税となれば、財源が単純に増え、行政サービスが
向上するというメリットも生まれます。
ドメイン特徴語法の例
消費税
増税
財源
3つの語を使い
検索エンジンでAND検索を行う。
→検索ヒット数でスコアをつける
抽出したBlogの文章内に手法で抽出された名詞が
現れたら抽出したBlogのスコアとして加算していく
検索ヒット数が多いほど
スコアは高くなる
賛成文から抽出された名詞は+の値
反対文から抽出された名詞は-の値
全ての文に対してスコアを加算していき文全体として
スコアの合計が大きければ賛成のBlog
スコアの合計が小さければ反対のBlog
とそれぞれ見なせる
7
実験方法
実験で用いたBlogデータ:200件ずつ、計9回、回収した1800件
PN分類法、ドメイン特徴語法
を適用しBlogを分類
賛成のBlog
スコアが高い
方から賛成の
Blog
反対のBlog
賛成／反対が
正しく分類されているか
手動で確認
スコアが低い
方から反対の
Blog
8
実験結果
賛成Blog
反対Blog
全体結果
1800件のBlogのうちそれぞれの手法でスコアの高かった90件低かった90件
に対して手動で実際に賛成／反対のBlogを分類出来ているか確認
分類精度
[%]
:ドメイン特徴語法
:PN分類法
賛成
反対
9
考察
• Blogの抽出→成功
• Blogの分類→高い精度は得れなかった
抽出されたBlog
の質に疑問
抽出されたBlogの精度を確かめるために行った実験
1800件のBlogデータからランダムに90件選び
そのBlogの中身を調べた
→結果としては90 件中、賛成のBlog が3 件、
反対のBlog が18 件、関係の無いBlogが69 件であった
→Blogの質が悪い可能性が高い！
Yahoo!APIに
与えるキーワードの工夫
Blogの抽出件数を
増やす
10
終わりに
今後の研究課題
• あらかじめ手動で賛成/反対の意見文を用意した
→Yahoo!APIのWeb検索機能を利用して意見文の自動作成
を試みる
PN分類法やドメイン特徴語法
→SVMやナイーブベイズ分類器などの機械学習に変更し
精度を調べる
11
以上で発表を終わります
御清聴ありがとうございました
12

スライド 0

Transcript スライド 0

Directory