Transcript スライド 0
Perl とYahoo!API を用いた 特定トピックのBlog データの抽出と意見分類 龍谷大学 理工学部 数理情報学科 T070079 濱岡 俊介 指導教員 馬 青 研究の目的 •特定トピックのBlogから情報を得たい→検索エンジンを利用し検索 →特定トピックのBlogは更新頻度が早く、必要な情報の再検索がしづらい →特定トピックのBlogは情報量が多く、意図しない意見情報を目にすることが多い 今回特定トピックは “消費税増税に賛成か反対か” 特定トピックのBlogを抽出し 意見情報によって分類 2 Blogの抽出 キーワード“消費税” でBlog検索 通常のBlogの抽出方法 Blogの検索結果 Webブラウザ ユーザー Blogの検索結果 が返ってくる 1件ずつ保存 しなければ ならない →ブラウザを使い手動で抽出すると時間がかかる 今回用いたBlogの抽出方法 Yahoo!APIとはプログラム上で Yahoo!の検索機能を実装できるツール Yahoo!APIを実装した Perlのプログラム ユーザー キーワードは “消費税” 複数のBlogを 一気に保存 出来る 抽出された Blogのソースコード Blogの検索結果 から取り出した URLのリスト URLのリストからそれぞれの ソースコードを抽出するPerlのプログラム →プログラムを使うと自動で高速に抽出できる 3 Blogの分類 4 PN分類法 手動で集めた”消費税”に関する賛成/反対文の集合 実験では それぞれ1万文 使用 (例文)消費税増税は、増税策として有効である。 賛成文から抽出された名詞は+の値 反対文から抽出された名詞は-の値をそれぞれ取る 頻度が高いほど スコアは高い 抽出したBlogの文章内に手法で抽出された名詞が 現れたら抽出したBlogのスコアとして加算していく 全ての文に対してスコアを加算していきBlog全体として スコアの合計が大きければ賛成のBlog スコアの合計が小さければ反対のBlog とそれぞれ見なせる スコアの値が0に近いものは 賛成反対があまり関係ないもの として見なされる 5 Blogの分類 先ほど抽出した Blogデータ 6 ドメイン特徴語法 手動で集めた”消費税”に関する賛成/反対文の集合 (例文)消費税増税となれば、財源が単純に増え、行政サービスが 向上するというメリットも生まれます。 PN分類法の例 ドメイン特徴語法は キーワードと関連の強い 名詞のみを抽出 (例文)消費税増税となれば、財源が単純に増え、行政サービスが 向上するというメリットも生まれます。 ドメイン特徴語法の例 消費税 増税 財源 3つの語を使い 検索エンジンでAND検索を行う。 →検索ヒット数でスコアをつける 抽出したBlogの文章内に手法で抽出された名詞が 現れたら抽出したBlogのスコアとして加算していく 検索ヒット数が多いほど スコアは高くなる 賛成文から抽出された名詞は+の値 反対文から抽出された名詞は-の値 全ての文に対してスコアを加算していき文全体として スコアの合計が大きければ賛成のBlog スコアの合計が小さければ反対のBlog とそれぞれ見なせる 7 実験方法 実験で用いたBlogデータ:200件ずつ、計9回、回収した1800件 PN分類法、ドメイン特徴語法 を適用しBlogを分類 賛成のBlog スコアが高い 方から賛成の Blog 反対のBlog 賛成/反対が 正しく分類されているか 手動で確認 スコアが低い 方から反対の Blog 8 実験結果 賛成Blog 反対Blog 全体結果 1800件のBlogのうちそれぞれの手法でスコアの高かった90件低かった90件 に対して手動で実際に賛成/反対のBlogを分類出来ているか確認 分類精度 [%] :ドメイン特徴語法 :PN分類法 賛成 反対 9 考察 • Blogの抽出→成功 • Blogの分類→高い精度は得れなかった 抽出されたBlog の質に疑問 抽出されたBlogの精度を確かめるために行った実験 1800件のBlogデータからランダムに90件選び そのBlogの中身を調べた →結果としては90 件中、賛成のBlog が3 件、 反対のBlog が18 件、関係の無いBlogが69 件であった →Blogの質が悪い可能性が高い! Yahoo!APIに 与えるキーワードの工夫 Blogの抽出件数を 増やす 10 終わりに 今後の研究課題 • あらかじめ手動で賛成/反対の意見文を用意した →Yahoo!APIのWeb検索機能を利用して意見文の自動作成 を試みる PN分類法やドメイン特徴語法 →SVMやナイーブベイズ分類器などの機械学習に変更し 精度を調べる 11 以上で発表を終わります 御清聴ありがとうございました 12