04T248-谷本美穂-Blogからのワイン評判情報抽出に関する研究

Download Report

Transcript 04T248-谷本美穂-Blogからのワイン評判情報抽出に関する研究

blogからのワイン
評判情報抽出に関する研究
安藤研究室
04T248 谷本美穂
研究の背景と目的

近年,blogが急激に普及
個人により様々な情報が発信されるようになった


レビュー・感想
口コミ
これらの情報は,商品購入の有用な手がかりになる
評判情報を自動抽出する利点
検索エンジンで検索(例:ワイン 赤 甘い)
膨大な件数の記事が出力
必要としない情報が多く含まれる
ワインについての評判情報のみを抽出できれば
 膨大なblogから,必要な情報を容易に得られる
 商品購入の参考にできる
本研究ではblogからワインに関する
評判情報を自動抽出する手法を提案
情報抽出手法

同じ単語でも,肯定か否定かは分からない
 渋みがない → 肯定
 甘みがない → 否定
同じ「ない」という評価でも,肯定/否定が分かれる
場合がある
「何」の「どの部分」について「どのような」評価がされて
いるのかを抽出することが必要
情報を3つ組で抽出!
3つ組の構成要素

対象


属性


ワイン名
対象物の特徴や性質(香り、味など)
評価

評価者の主観的な評価を表す表現
(美味しい、強いなど)
3つ組+程度表現=4つ組

「しっかり」「多少」といった程度を表す表現も
活用する
対象・属性・評価・程度の4つ組で抽出
評判情報抽出の流れ
クローラ
WWW
blog収集
形態素解析
評判情報抽出
対象、属性、
評価表現辞書
評判情報の分析
ユーザに提示
評判情報の抽出方法

評判情報抽出ルールを作成し,ルールにマッチした
情報を4つ組として抽出

抽出ルール

評価節の記述パターンを形態素の並びで表現したもの
ルール:<対象>は<属性>が<程度><評価>
適用される文:ラギューヌは果実味がとても甘い
抽出結果:(ラギューヌ,果実味,とても,甘い)
抽出ルール作成のための分析
実際に表現がどのような形で出現するか,blogを調査

Googleブログ検索で


「ワイン レビュー」
「ワイン 感想」
等のキーワードで検索,人手でワインについての
記事を50件抽出
blog分析結果より
対象が属性,程度,評価と同じ文に存在することが少ない
→ルールを利用して4つ組を同時に抽出するのは困難
ルールで抽出するのは評価組(属性,程度,評価)
後から別処理で,評価組に適切な対象を付与
作成したルール(一部)
ルールの有用性の評価

作成したルールの有用性を検証するため


ルール作成に使用したデータ(データ1)
新たに収集したデータ(データ2)
2つの実験データにルールを適用
→抽出精度を比較
ルールの有用性の評価方法


それぞれのデータに対し,人手で評価情報と
判断できる評価組を抽出(=正解)
ルールを適用して抽出を行い,再現率を求めて
比較
ルールで抽出できた評価の正解数
再現率=
文書中の評価組の正解
数
ルールの有用性の評価・結果

再現率
データ1
67.1(550/818)
データ2
62.9(327/520)
ルール作成に未使用のデータは多少再現率が低下


使用データ
下がり幅は小さいので,どんなデータにでも ある程度
対応可能
再現率の向上が課題
再現率向上のために

抽出できなかった表現の例


要素の列挙(“バター、アーモンド、バニラ、ハチミツの香
り”の下線部分)
色に関する記述(濃いルビー色,淡い黄色)
列挙に対応する為の
ルールが不十分
2つ以上の形態素から
なる表現に対する対応
どちらも,新たにルールを追加することで対応可能
対象の出現位置に関する分析
ルールで抽出した評価組に対象を付与
・・・対象は評価組より前に現れることが多い
対象候補となる語の出現位置と,対象を
評価組に付与する範囲(対象範囲)を変化させ
対象特定の精度に与える影響を調査
対象範囲
対象候補語
評価組
評価組
評価組
評価組
対象の出現位置に関する分析(2)


分析対象はデータ1+データ2
再現率と精度を以下の式で求め,比較
対象範囲内の評価組の正解の数
再現率=
文書中の評価組の正解数
精度=
対象を正しく付加でき た評価組の数
対象範囲内の評価組の
正解数
対象範囲の変化・結果
対象範囲
再現率
精度
1文後
47.7(415/870)
94.0(390/415)
2文後
65.1(566/870)
93.9(532/566)
100文字後
60.1(523/870)
91.8(480/523)
150文字後
73.1(636/870)
92.6(589/636)
200文字後
80.0(696/870)
92.4(643/696)
範囲なし
100(870/870)
86.0(798/870)
対象範囲を広げると,再現率は向上,反面精度は低下
対象範囲の変化・考察
対象範囲を文数や文字数の単位で定める方法では
充分な再現率と精度の両立は難しい
評価組の対象特定には
blog記事のタイトルを利用
 箇条書きや表といった表現形式を利用
 対象の周囲の表現,文脈を解析
など,他の手法の検討が必要

おわりに

本研究では,blog記事からの評判情報抽出を
自動で行うためのルールを作成,有用性を検証

抽出




ルール作成に使用したデータ…67.1%
ルール作成に使用していないデータ…62.9%
対象特定は,提案手法のみでは不十分
今後の課題として


4つ組では表現できないものも収集する手法
対象を正しく特定する手法