Transcript 評価表現辞書
ワイン評判情報マイニングのため
の属性・評価表現辞書の構築
情報ネットワーク工学講座
安藤研究室
03T204 市橋剛
はじめに
Web上には,商品・サービスに対する評判情報
が多く存在する
評判情報を抽出・集計・分析し,ユーザに提示
→ 意思決定,購入判断の手助け
当研究室では,辞書を用いてWeb上のワイン評
判情報を抽出するシステムを研究中
辞書を利用した評判情報抽出
ブログ記事
評価表現辞書
・・・.そこでシャトー・アルノー マッチング
を飲んだ.安くてお手軽だが,
タニックで硬く,筋肉質と
欠点も多い.・・・.
シャトー・アルノーの
評判情報
安い・硬い・筋肉質
甘い
辛い
おいしい
硬い
高い
安い
筋肉質
・・・
評価表現
評価極性
例) 美味しい → 肯定的
不味い → 否定的
少ない → ?
臭みが少ない
旨みが少ない
対象・属性・評価
例)
シャトー・アルノー は 臭み が 強い
対象
属性
評価表現
目的
ワイン用属性・評価表現辞書の構築
属性辞書
香り,酸味,果実味,タンニン,甘み,・・・
評価表現辞書
素晴らしい,良い,最高,濃厚な,・・・
レビューサイトを利用
ノイズ文が少ない
情報の質が高い
抽出手法
抽出ルール例
<評価表現> + <属性>
例)
<属性> + 助詞 + <評価表現>
例)
すばらしい + 香り
酸味 + が + 強い
<評価表現> + 助動詞 + <属性>
例)
豊富 + な + 果実味
あらかじめ一方の辞書が必要
属性・評価表現の分析
評価表現 : 筋肉質な ,外向的な,角のとれた,・・・
→ 独特で豊富な表現がある
: 高い,低い,強い,弱い,おいしい,・・・
→ 様々な対象に使われる表現もある
属性 : 香り、舌触り、酸味、甘味、タンニン、色、・・・
→ 表現は限られる
ワイン属性と共起すれば,
ワイン評価表現である可能性が高い
提案手法
高精度の属性抽出
属性とルールによる評価表現抽出
評価表現とルールにより属性抽出
相互情報量による絞込み
高精度の属性抽出
<属性> + が|は|も + 形容詞
(名詞-一般|複合)
抽出数より,精度を重視
属性とルールによる評価表現抽出
①.<評価表現> + <属性>
(品詞:形容詞)
②.<評価表現> + な + <属性>
③.<属性> + が|は|も|を +(副詞+)<評価表現>
例) すばらしい + 果実味 + を + 感じる
①
③
評価表現とルールによる属性抽出
①.<評価表現> + <属性候補>
②.<評価表現> + 助動詞 + <属性候補>
③.<属性候補> + が|は|も|を +(副詞+)<評価表現>
相互情報量
P( AandB)
I ( A, B)
P( A) P( B)
F値を利用して基準値を決定
実験(1)
実験用データ615文を収集
ワインレビューサイトwinenote(http://www.winenote.jp/)
ワインの表現方法 (http://www1.odn.ne.jp/young/DateWine/WineExpression.htm)
実験(2)
実験データから提案手法により属性・評価表現抽出
属性辞書,評価表現辞書の精度
辞書登録語のうち正解と判定した数
精度
辞書登録語数
結果
抽出語数と精度
高精度の属性抽出 :
評価表現辞書
評価表現による属性抽出 :
相互情報量適用後
:
:
46語
95.7%
168語
82.1%
84語
45語
54.5%
71.1%
(基準値 2.5)
属性辞書
:
91語, 81.2%
考察
属性の階層性 「AのB」
例) タンニンのバランスが良い
属性値
例) 香り は ベリー系 が 強い
<属性> <属性値>
複合表現
例) 底が浅い,角のとれた,鼻に付く,・・・
まとめ
ワイン用属性・評価表現辞書の構築
ノイズとなる文の少ないレビューサイトを利用
ルールによる属性・評価表現抽出
相互情報量による絞込み
評価実験
実験用データ615文に対し,提案手法による抽出
精度: 属性辞書 81.2%, 評価表現辞書 82.1%
今後の課題
共起尺度の検討
ブログからの抽出