評価表現辞書

Download Report

Transcript 評価表現辞書

ワイン評判情報マイニングのため
の属性・評価表現辞書の構築
情報ネットワーク工学講座
安藤研究室
03T204 市橋剛
はじめに



Web上には,商品・サービスに対する評判情報
が多く存在する
評判情報を抽出・集計・分析し,ユーザに提示
→ 意思決定,購入判断の手助け
当研究室では,辞書を用いてWeb上のワイン評
判情報を抽出するシステムを研究中
辞書を利用した評判情報抽出
ブログ記事
評価表現辞書
・・・.そこでシャトー・アルノー マッチング
を飲んだ.安くてお手軽だが,
タニックで硬く,筋肉質と
欠点も多い.・・・.
シャトー・アルノーの
評判情報
安い・硬い・筋肉質
甘い
辛い
おいしい
硬い
高い
安い
筋肉質
・・・
評価表現

評価極性
例) 美味しい → 肯定的
不味い → 否定的
少ない → ?

臭みが少ない
旨みが少ない
対象・属性・評価
例)
シャトー・アルノー は 臭み が 強い
対象
属性
評価表現
目的

ワイン用属性・評価表現辞書の構築

属性辞書
香り,酸味,果実味,タンニン,甘み,・・・

評価表現辞書
素晴らしい,良い,最高,濃厚な,・・・

レビューサイトを利用


ノイズ文が少ない
情報の質が高い
抽出手法
抽出ルール例

<評価表現> + <属性>
例)

<属性> + 助詞 + <評価表現>
例)

すばらしい + 香り
酸味 + が + 強い
<評価表現> + 助動詞 + <属性>
例)
豊富 + な + 果実味
あらかじめ一方の辞書が必要
属性・評価表現の分析

評価表現 : 筋肉質な ,外向的な,角のとれた,・・・
→ 独特で豊富な表現がある
: 高い,低い,強い,弱い,おいしい,・・・
→ 様々な対象に使われる表現もある

属性 : 香り、舌触り、酸味、甘味、タンニン、色、・・・
→ 表現は限られる
ワイン属性と共起すれば,
ワイン評価表現である可能性が高い
提案手法

高精度の属性抽出

属性とルールによる評価表現抽出

評価表現とルールにより属性抽出

相互情報量による絞込み
高精度の属性抽出
<属性> + が|は|も + 形容詞
(名詞-一般|複合)

抽出数より,精度を重視
属性とルールによる評価表現抽出
①.<評価表現> + <属性>
(品詞:形容詞)
②.<評価表現> + な + <属性>
③.<属性> + が|は|も|を +(副詞+)<評価表現>
例) すばらしい + 果実味 + を + 感じる
①
③
評価表現とルールによる属性抽出
①.<評価表現> + <属性候補>
②.<評価表現> + 助動詞 + <属性候補>
③.<属性候補> + が|は|も|を +(副詞+)<評価表現>

相互情報量
P( AandB)
I ( A, B) 
P( A)  P( B)
F値を利用して基準値を決定
実験(1)
実験用データ615文を収集
 ワインレビューサイトwinenote(http://www.winenote.jp/)

ワインの表現方法 (http://www1.odn.ne.jp/young/DateWine/WineExpression.htm)
実験(2)

実験データから提案手法により属性・評価表現抽出

属性辞書,評価表現辞書の精度
辞書登録語のうち正解と判定した数
精度 
辞書登録語数
結果
抽出語数と精度

高精度の属性抽出 :

評価表現辞書

評価表現による属性抽出 :
 相互情報量適用後
:
:
46語
95.7%
168語
82.1%
84語
45語
54.5%
71.1%
(基準値 2.5)

属性辞書
:
91語, 81.2%
考察

属性の階層性 「AのB」


例) タンニンのバランスが良い
属性値

例) 香り は ベリー系 が 強い
<属性> <属性値>

複合表現

例) 底が浅い,角のとれた,鼻に付く,・・・
まとめ

ワイン用属性・評価表現辞書の構築




ノイズとなる文の少ないレビューサイトを利用
ルールによる属性・評価表現抽出
相互情報量による絞込み
評価実験
 実験用データ615文に対し,提案手法による抽出
 精度: 属性辞書 81.2%, 評価表現辞書 82.1%
今後の課題

共起尺度の検討

ブログからの抽出