PPT - 計算機C研究室

Download Report

Transcript PPT - 計算機C研究室

副詞および形容詞による
感情表現性の判定
鳥取大学工学部 知能情報工学科
○佐伯美香 徳久雅人 村上仁一 池原悟
1
研究背景
• 人間による翻訳⇒様々な英語表現に翻訳
彼女の態度は清々しい
1.Her attitude is fresh.
2. Her attitude is gallant.
3. She has a gallant attitude.
:
• 従来の機械翻訳⇒文型パターンなどの利用により
ただ一つの訳文に翻訳
2
• 新しい機械翻訳
⇒ 複数の訳文から最適な文型を選択[1]
[1]等価的類推思考の原理による機械翻訳方式(池原ら,信学技報,2002)
選択時に様々な文脈情報を必要
話者の感情も重要な文脈情報
日本文
訳文1
訳文2
訳文3
感情や因果関係な
どの情報で選択
3
研究目的
文脈情報として話者の感情の重要性を確認
1. 感情を表現した日本文の頻度
2. 計算機の処理による抽出可能性
4
日本文の感情の推定方法
単語の持つ感情的な属性を手がかりにする方法
→ 副詞・形容詞に注目
イメージ値を用いる[2][3]
[2]現代副詞用法辞典(飛田・浅田 ,東京堂出版,1994)
用法辞典
[3]現代形容詞用法辞典(飛田・浅田 ,東京堂出版,1998)
5
イメージ値
[飛田・浅田の定義より引用]
1. 文脈に依存しない感情的な評価を定義
2. 7段階で区分(-3~+3)
3. 言葉の意味(=語義)ごとに値を付与
(例)つよい
1. 程度がはなはだしい様子を表す(なし)
→つよい風と雨が一晩中おさまらなかった
2. 頑健で忍耐力がある様子を表す(+2)
→つよい体を作る
3. 力量・技術・能力が優れている様子を表す(+2)
→彼の腕力はつよい
6
調査対象文
英和辞書などから収集
単文を中心とした対訳コーパス約17万文
例文
彼女は真っ直ぐにドアの方に歩いていった
She went straight up to the door.
なんだって結構だ
Anything will do.
彼は一応芸術家といってよい
He’s an artist after a fashion.
7
調査(1):出現頻度
課題
感情を表現した日本文の頻度を調査
方法
調査対象文から用法辞書に収録されて
いる副詞・形容詞を含む文を抽出
副詞・形容詞
調
査
対
象
文
イメージ値ごとに抽出
語義数ごとに抽出
抽
出
結
果
8
調査条件
複数の語義(=複数のイメージ値)を持つ副詞・形
容詞 →計算機で区別して認識することは困難
(例)しろい
1.色彩がしろい様子を表す(なし)
2.犯罪に関係がなく潔白である様子を表す(+3)
辞書の見出し順の最初に定義されているイメージ値に分類
(イメージ値がなしであるものを除く)
9
調査対象文からの抽出例
• 彼女は言葉遣いが美しい
(形容詞/語義数2/イメージ値+3)
• どうしても事故は起きるものだ
(副詞/語義数1/イメージ値+2)
• まったく人騒がせな話だ
(副詞/語義数3/イメージ値-3)
• それはあえない夢だった
(形容詞/語義数1/イメージ値-2)
10
調査結果
イメージ値
-3
-2
-1
+1
+2
+3
合計
割合
副詞
[単位:文]
形容詞
語義数1 語義数2 語義数3 語義数1 語義数2 語義数3
262
743
928
358
482
296
2773
1.6%
1063
314
444
354
603
115
2893
1.7%
1121
460
1374
2
6
62
3025
1.8%
1451
1028
247
56
241
1323
4346
2.5%
697
1618
322
643
538
1136
4954
2.9%
1386
1007
936
63
1035
1832
6259
3.7%
合計
5980
5233
4251
1476
2905
4964
24809
14.5%
割合=合計/全対象文数(170,654)
11
調査(1)のまとめ
調査対象文中14.5%は
イメージ値のある副詞・形容詞を含む文
感情表現文の頻度は高い
感情を考慮した機械翻訳への検討価値あり
12
調査(2):計算機による抽出可能性
課題
用法辞書で定義されているイメージ値を含んだ文に
感情が表現されているかを調査
感情を表している文
“感情表現性のある文”
13
評価方法
1. イメージ値のある副詞・形容詞を含んだ
文からランダムに文を選択
- 語義数毎に50文 合計300文
2. 感情の有無を判定(人手)[なし/+/-]
- 判定者3名(A,B,C)
正解データ
3. イメージ値と正解データの一致の判定
14
判定例
<一致の例>
・末娘がやっと縁付いた (評価者:+/イメージ値:+2)
・景色が素晴らしい (評価者:+/イメージ値:+3)
<不一致の例>
・彼女はごつい鞄を提げている
(評価者:なし/イメージ値:ー2)
・おそらくうまくやるだろう
(評価者:なし/イメージ値:-1)
15
感情表現文の判定(正解デー
タ) [評価者の判定;なし/あり(+/-)]
副詞
語義数1
集合
判定者
語義数2
語義数3
A
B
C
平均
A
B
C
平均
A
B
C
平均
感情あり 49
47
43
46.3
43
41
44
42.7
25
29
32
28.7
感情なし
3
7
3.7
7
9
6
7.3
25
21
18
21.3
1
形容詞
語義数1
集合
判定者
語義数2
語義数3
A
B
C
平均
A
B
C
平均
A
B
C
平均
感情あり 46
42
38
42.0
39
40
29
36.0
36
40
26
34.0
感情なし
8
12
8.0
11
10
21
14.0
14
10
24
16.0
4
語義数が複数→イメージ値なしの語も含→感情あり文が少
[単位:文]
16
イメージ値と正解データの結果
副詞
[評価者の判定:+/-/なし] [単位:文]
語義数1
集合
判定者 A
一致
B
語義数2
平均
C (割合) A
B
語義数3
平均
C (割合) A
37.7
B
平均
C (割合)
44.3
44.7
47 34 32 (75.4%) 47 42 44 (88.6%) 47 44 43 (89.4%)
不一致 3
12.3
6
5.7
(11.4%)
16 18 (24.6%) 3
8
語義数1
語義数2
3
6
7
5.3
(10.6%)
形容詞
集合
判定者 A
一致
B
平均
C (割合) A
B
語義数3
平均
C (割合) A
38.3
B
平均
C (割合)
35.7
41.6
42 39 34 (76.6%) 47 42 44 (71.4%) 47 44 43 (82.6%)
不一致 8
11.7
11 16 (23.4%) 3
8
6
14.3
(28.6%)
3
どの語義数も75%から90%の確率で一致
6
7
8.7
(17.4%)
17
調査(2)のまとめ
‐本研究での感情表現性の判断方法は直感的判断
‐快/不快を判断するために広辞苑などの辞書で確認
せずに解答データを作成
しかし、
‐概ね直感的な感情表現性の判断と一致
18
考察:不一致の原因
(1)形容詞的用法:43文
〔例文〕彼女はごつい鞄を提げている
(イメージ値;-2、判定者;なし)
⇒ 構文情報を用いることで改善可能
(2)モダリティ:131文
〔例文〕真面目にやりましょう
(イメージ値;+3、判定者;ー)
⇒ 一文中の他の語に対してそれぞれにイメージ
値を付与することにより改善可能
19
まとめ
‐イメージ値のある文の頻度:14.5%
イメージ値と解答データの一致率:80.7%
‐
イメージ値を用いた機械翻訳の可能性
今後の課題
•イメージ値を用いて機械翻訳の精度向上
•感情表現性のある日本文の対訳調査
20