Transcript pptx
近山研究室
斎藤 大
2008/2/4
1
対訳テキスト: 意味内容は同一
異なる言語で記述
対訳コーパス: 対訳テキストの集合
One thing was certain,
that the WHITE kitten had had
nothing to do with it.
一つ確実なのは、
白い子ネコはなんの関係も
なかったということ。
--it was the black kitten's
fault entirely.
――もうなにもかも、
黒い子ネコのせいだったのです。
自然言語レベルの翻訳関係
2008/2/4
2
多言語処理分野の有用なリソース
統計的機械翻訳
対訳辞書・シソーラス構築
十分な量・種類の対訳コーパスがない
言語の不足
英-仏
英-日
2008/2/4
ジャンルの不足
+新規構築が困難
政府公式文書
ソフトウェアマニュアル
3
テキストコーパスから対訳テキスト抽出の高速化
Text Corpus
対訳判定[福島ら 06]
無駄な対訳判定の削減
サンプリングによる高速化
LDAによる次元削減
転置indexによる高速化
2008/2/4
4
背景と目的
関連研究
個々のテキストペアの対訳判定
Webからの対訳テキスト抽出
提案手法と評価
サンプリングによる高速化
LDAによる次元削減
転置indexによる高速化
まとめと今後の課題
2008/2/4
5
テキスト
text
1030
辞書を使ってテキストを数列に変える。
textbook
教科書
dictionary
辞書
I convert text to sequence with dictionary.
意味ID:約10,000
1799
辞典
・・・
T1:(1030, 1799, 8517)
T2:(1030, 1799, 4015, 8517)
trans _ score
score
# T 1 # T 2
trans_score = 3/(3+4)
+単語位置情報
2008/2/4
6
F値による評価
最も良いthreshold
presicion recall
F
2
presicion recall
trans_score = 0.102
相対距離 = 0.2
全対全比較しか言及されていない
対訳候補抽出が必要
2008/2/4
7
URL マッチング
http://www.hostname.com/index.html.en
http://www.hostname.com/index.html.ja
1. Language-Specific Substrings[LSSs]を削除
(Japanese : ja, jp, jpn, euc, sjis,…)
2. LSSs を削除された URL でマッチング
3. 文字列が一致したペアのみ詳細な比較
2008/2/4
8
RSSニュース記事
他言語へのリンク
日本語→英語
ニュースサイトは
手動で探す
http://hotwired.goo.ne.jp
http://japan.cnet.com
http://japan.internet.com
http://www.itmedia.co.jp
日英対訳URLを公開
2008/2/4
9
対訳テキスト発見
タグの“alt”
リンク名
“English version”
“In English” …
HTML→DOM Tree
link
link
リンク構造の利用
Parallel link: 対訳テキスト中で“同じように”
リンクが張られているペア
2008/2/4
10
STRAND
○計算コストが低い
×取得可能な対訳が少ない
RSS
○品質・速度が安定
×RSS配信している限られたページのみ
DOM Tree Alignment
○一つの対訳発見で複数の対訳取得が可能
×DOM Tree変換コストが高い・形式が制限
2008/2/4
11
大規模コーパスから対訳テキスト抽出
対訳判定[福島ら 06]:全対全比較は高コスト
対訳らしくないペアの対訳判定回数削減
特徴
URL形式などに限定されず汎用的
▪ テキストの意味情報のみを利用
言語に依存しない
▪ 対訳辞書
任意の言語ペアに
適用可能
▪ 形態素解析
2008/2/4
12
大規模テキスト群を小さな集合に分割
対訳発見のために全対全比較:O(n2 )
計算コストを削減して高速化
利点
O(n2 ) の
n を小さく出来る
分割後は単純な並列化が可能
欠点
誤分類の危険性
2008/2/4
13
1.
2.
3.
4.
代表点選択
各テキストとの距離計算
最も近い代表点に振り分け
クラスタ内で全対全比較
代表点の数によって
精度や計算コストが変化
計算コスト
①テキスト振り分け(2,3)
②全対全の対訳判定(4)
2008/2/4
14
サンプリングの精度向上
対訳が正しく振り分けられる確率
“最も近い代表点”ではなく
“いくつかの近い代表点”を選ぶ
サンプリングのパラメータ
代表点の数(=サンプル数)
多重度
2008/2/4
多重度1
多重度2
15
Fryのコーパス(日英対訳ニュース記事)
サンプリングによる計算コスト削減の評価
サンプル数= n ( n :テキスト数)
多重度:1, 3
normal
計算量削減
精度は?
2008/2/4
number of comparison
sampling multiplicity 3
sampling multiplicity 1
number of pairs
16
sampling
多重度3
サンプル数を変化
k-medoid
number of comparisons
Fry200ペアを対象
k-medoid法との比較
処理時間と精度
トレードオフ
number of samples
miss classification ratio[%]
sampling
k-medoid
number of samples
2008/2/4
17
時間対精度
misclassification ratio[%]
上:1台
下:並列化
sampling
k-medoid
number of comparisons
左下にあるほど
サンプリングの方が
k-medoid法より
良い性能を示す
misclassification ratio[%]
高性能
sampling
k-medoid
number of comparisons
2008/2/4
18
次元削減によるメリット
計算量削減
データからノイズ除去
(後で述べる)転置indexにおける効率
仮定 :トピック分類に有用な単語は
対訳判定にも有用なはず
2008/2/4
19
多重トピック文書生成モデル
事前にトピック数Kを与える
i. トピックの分布
ii. 各トピックの各単語の生成確率
テキスト集合から推定
トピック分類で重要な単語を抽出
→意味IDの次元削減
2008/2/4
20
LDAの結果得られる
トピック毎の単語の生成確率(β)を利用
パラメータ
Name
トピック数(Topic)
LDA100
98
20
10
LDA200
202
25
20
LDA300
307
10
80
LDA400
410
30
40
normal
13206
-
-
上位単語数(Top)
100~400単語抽出
2008/2/4
Number of Topic
terms
Top
21
誤分類率(=精度) & 計算コスト
精度をほぼ維持したまま計算コスト削減
LDA100
LDA200
LDA300
LDA400
normal
Number of comparisons
misclssification ratio[%]
number of samples
2008/2/4
LDA100
LDA200
LDA300
LDA400
normal
number of samples
22
対訳テキスト検索の流れ
クエリテキストを指定
テキストの名詞を意味IDに変換
転置indexを用いてスコア計算&対訳候補抽出
転置index
T1 : (1030, 1799, 8517)
1030 : ((T1,1), (T2,1), …)
T2 : (1030, 1799, 4015, 8517)
1799 : ((T1,1), (T2,1), (T3,2), …)
T3 : (1799, 1799, 8517, 9602)
4015 : ((T2,1), …)
・・・
・・・
2008/2/4
23
query
term1
(T1,1), (T3,2), …
term2
(T1,2), (T2,1), …
term3
(text_id, count) …
term4
(text_id, count) …
term5
(text_id, count) …
score
Inv_score : text_id -> Σ( min( # of term, count) ) / text_len
例 : T1 -> ( min(# of term1, 1) + …) / ( len(T1) + len(query) )
2008/2/4
24
基本的にtrans_scoreと同一
“単語位置情報”を考慮しない
trans_scoreより扱っている情報が少ない
全てのテキストを見るのに比べ高速
trans _ score : i j len (query i ) len (T j )
inv _ score : i j len (query i T j )
次元削減と組み合わせると効率的
2008/2/4
25
代表点とテキストの距離を測定する時に
Inv_scoreを利用
1.
代表点選択
代表点をクエリとした検索
2.
(代表点,テキスト)間のスコア
3.
4.
テキスト毎に振り分け
クラスタ内で全対全比較
2008/2/4
26
trans_scoreとの比較
13106ペアに対して
全対全比較
実際の対訳のランク
rank
1
~10
~100 ~1000 ~10000
inv_score(%)
30.3
58.6
83.3
97.0
99.9
trans_score(%) 59.2
72.8
84.1
92.8
98.6
振り分けコスト
Fry200ペア
6倍程度高速化
number of comparisons
sampling
inv_score
number of samples
2008/2/4
27
inv_scoreとLDAの組み合わせ
サンプリングと比べinv_scoreが性能高く
inv_scoreにLDAを組み合わせると更に良い
sampling
inv_score
全対全比較より
2倍以上高速化
misclassification ratio[%]
inv_score+LDA
Number of comparisons
2008/2/4
28
100,000のWebテキスト+400の対訳ペア
サンプル数・多重度を変えて実験
2.8倍程度高速化
▪ サンプル数40
▪ 多重度4
misclassification ratio[%]
全対全比較より
47021.29305
execution time[sec]
2008/2/4
29
コーパスの対訳テキスト抽出の高速化
サンプリング
LDAを用いた次元削減
転置indexによる高速化
今後の課題
精度の向上
対訳例の増加
Webテキストからの対訳テキスト抽出
▪ クローラと統合
2008/2/4
30
斎藤大, 吉田慎一郎, 田浦健次朗, 近山隆.
「Web 上の対訳テキストの大規模高速抽出手法」
第13回言語処理学会年次大会併設ワークショップ, 2007年3月.
斎藤大, 田浦健次朗, 近山隆.
「大量の Web 文書からの対訳テキスト抽出手法」
日本ソフトウェア科学会 第24回大会, 2007年9月.
斎藤大, 田浦健次朗, 近山隆.
「大規模テキストコーパスを対象にした対訳テキスト抽出の高速化」
第14回言語処理学会年次大会, 2008年3月 (発表予定).
2008/2/4
31