Transcript pptx

近山研究室
斎藤 大
2008/2/4
1
対訳テキスト:  意味内容は同一
 異なる言語で記述
対訳コーパス:  対訳テキストの集合
One thing was certain,
that the WHITE kitten had had
nothing to do with it.
一つ確実なのは、
白い子ネコはなんの関係も
なかったということ。
--it was the black kitten's
fault entirely.
――もうなにもかも、
黒い子ネコのせいだったのです。
自然言語レベルの翻訳関係
2008/2/4
2

多言語処理分野の有用なリソース
 統計的機械翻訳
 対訳辞書・シソーラス構築

十分な量・種類の対訳コーパスがない

言語の不足
英-仏
英-日
2008/2/4

ジャンルの不足
+新規構築が困難
政府公式文書
ソフトウェアマニュアル
3
テキストコーパスから対訳テキスト抽出の高速化
Text Corpus
対訳判定[福島ら 06]
無駄な対訳判定の削減
サンプリングによる高速化
LDAによる次元削減
転置indexによる高速化
2008/2/4
4


背景と目的
関連研究
 個々のテキストペアの対訳判定
 Webからの対訳テキスト抽出

提案手法と評価
 サンプリングによる高速化
 LDAによる次元削減
 転置indexによる高速化

まとめと今後の課題
2008/2/4
5
テキスト
text
1030
辞書を使ってテキストを数列に変える。
textbook
教科書
dictionary
辞書
I convert text to sequence with dictionary.
意味ID:約10,000
1799
辞典
・・・
T1:(1030, 1799, 8517)
T2:(1030, 1799, 4015, 8517)
trans _ score 
score
# T 1 # T 2
trans_score = 3/(3+4)
+単語位置情報
2008/2/4
6

F値による評価

最も良いthreshold
presicion recall
F
2
presicion recall
 trans_score = 0.102
 相対距離 = 0.2

全対全比較しか言及されていない
 対訳候補抽出が必要
2008/2/4
7

URL マッチング
http://www.hostname.com/index.html.en
http://www.hostname.com/index.html.ja
1. Language-Specific Substrings[LSSs]を削除
(Japanese : ja, jp, jpn, euc, sjis,…)
2. LSSs を削除された URL でマッチング
3. 文字列が一致したペアのみ詳細な比較
2008/2/4
8


RSSニュース記事
他言語へのリンク
 日本語→英語

ニュースサイトは
手動で探す





http://hotwired.goo.ne.jp
http://japan.cnet.com
http://japan.internet.com
http://www.itmedia.co.jp
日英対訳URLを公開
2008/2/4
9

対訳テキスト発見
 タグの“alt”
 リンク名

“English version”
“In English” …
HTML→DOM Tree
link
link
 リンク構造の利用

Parallel link: 対訳テキスト中で“同じように”
リンクが張られているペア
2008/2/4
10

STRAND
○計算コストが低い
×取得可能な対訳が少ない

RSS
○品質・速度が安定
×RSS配信している限られたページのみ

DOM Tree Alignment
○一つの対訳発見で複数の対訳取得が可能
×DOM Tree変換コストが高い・形式が制限
2008/2/4
11

大規模コーパスから対訳テキスト抽出
 対訳判定[福島ら 06]:全対全比較は高コスト
 対訳らしくないペアの対訳判定回数削減

特徴
 URL形式などに限定されず汎用的
▪ テキストの意味情報のみを利用
 言語に依存しない
▪ 対訳辞書
任意の言語ペアに
適用可能
▪ 形態素解析
2008/2/4
12

大規模テキスト群を小さな集合に分割
 対訳発見のために全対全比較:O(n2 )
 計算コストを削減して高速化

利点
 O(n2 ) の
n を小さく出来る
 分割後は単純な並列化が可能

欠点
 誤分類の危険性
2008/2/4
13
1.
2.
3.
4.
代表点選択
各テキストとの距離計算
最も近い代表点に振り分け
クラスタ内で全対全比較
代表点の数によって
精度や計算コストが変化
計算コスト
①テキスト振り分け(2,3)
②全対全の対訳判定(4)
2008/2/4
14

サンプリングの精度向上
 対訳が正しく振り分けられる確率

“最も近い代表点”ではなく
“いくつかの近い代表点”を選ぶ

サンプリングのパラメータ
 代表点の数(=サンプル数)
 多重度
2008/2/4
多重度1
多重度2
15




Fryのコーパス(日英対訳ニュース記事)
サンプリングによる計算コスト削減の評価
サンプル数= n ( n :テキスト数)
多重度:1, 3
normal

計算量削減
精度は?
2008/2/4
number of comparison
sampling multiplicity 3
sampling multiplicity 1
number of pairs
16
sampling
 多重度3
 サンプル数を変化


k-medoid
number of comparisons
Fry200ペアを対象
k-medoid法との比較
処理時間と精度
 トレードオフ
number of samples
miss classification ratio[%]

sampling
k-medoid
number of samples
2008/2/4
17

時間対精度
misclassification ratio[%]

上:1台
下:並列化

sampling
k-medoid
number of comparisons
 左下にあるほど
サンプリングの方が
k-medoid法より
良い性能を示す
misclassification ratio[%]
高性能
sampling
k-medoid
number of comparisons
2008/2/4
18

次元削減によるメリット
 計算量削減
 データからノイズ除去
 (後で述べる)転置indexにおける効率
仮定 :トピック分類に有用な単語は
対訳判定にも有用なはず
2008/2/4
19

多重トピック文書生成モデル
 事前にトピック数Kを与える
i. トピックの分布
ii. 各トピックの各単語の生成確率
 テキスト集合から推定
 トピック分類で重要な単語を抽出
→意味IDの次元削減
2008/2/4
20

LDAの結果得られる
トピック毎の単語の生成確率(β)を利用

パラメータ
Name
 トピック数(Topic)
LDA100
98
20
10
LDA200
202
25
20
LDA300
307
10
80
LDA400
410
30
40
normal
13206
-
-
 上位単語数(Top)

100~400単語抽出
2008/2/4
Number of Topic
terms
Top
21
誤分類率(=精度) & 計算コスト

精度をほぼ維持したまま計算コスト削減
LDA100
LDA200
LDA300
LDA400
normal
Number of comparisons
misclssification ratio[%]

number of samples
2008/2/4
LDA100
LDA200
LDA300
LDA400
normal
number of samples
22

対訳テキスト検索の流れ
 クエリテキストを指定
 テキストの名詞を意味IDに変換
 転置indexを用いてスコア計算&対訳候補抽出

転置index
T1 : (1030, 1799, 8517)
1030 : ((T1,1), (T2,1), …)
T2 : (1030, 1799, 4015, 8517)
1799 : ((T1,1), (T2,1), (T3,2), …)
T3 : (1799, 1799, 8517, 9602)
4015 : ((T2,1), …)
・・・
・・・
2008/2/4
23
query
term1
(T1,1), (T3,2), …
term2
(T1,2), (T2,1), …
term3
(text_id, count) …
term4
(text_id, count) …
term5
(text_id, count) …
score
Inv_score : text_id -> Σ( min( # of term, count) ) / text_len
例 : T1 -> ( min(# of term1, 1) + …) / ( len(T1) + len(query) )
2008/2/4
24


基本的にtrans_scoreと同一
“単語位置情報”を考慮しない
 trans_scoreより扱っている情報が少ない

全てのテキストを見るのに比べ高速
 trans _ score : i  j len (query i )  len (T j )


inv _ score : i  j len (query i  T j )
次元削減と組み合わせると効率的
2008/2/4
25

代表点とテキストの距離を測定する時に
Inv_scoreを利用
1.
代表点選択
代表点をクエリとした検索
2.
 (代表点,テキスト)間のスコア
3.
4.
テキスト毎に振り分け
クラスタ内で全対全比較
2008/2/4
26

trans_scoreとの比較
 13106ペアに対して
全対全比較
 実際の対訳のランク
rank
1
~10
~100 ~1000 ~10000
inv_score(%)
30.3
58.6
83.3
97.0
99.9
trans_score(%) 59.2
72.8
84.1
92.8
98.6

振り分けコスト
 Fry200ペア
 6倍程度高速化
number of comparisons
sampling
inv_score
number of samples
2008/2/4
27


inv_scoreとLDAの組み合わせ
サンプリングと比べinv_scoreが性能高く
inv_scoreにLDAを組み合わせると更に良い
sampling
inv_score
全対全比較より
2倍以上高速化
misclassification ratio[%]

inv_score+LDA
Number of comparisons
2008/2/4
28

100,000のWebテキスト+400の対訳ペア
 サンプル数・多重度を変えて実験
2.8倍程度高速化
▪ サンプル数40
▪ 多重度4
misclassification ratio[%]
 全対全比較より
47021.29305
execution time[sec]
2008/2/4
29

コーパスの対訳テキスト抽出の高速化
 サンプリング
 LDAを用いた次元削減
 転置indexによる高速化

今後の課題
 精度の向上
 対訳例の増加
 Webテキストからの対訳テキスト抽出
▪ クローラと統合
2008/2/4
30

斎藤大, 吉田慎一郎, 田浦健次朗, 近山隆.
「Web 上の対訳テキストの大規模高速抽出手法」
第13回言語処理学会年次大会併設ワークショップ, 2007年3月.

斎藤大, 田浦健次朗, 近山隆.
「大量の Web 文書からの対訳テキスト抽出手法」
日本ソフトウェア科学会 第24回大会, 2007年9月.

斎藤大, 田浦健次朗, 近山隆.
「大規模テキストコーパスを対象にした対訳テキスト抽出の高速化」
第14回言語処理学会年次大会, 2008年3月 (発表予定).
2008/2/4
31