Transcript pptx
近山研究室 斎藤 大 2008/2/4 1 対訳テキスト: 意味内容は同一 異なる言語で記述 対訳コーパス: 対訳テキストの集合 One thing was certain, that the WHITE kitten had had nothing to do with it. 一つ確実なのは、 白い子ネコはなんの関係も なかったということ。 --it was the black kitten's fault entirely. ――もうなにもかも、 黒い子ネコのせいだったのです。 自然言語レベルの翻訳関係 2008/2/4 2 多言語処理分野の有用なリソース 統計的機械翻訳 対訳辞書・シソーラス構築 十分な量・種類の対訳コーパスがない 言語の不足 英-仏 英-日 2008/2/4 ジャンルの不足 +新規構築が困難 政府公式文書 ソフトウェアマニュアル 3 テキストコーパスから対訳テキスト抽出の高速化 Text Corpus 対訳判定[福島ら 06] 無駄な対訳判定の削減 サンプリングによる高速化 LDAによる次元削減 転置indexによる高速化 2008/2/4 4 背景と目的 関連研究 個々のテキストペアの対訳判定 Webからの対訳テキスト抽出 提案手法と評価 サンプリングによる高速化 LDAによる次元削減 転置indexによる高速化 まとめと今後の課題 2008/2/4 5 テキスト text 1030 辞書を使ってテキストを数列に変える。 textbook 教科書 dictionary 辞書 I convert text to sequence with dictionary. 意味ID:約10,000 1799 辞典 ・・・ T1:(1030, 1799, 8517) T2:(1030, 1799, 4015, 8517) trans _ score score # T 1 # T 2 trans_score = 3/(3+4) +単語位置情報 2008/2/4 6 F値による評価 最も良いthreshold presicion recall F 2 presicion recall trans_score = 0.102 相対距離 = 0.2 全対全比較しか言及されていない 対訳候補抽出が必要 2008/2/4 7 URL マッチング http://www.hostname.com/index.html.en http://www.hostname.com/index.html.ja 1. Language-Specific Substrings[LSSs]を削除 (Japanese : ja, jp, jpn, euc, sjis,…) 2. LSSs を削除された URL でマッチング 3. 文字列が一致したペアのみ詳細な比較 2008/2/4 8 RSSニュース記事 他言語へのリンク 日本語→英語 ニュースサイトは 手動で探す http://hotwired.goo.ne.jp http://japan.cnet.com http://japan.internet.com http://www.itmedia.co.jp 日英対訳URLを公開 2008/2/4 9 対訳テキスト発見 タグの“alt” リンク名 “English version” “In English” … HTML→DOM Tree link link リンク構造の利用 Parallel link: 対訳テキスト中で“同じように” リンクが張られているペア 2008/2/4 10 STRAND ○計算コストが低い ×取得可能な対訳が少ない RSS ○品質・速度が安定 ×RSS配信している限られたページのみ DOM Tree Alignment ○一つの対訳発見で複数の対訳取得が可能 ×DOM Tree変換コストが高い・形式が制限 2008/2/4 11 大規模コーパスから対訳テキスト抽出 対訳判定[福島ら 06]:全対全比較は高コスト 対訳らしくないペアの対訳判定回数削減 特徴 URL形式などに限定されず汎用的 ▪ テキストの意味情報のみを利用 言語に依存しない ▪ 対訳辞書 任意の言語ペアに 適用可能 ▪ 形態素解析 2008/2/4 12 大規模テキスト群を小さな集合に分割 対訳発見のために全対全比較:O(n2 ) 計算コストを削減して高速化 利点 O(n2 ) の n を小さく出来る 分割後は単純な並列化が可能 欠点 誤分類の危険性 2008/2/4 13 1. 2. 3. 4. 代表点選択 各テキストとの距離計算 最も近い代表点に振り分け クラスタ内で全対全比較 代表点の数によって 精度や計算コストが変化 計算コスト ①テキスト振り分け(2,3) ②全対全の対訳判定(4) 2008/2/4 14 サンプリングの精度向上 対訳が正しく振り分けられる確率 “最も近い代表点”ではなく “いくつかの近い代表点”を選ぶ サンプリングのパラメータ 代表点の数(=サンプル数) 多重度 2008/2/4 多重度1 多重度2 15 Fryのコーパス(日英対訳ニュース記事) サンプリングによる計算コスト削減の評価 サンプル数= n ( n :テキスト数) 多重度:1, 3 normal 計算量削減 精度は? 2008/2/4 number of comparison sampling multiplicity 3 sampling multiplicity 1 number of pairs 16 sampling 多重度3 サンプル数を変化 k-medoid number of comparisons Fry200ペアを対象 k-medoid法との比較 処理時間と精度 トレードオフ number of samples miss classification ratio[%] sampling k-medoid number of samples 2008/2/4 17 時間対精度 misclassification ratio[%] 上:1台 下:並列化 sampling k-medoid number of comparisons 左下にあるほど サンプリングの方が k-medoid法より 良い性能を示す misclassification ratio[%] 高性能 sampling k-medoid number of comparisons 2008/2/4 18 次元削減によるメリット 計算量削減 データからノイズ除去 (後で述べる)転置indexにおける効率 仮定 :トピック分類に有用な単語は 対訳判定にも有用なはず 2008/2/4 19 多重トピック文書生成モデル 事前にトピック数Kを与える i. トピックの分布 ii. 各トピックの各単語の生成確率 テキスト集合から推定 トピック分類で重要な単語を抽出 →意味IDの次元削減 2008/2/4 20 LDAの結果得られる トピック毎の単語の生成確率(β)を利用 パラメータ Name トピック数(Topic) LDA100 98 20 10 LDA200 202 25 20 LDA300 307 10 80 LDA400 410 30 40 normal 13206 - - 上位単語数(Top) 100~400単語抽出 2008/2/4 Number of Topic terms Top 21 誤分類率(=精度) & 計算コスト 精度をほぼ維持したまま計算コスト削減 LDA100 LDA200 LDA300 LDA400 normal Number of comparisons misclssification ratio[%] number of samples 2008/2/4 LDA100 LDA200 LDA300 LDA400 normal number of samples 22 対訳テキスト検索の流れ クエリテキストを指定 テキストの名詞を意味IDに変換 転置indexを用いてスコア計算&対訳候補抽出 転置index T1 : (1030, 1799, 8517) 1030 : ((T1,1), (T2,1), …) T2 : (1030, 1799, 4015, 8517) 1799 : ((T1,1), (T2,1), (T3,2), …) T3 : (1799, 1799, 8517, 9602) 4015 : ((T2,1), …) ・・・ ・・・ 2008/2/4 23 query term1 (T1,1), (T3,2), … term2 (T1,2), (T2,1), … term3 (text_id, count) … term4 (text_id, count) … term5 (text_id, count) … score Inv_score : text_id -> Σ( min( # of term, count) ) / text_len 例 : T1 -> ( min(# of term1, 1) + …) / ( len(T1) + len(query) ) 2008/2/4 24 基本的にtrans_scoreと同一 “単語位置情報”を考慮しない trans_scoreより扱っている情報が少ない 全てのテキストを見るのに比べ高速 trans _ score : i j len (query i ) len (T j ) inv _ score : i j len (query i T j ) 次元削減と組み合わせると効率的 2008/2/4 25 代表点とテキストの距離を測定する時に Inv_scoreを利用 1. 代表点選択 代表点をクエリとした検索 2. (代表点,テキスト)間のスコア 3. 4. テキスト毎に振り分け クラスタ内で全対全比較 2008/2/4 26 trans_scoreとの比較 13106ペアに対して 全対全比較 実際の対訳のランク rank 1 ~10 ~100 ~1000 ~10000 inv_score(%) 30.3 58.6 83.3 97.0 99.9 trans_score(%) 59.2 72.8 84.1 92.8 98.6 振り分けコスト Fry200ペア 6倍程度高速化 number of comparisons sampling inv_score number of samples 2008/2/4 27 inv_scoreとLDAの組み合わせ サンプリングと比べinv_scoreが性能高く inv_scoreにLDAを組み合わせると更に良い sampling inv_score 全対全比較より 2倍以上高速化 misclassification ratio[%] inv_score+LDA Number of comparisons 2008/2/4 28 100,000のWebテキスト+400の対訳ペア サンプル数・多重度を変えて実験 2.8倍程度高速化 ▪ サンプル数40 ▪ 多重度4 misclassification ratio[%] 全対全比較より 47021.29305 execution time[sec] 2008/2/4 29 コーパスの対訳テキスト抽出の高速化 サンプリング LDAを用いた次元削減 転置indexによる高速化 今後の課題 精度の向上 対訳例の増加 Webテキストからの対訳テキスト抽出 ▪ クローラと統合 2008/2/4 30 斎藤大, 吉田慎一郎, 田浦健次朗, 近山隆. 「Web 上の対訳テキストの大規模高速抽出手法」 第13回言語処理学会年次大会併設ワークショップ, 2007年3月. 斎藤大, 田浦健次朗, 近山隆. 「大量の Web 文書からの対訳テキスト抽出手法」 日本ソフトウェア科学会 第24回大会, 2007年9月. 斎藤大, 田浦健次朗, 近山隆. 「大規模テキストコーパスを対象にした対訳テキスト抽出の高速化」 第14回言語処理学会年次大会, 2008年3月 (発表予定). 2008/2/4 31