Transcript Document
Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi (Graduate School of Informatics, Kyoto University) Background Features • Baseline features • Lack of Chinese-Japanese parallel corpora for SMT Corpora Europarl NIST BTEC NTCIR ASPEC … Language European Zh-En, Arab-En Asian-En Zh-En, Ja-En Ja-En, Zh-Ja – General features: sentence length, word overlap – Word alignment features Domain Politic News Travel Patent Science • Chinese character features (+CC) Zh: 而被指定为政令指定都市、中核市、特例市。 Ja: 別途政令指定都市、中核市、特例市に定められている。 c • Non-CC word features (+Non-CC) # http://orchid.kuee.kyoto-u.ac.jp/ASPEC/ Zh: 日本的一级行政区划单位为都道府县,全国划分为 1都、1道、2府、43县。 • Chinese-Japanese Wikipedia Zh: ... 日本的一级行政区划单位为都 道府县,全国划分为1都、1道、 2府、43县。部份市因人口较多, 在当地影响较大,而被指定为 政令指定都市、中核市、特例 市。都道府县下的行政区划为 市町村,此外还有郡、支厅、 区、特别区等行政单位。 ... Ja: ... 都道府県(1都1道2府43県)とい う広域行政区画から構成され る。但し、地域区分(地方区分) には、揺れが見られる。また、一 部の市は、行政上、別途政令指 定都市、中核市、特例市に定め られている。他にも、市町村や、 町村をまとめた郡がある(全国市 町村一覧参照)。 ... Ja: 都道府県(1都1道2府43県)という広域行政区画から構成 される。 • Content word features (+Con) Zh: YY/的/尸体/,/和/活着/的/黑/猩猩/相比/,/皮肤/ 的/颜色/看起来/稍微/明朗/一些/。 Ja: つぎに/,/配線/に/使用/する/パターン/幅/や/クリアランス/ の/設定/の/方法/を/説明/した/。 1 Parallel Sentence Extraction System • Overview Common Chinese characters filtering Inter-language link Experiments • Classification results with WF Seed parallel corpus Common Chinese Bilingual characters dictionary Filter Classifier 3 100 90 Novel features 85 80 . . . Baseline (1) (2) Article pairs Zh-Ja Wikipedia (3) Parallel sentence candidates Parallel sentences • Extraction results (#extracted sentences [unit: k]) 50 p • MT results (BLEU-4) 38 37 36 35 34 Seed parallel corpus Common Chinese characters Positive instances Classifier Filter Non-parallel sentence pairs +Con 100 • Parallel sentence classifier Bilingual dictionary +Non–CC 150 WF: dictionary-based word overlap (Baseline) CCF: common Chinese character (cognate) overlap WF and CCF: logical conjunction of WF and CCF WF or CCF: logical disjunction of WF and CCF Cartesian product +CC 200 • Parallel sentence candidate filtering – – – – Precision Recall F-measure 95 Filtered non-parallel sentence pairs Negative instances 2 # The resource is freely available at: http://orchid.kuee.kyoto-u.ac.jp/~chu/resource/wiki_zh_ja.tgz 4