Transcript Document

Constructing a Chinese-Japanese Parallel Corpus from Wikipedia
Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi
(Graduate School of Informatics, Kyoto University)
Background
Features
• Baseline features
• Lack of Chinese-Japanese parallel corpora for SMT
Corpora
Europarl
NIST
BTEC
NTCIR
ASPEC
…
Language
European
Zh-En, Arab-En
Asian-En
Zh-En, Ja-En
Ja-En, Zh-Ja
– General features: sentence length, word overlap
– Word alignment features
Domain
Politic
News
Travel
Patent
Science
• Chinese character features (+CC)
Zh: 而被指定为政令指定都市、中核市、特例市。
Ja: 別途政令指定都市、中核市、特例市に定められている。
c
• Non-CC word features (+Non-CC)
# http://orchid.kuee.kyoto-u.ac.jp/ASPEC/
Zh: 日本的一级行政区划单位为都道府县,全国划分为
1都、1道、2府、43县。
• Chinese-Japanese Wikipedia
Zh: ...
日本的一级行政区划单位为都
道府县,全国划分为1都、1道、
2府、43县。部份市因人口较多,
在当地影响较大,而被指定为
政令指定都市、中核市、特例
市。都道府县下的行政区划为
市町村,此外还有郡、支厅、
区、特别区等行政单位。
...
Ja: ...
都道府県(1都1道2府43県)とい
う広域行政区画から構成され
る。但し、地域区分(地方区分)
には、揺れが見られる。また、一
部の市は、行政上、別途政令指
定都市、中核市、特例市に定め
られている。他にも、市町村や、
町村をまとめた郡がある(全国市
町村一覧参照)。
...
Ja: 都道府県(1都1道2府43県)という広域行政区画から構成
される。
• Content word features (+Con)
Zh: YY/的/尸体/,/和/活着/的/黑/猩猩/相比/,/皮肤/
的/颜色/看起来/稍微/明朗/一些/。
Ja: つぎに/,/配線/に/使用/する/パターン/幅/や/クリアランス/
の/設定/の/方法/を/説明/した/。
1
Parallel Sentence Extraction System
• Overview
Common Chinese
characters filtering
Inter-language
link
Experiments
• Classification results with WF
Seed parallel corpus
Common
Chinese
Bilingual
characters
dictionary
Filter
Classifier
3
100
90
Novel
features
85
80
.
.
.
Baseline
(1)
(2)
Article pairs
Zh-Ja Wikipedia
(3)
Parallel sentence
candidates
Parallel
sentences
• Extraction results (#extracted sentences [unit: k])
50
p
• MT results (BLEU-4)
38
37
36
35
34
Seed parallel corpus
Common
Chinese
characters
Positive
instances
Classifier
Filter
Non-parallel
sentence pairs
+Con
100
• Parallel sentence classifier
Bilingual
dictionary
+Non–CC
150
WF: dictionary-based word overlap (Baseline)
CCF: common Chinese character (cognate) overlap
WF and CCF: logical conjunction of WF and CCF
WF or CCF: logical disjunction of WF and CCF
Cartesian
product
+CC
200
• Parallel sentence candidate filtering
–
–
–
–
Precision
Recall
F-measure
95
Filtered non-parallel
sentence pairs
Negative
instances
2
# The resource is freely available at:
http://orchid.kuee.kyoto-u.ac.jp/~chu/resource/wiki_zh_ja.tgz
4