Transcript Document

CWMT2008机器翻译评测
总结报告
中科院计算所
机器翻译评测组
赵红梅 谢军 吕雅娟 刘群
2008年11月
提纲
●
●
●
●
●
●
●
●
概述
参评单位和参评系统
评测语料
评测流程
评测方法
评测结果
评测结果分析
总结和展望
概述
●
机器翻译核心技术的评测
● 目的: 推进机器翻译技术的交流和发展
●
15个参评单位
●
2个语种方向(汉英、英汉)
●
两种领域(新闻、科技),其中科技翻译为新增项目
●
新增了汉英新闻系统融合项目
●
新增了WoodPecker评测
●
新增了BLEU-SBP参考指标
参评单位
● 厦门大学人工智能研究所
● 中国软件与技术服务股份有限公司
● 东北大学自然语言处理实验室
● 中科院自动化研究所系统1
● 中科院自动化研究所系统2
● 北京迈创语通软件有限公司
● 北京赛迪翻译技术有限公司
● 中国科学院软件研究所
● 西安汇申软件有限公司
● 中科院计算技术研究所多语言交互技术研究室
● 北京航空航天大学计算机学院智能信息处理研究所
● 微软亚洲研究院
● 北京工业大学
● 哈尔滨工业大学机器智能与翻译研究室
● SYSTRAN Software, Inc
参评单位和系统数量
项目
汉英新闻翻译
受限
不受限
合计
单位
系统 单位 系统 单位 系统
7
13
7
10
汉英新闻系统融合
12
23
6
10
英汉新闻翻译
4
9
8
11
11
20
英汉科技翻译
4
10
6
10
9
20
15
73
合计
评测语料
机器翻语译料
• 训练语料:
新闻、科技公共训练语料:868,947句对;
科技独有训练语料:
620,985句对
其中, 万方数据:320,985句对
中信所语料:300,000句对。
• 6家单位参加了万方数据论文摘要句对齐语料的校对
• 测试语料:新闻语料按照分割日期规定均采自国内外新闻网站;
所有测试集中均混入了3倍的干扰集,真实测试集规模:
机器翻译评测语料
句数
汉字数/单词数
制作单位
汉英新闻翻译汉语语料
1006
41042
计算所
英汉新闻翻译英语语料
1000
21767
计算所
英汉科技翻译英语语料
1008
21339
中信所
评测语料
•
参考译文
每句4个参考译文
4个以目标语言为母语的翻译者独立翻译
新闻的参考译文由计算所制作,科技的参考译文由中信所提供
系统融合语料
•
训练语料
•
SSMT2007汉英新闻测试集、参考集和本次评测中10家参评单位提
交的17个系统在SSMT2007汉英新闻真实测试语料上的翻译结果
(共1,002句对)
•
测试语料
•
以上17个系统在CWMT2008汉英新闻测试集上的翻译结果。
•
其中,12个系统提交了n-best结果,5个系统提交了1-best结果。
•
参考译文
•
同本次评测汉英新闻翻译项目的参考集
评测流程
• 本次评测采用了网上评测的方式,流程如下:
•
•
•
•
•
8月31日 评测组织方发放各个项目的训练数据
10月8日 评测组织方发放新闻翻译项目的测试数据
10月10日 参评单位提交新闻翻译项目的测试运行结果和系统描述
10月13日 评测组织方发放英汉科技翻译项目的测试数据
10月15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统
描述
• 10月20日 评测组织方发放汉英系统融合项目的测试数据
• (即机器翻译项目参评单位提交的运行结果的汇总)
• 10月22日 各参评单位提交汉英系统融合项目的测试运行结果和系统
描述
评测方法
• 格式预处理:
– 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式;
– 此次评测的内部格式更加接近NIST评测格式;
– 部分单位提交的结果格式不符合要求;
• 解决办法:下次评测提供格式检测程序!
• 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。
• 体会:评测中最麻烦的问题莫过于格式和编码
– 统一采用UTF-8编码,但是:
– 带编码(如utf-8)的文件在Windows下复制到剪贴板上时(包括使用写字版和
UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如ANSI
编码),从而出现乱码。
– 不能采用utf-8、无BOM编码:因其不识别英镑符号£
评测方法
• 评测指标:
本次评测采用多种自动评价指标,包括:
BLEU、 NIST、GTM、mWER、mPER、ICT
• 参考指标:
BLEU-SBP:采用修改bp的BLEU
WoodPecker:提供基于检测点的评测结果
以上指标均为:
– 大小写敏感的
– 中文的评测是基于字的,而不是基于词的
评测方法: BLEU-SBP
•
我们发现了BLEU本身存在的问题:
•
将测试结果中2%的句子缩短为只有1-2个单词,BLEU值不变!
•
用BLEU进行A、B两个结果的显著性差异的符号检验,发现:
评测方法: BLEU-SBP
Base
BLEU of
the base
system
Contrast
Better(%)
Worse(%)
置信度
Significant
A
0.1964
B
72.07
27.53
0.01
Yes
B
0.2407
A
68.6
31.2
A
0.1947
B
61.6
38.0
0.01
Yes
B
0.2353
A
32.6
67.0
0.01
Yes
No
解决:采用BLEU-SBP指标 (David Chiang et al., 2008)
BLEU vs. BLEU-SBP
• 两者的最大区别在于bp ( brevity penalty)部分
•
请参考Decomposability of Translation Metrics for Improved Evaluation and
Efficient Algorithms, David Chiang, et.al, EMNLP2008
评测方法: BLEU-SBP
汉英新闻12个参评主系统BLEU4与BLEU-SBP结果对比
0.3
0.25
0.2
BLEU4
BLEU4-SBP
0.15
0.1
0.05
0
1
2
3
4
5
6
7
8
9 10 11 12
评测方法
• 符号检验:
• 在BLEU-SBP的基础上,针对各主系统的翻译结果,进行
了结果之间差异的显著性检验---符号检验
(Collins et al.,2005)
• 做法:分别以每个主系统为基准系统,测试了所有其它主
系统与基准系统结果差异的显著性程度,以此构造了所有
主系统翻译结果的差异显著性矩阵。
评测结果:汉英新闻主系统
受限情况
单位
BLEU
4
BLEU4SBP
NIST5
GTM
mWER
mPER
ICT
不受限
1
0.2809
0.2631
7.5235
0.7238
0.6824
0.5050
0.3805
不受限
2
0.2390
0.2233
7.8401
0.7039
0.7178
0.5086
0.3388
不受限
3
0.2275
0.2193
7.9180
0.7101
0.7209
0.5085
0.3262
受限
4
0.2264
0.2122
7.6426
0.7128
0.7307
0.5164
0.3352
不受限
5
0.2188
0.2126
7.8713
0.7140
0.7321
0.5102
0.3108
受限
6
0.2051
0.2037
7.3550
0.7207
0.7225
0.5070
0.2631
受限
7
0.2033
0.1901
7.2819
0.6836
0.7262
0.5274
0.3220
受限
8
0.1838
0.1700
6.8184
0.6596
0.7884
0.5676
0.2752
不受限
9
0.1773
0.1767
7.0795
0.7096
0.7121
0.5176
0.2423
受限
10
0.1686
0.1643
7.2578
0.6907
0.7564
0.5432
0.2814
不受限
11
0.1539
0.1529
6.8468
0.6752
0.7394
0.5393
0.2438
受限
12
0.0968
0.0932
5.9160
0.5733
0.8216
0.6179
0.2211
汉英新闻主系统BLEU结果
汉 英 新 闻 主 系 统
汉 英 新 闻 主 系 统
0.2809
1
0.2390
2
3
0.2275
0.2264
4
5
0.2188
0.2051
6
7
0.2033
0.1773
9
10
11
12
0.05
4
6
7
8
10
12
0.1838
8
0.1686
0.1539
0.0968
0.10
0.15 0.20
BLEU-4
0.25
0.30
0.2809
1
2
3
5
9
11
0.2390
0.2275
0.2188
0.1773
不
受
限
0.1539
0.2264
0.2051
受
0.2033
0.1838
0.1686
限
0.0968
0.05 0.10 0.15 0.20 0.25 0.30
BLEU-4
评测结果:英汉新闻主系统
受限情况
单位
BLEU5
BLEU5-SBP
BLEU6
NIST6
NIST7
GTM
mWER
mPER
ICT
不受限
1
0.3263
0.3113
0.2652
9.2769
9.2869
0.7582
0.6485
0.4008
0.3941
不受限
2
0.3157
0.3070
0.2542
9.5048
9.5143
0.7754
0.6468
0.4048
0.3603
不受限
3
0.2970
0.2847
0.2349
8.9366
8.9430
0.7556
0.6728
0.4087
0.3865
受限
4
0.2622
0.2526
0.2045
8.2371
8.2434
0.7137
0.6928
0.4416
0.3473
不受限
5
0.2611
0.2579
0.2029
8.8019
8.8083
0.7753
0.6698
0.4139
0.3120
受限
6
0.2532
0.2417
0.1946
8.2184
8.2237
0.7110
0.7215
0.4491
0.3146
不受限
7
0.2413
0.2354
0.1867
8.2081
8.2135
0.7283
0.7133
0.4621
0.2810
受限
8
0.2408
0.2353
0.1838
7.5465
7.5504
0.7101
0.6851
0.4566
0.3564
受限
9
0.2369
0.2233
0.1818
7.9624
7.9670
0.7013
0.7184
0.4735
0.3174
不受限
10
0.2129
0.2084
0.1615
7.8425
7.8460
0.6958
0.7395
0.4842
0.2559
不受限
11
0.1964
0.1947
0.1482
7.4316
7.4359
0.7173
0.7215
0.4771
0.2434
英汉新闻主系统BLEU结果
英 汉 新 闻 主 系 统
英 汉 新 闻 主 系 统
0.3263
1
2
0.3157
0.297
3
4
5
6
7
8
9
0.2611
7
0.25
BLEU-5
0.1964
0.2622
0.2408
8
0.35
限
0.2369
9
0.30
受
0.2532
6
0.1964
受
限
0.2129
4
0.2129
不
0.2413
11
0.2369
0.20
0.2611
10
0.2408
0.15
0.297
3
5
0.2413
11
0.3157
2
0.2622
0.2532
10
0.3263
1
0.15
0.20
0.25 0.30
BLEU-5
0.35
评测结果:英汉科技主系统
受限情况
单位
BLEU5
BLEU5SBP
BLEU6
NIST6
NIST7
GTM
mWER
mPER
ICT
不受限
1
0.4879
0.4811
0.4319
11.3272
11.3514
0.8588
0.5185
0.2980
0.4864
不受限
2
0.4718
0.4551
0.4223
10.9460
10.9676
0.8204
0.5665
0.3191
0.4749
受限
3
0.4618
0.4533
0.4028
11.0845
11.1053
0.8497
0.5440
0.3105
0.4692
受限
4
0.4026
0.3853
0.3392
10.3247
10.3379
0.8220
0.5981
0.3550
0.4380
受限
5
0.3743
0.3595
0.3122
9.9192
9.9306
0.8087
0.6173
0.3551
0.4229
不受限
6
0.3651
0.3590
0.3014
10.1106
10.1249
0.8124
0.5726
0.3554
0.4042
受限
7
0.3528
0.3467
0.2887
9.8271
9.8385
0.7993
0.6210
0.3579
0.3739
不受限
8
0.2859
0.2841
0.2243
9.1141
9.1209
0.8087
0.6055
0.3796
0.3342
不受限
9
0.2173
0.2166
0.1653
7.7003
7.7047
0.7452
0.6653
0.4466
0.2476
英汉科技主系统BLEU结果
英 汉 科 技 主 系 统
1
2
3
0.4879
1
0.4879
0.4718
2
0.4718
不
0.4618
4
0.4026
5
6
7
8
9
英 汉 科 技 主 系 统
受
0.2859
8
9
0.3743
0.3651
6
0.2173
限
0.3651
3
0.3528
0.2859
0.30
0.40
BLEU-5
0.3743
5
0.2173
0.20
0.4026
4
7
0.50
0.4618
受
0.3528
限
0.20 0.25 0.30 0.35 0.40 0.45 0.50
BLEU-5
评测结果:汉英新闻系统融合主系统
单位
BLEU4
BLEU4SBP
NIST5
GTM
mWER
mPER
ICT
1
0.2944
0.2758
7.7501
0.7319
0.6761
0.4972
0.3920
2
0.2906
0.2683
8.3747
0.7543
0.6785
0.4813
0.3828
3
0.2873
0.2711
8.4634
0.7478
0.6952
0.4838
0.3545
4
0.2721
0.2512
7.4408
0.7219
0.6995
0.5187
0.3794
5
0.2679
0.2560
8.2823
0.7531
0.6986
0.4926
0.3492
6
0.2509
0.2380
8.1013
0.7196
0.7154
0.5005
0.3336
汉英新闻系统融合主系统BLEU结果
汉 英 新 闻 系 统 融 合
0.2944
1
2
0.2906
0.2873
3
4
0.2721
0.2679
5
6
0.2509
0.22
0.23
0.24
0.25
0.26
BLEU-4
0.27
0.28
0.29
0.3
评测结果分析:各主系统所用方法
汉英新闻
英汉新闻
英汉科技
1
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6
7
7
7
8
8
8
9
9
9
10
10
11
11
12
以规则方法为主
以统计方法为主
评测结果分析
两种方法在各项目中的平均BLEU对比表明:统计方
法在英汉科技的BLEU得分上优势明显,这一点也可以从
随后的WoodPecker评测结果上看出来。
汉英新闻
BLEU
BLEU4
统计
0.2025
规则
0.1862
英汉新闻
BLEU5
0.2694
0.2455
英汉科技
BLEU5
0.4252
0.2894
结论:科技翻译很适合于使用统计机器翻译方法
评测结果分析
• 系统融合的最好结果仅比单系统的最好结
果BLEU值高出1.35个百分点,比预想的要
差得多
• 原因还没有弄明白
评测结果分析
• MSRA在汉英新闻不受限项目上优势明显
• 与去年SSMT2007评测相比,HIT、NEU等
单位进步非常大
• 基于规则的系统表现比想象的好
评测方法: WoodPecker
• WoodPecker是微软亚洲研究院开发的基于检测
点的评测工具
– 基于语言学分类的检测工具
– 检测点自动抽取
– 可以提供词级、短语级以及句级的评价指标
• 下载地址:
http://research.microsoft.com/research/downloads/details/ad24079
9-a9a7-4a14-a556-6a7c7919b4a/details.aspx
WoodPecker: 系统流程
Bilingual
testing
corpus
Parser &
Aligner
Extra
Data Files
Bilingual
trees &
Alignment
Linguistic
Taxonomy
Check-point
Extraction
Verb Check-points
word
MT system
……
Check-point
Database
Translations
Check-point
Evaluation
Evaluation of Check-points
Evaluation of Category
Evaluation of Category Group
Noun Check-points
Scores
Phrase
NP Check-points
……
Sentenc
e
“BA” sentence
Check-points
……
WoodPecker: 相关工具
• 数据预处理
– 中文全/半角转换: A3区全半角转换 A2B
– 中文分词: ICTCLAS
– 英文首字母大小写转化 Truecase
– 英文Tokenization
• 词对齐
– GIZA++
• Parsing
– Berkeley Parser
– Stanford Parser
检测点提取和选择
• 检测点的提取和评测:
•
参考译文的预处理方法和对参评系统输出的预处理方法保持一致。
•
基于WoodPecker语言学检测点分类体系,从评测语料中总共提取出了52种汉英检测
点,81种英汉检测点。
• 检测点的选择:
– 根据出现频次对检测点类别进行了筛选:
• 源语言检测点:出现频次﹥10
• 目标语言检测点:出现频次﹥40 (注: 独立计算每个参考译文中检测点的频次)
• 说明: (1)汉英介词同时计入功能词类别和内容词类别.(2)英汉歧义词没有考虑
– 最终选取的检测点类别数目:
• 汉英检测点: 46
• 英汉检测点: 58
评测结果:WoodPecker
– 汉英新闻主系统
– 英汉新闻主系统
– 英汉科技主系统
– 汉英新闻系统融合
WoodPecker 与 BLEU 相关性分析 (英汉)
项目
ec_
news
ec_
tech
检测点
Spearman
Pearson
General
0.8727
0.9283
G:Words
0.8273
0.8747
G:Phrases
0.8727
0.9340
G:Sentences
0.9182
0.8929
General
0.8000
0.9105
G:Words
0.7167
0.8547
G:Phrases
0.8667
0.9378
G:Sentences
0.6179
0.6179
WoodPecker 与 BLEU 相关性分析 (汉英)
项目
ce_
news
ce_
news
_comb
检测点
Spearman
Pearson
General
0.5594
0.7182
G:Words
0.1678
0.4138
G:Phrases
0.6224
0.7425
G:Sentences
0.6923
0.7607
General
0.0857
0.2232
G:Words
-0.1429
-0.0828
G:Phrases
0.0857
0.2682
G:Sentences
0.1429
0.3263
WoodPecker 与 BLEU 相关性分析
--相关性最好的5类检测点
子项目
ce_news
ec_news
检测点
Spearman
Pearson
T:Article
0.6993
0.8259
T:NP
0.7063
0.7903
T:PP
0.6573
0.7877
S:NP
0.6294
S:VP
子项目
检测点
Spearman
Pearson
T:VP
0.9333
0.9717
T:Adv_MOD
0.9167
0.9681
T:Adverb
0.8833
0.9587
0.7606
S:VP
0.8667
0.9535
0.6294
0.7409
S:NP
0.9167
0.9460
S:NP
0.9455
0.9536
T:Prep
0.3714
0.6499
T:VP
0.9545
0.9533
T:PP
0.2000
0.5312
T:NP
0.8545
0.9456
S:Predi_Obj
0.2000
0.4898
S:VP
0.9455
0.9372
S:PP
0.2000
0.4106
S:PP
0.8909
0.9331
S:Prep
0.1429
0.3554
ec_tech
ce_news_
comb
WoodPecker 与 BLEU 相关性分析
--相关性最差的5类检测点
子项目
ec_new
s
ec_tech
检测点
子项目
检测点
Spearman
Pearson
T:Adverb
0.2636
0.2474
T:Verb
-0.1468
-0.0648
T:Pron
0.1454
0.1803
T:Predi_Obj
-0.1538
-0.0659
T:Prep
-0.1727
-0.1114
T:Sub_Predi
-0.0839
-0.1327
T:Quantity
-0.0818
-0.1151
T:Adv_MOD
-0.4195
-0.4012
S:DicPrep
-0.0363
-0.1758
T:Adverb
-0.5244
-0.6043
S:Pron
0.4666
0.5087
T:Adj_MOD
-0.3142
-0.2341
T:Prep
0.1500
0.2674
T:Verb
-0.4285
-0.2484
T:Quantity
0.2333
0.2172
T:Noun
-0.3142
-0.2615
T:Pron
-0.2000
-0.1466
S:Verb
-0.6000
-0.3346
S:DicPrep
-0.3666
-0.2845
S:AmbiWord
-0.5428
-0.3653
ce_news
ce_news
_comb
Spearman
Pearson
评测结果分析
在汉英新闻领域,在源语言的“搭配”、“介词”两个检测点
上,统计翻译系统显示出一定优势:
评测结果分析
在汉英新闻领域,“成语”测试点上,基于规则的系统则表现更
好:
评测结果分析
在英汉新闻领域, “介词”和“词典介词”两个检测点,基于规
则的系统占优:
评测结果分析
在英汉新闻领域,源语言的“数词短语”测试点上,基于规则的
翻译系统结果较好:
评测结果分析
各项目WoodPecker评测中总分前五名的结果显示:在英汉新闻领域,
基于规则的系统在这种基于语言学分类的检测点评测中显示了一定的
优势:
汉英新闻
英汉新闻
英汉科技
汉英新闻
系统融合
5
6
4
10
1
0.2883
0.2835
0.2649
0.263
0.2629
2
1
3
5
7
0.401
0.3987
0.3898
0.3771
0.3596
2
3
4
7
1
0.5044
0.4984
0.4895
0.481
0.478
5
3
2
1
6
0.2887
0.2824
0.2812
0.2686
0.2671
总结和展望
总结:
从准备到结束历时半年,期间细节之繁琐非一个“累”字了得!
所幸评测中的小 “闪失” 都得到了纠正,更有幸都得到了大家的谅解!
改进之处:
更加详尽的评测大纲
增加了科技翻译评测
增加了系统融合评测
引入BLEU-SBP,并进行了显著性检验
引入WoodPecker!
展望:
交流、沟通、进步!
总结和展望
• 下次评测怎么做?
– 项目设置
•
•
•
•
词语对齐?
系统融合?
科技翻译?
其他?
– 训练语料
– 评测指标
– 组织方式
致谢
•
感谢为此次评测提供训练数据的单位,他们是(按拼音顺序排列):
– 北京大学计算语言学研究所
– 哈尔滨工业大学信息检索实验室(无偿)
– 哈尔滨工业大学机器智能与翻译研究室
– 万方数据公司
– 厦门大学
– 中国科学技术信息研究所(无偿)
– 中国科学院计算技术研究所
– 中国科学院自动化研究所
•
感谢为此次评测中提供测试数据的单位,他们是(按拼音顺序排列):
– 中国科学技术信息研究所(无偿)特别感谢!
– 中国科学院计算技术研究所
•
本次WoodPecker评测的全过程中,得到了
微软亚洲研究院自然语言计算组的张冬冬、李沐
的鼎立协助,在此深表感谢!
•
感谢本次评测组织工作的主要承担者付出的艰辛劳动:赵红梅、谢军!
参考文献
•
David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng.
Decomposability of Translation Metrics for Improved Evaluation and Efficient
Algorithms. In Proceedings of the 2008 Conference on Empirical Methods in
Natural Language Processing, pages 610-619, Honolulu, October 2008. ©2008
Association for Computational Linguistics
•
Ming Zhou, Bo Wang, Shujie Liu, Mu Li, Dongdong Zhang, Tiejun Zhao.
Diagnostic Evaluation of Machine Translation Systems Using Automatically
Constructed Linguistic Check-Points. Coling 2008.
•
Natural Language Computing Group, Microsoft Research Asia. Manual for
WoodPecker: A Linguistic Evaluation Platform for MT Systems
http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14a556-d6a7c7919b4a/details.aspx
•
Michael Collins, Philipp Koehn, and Ivona Kuˇcerov´a.2005. Clause restructuring
for statistical machine translation. In Proc. ACL 2005, pages 531–540.
倾听意见和建议
谢谢!