Transcript Document
CWMT2008机器翻译评测 总结报告 中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月 提纲 ● ● ● ● ● ● ● ● 概述 参评单位和参评系统 评测语料 评测流程 评测方法 评测结果 评测结果分析 总结和展望 概述 ● 机器翻译核心技术的评测 ● 目的: 推进机器翻译技术的交流和发展 ● 15个参评单位 ● 2个语种方向(汉英、英汉) ● 两种领域(新闻、科技),其中科技翻译为新增项目 ● 新增了汉英新闻系统融合项目 ● 新增了WoodPecker评测 ● 新增了BLEU-SBP参考指标 参评单位 ● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1 ● 中科院自动化研究所系统2 ● 北京迈创语通软件有限公司 ● 北京赛迪翻译技术有限公司 ● 中国科学院软件研究所 ● 西安汇申软件有限公司 ● 中科院计算技术研究所多语言交互技术研究室 ● 北京航空航天大学计算机学院智能信息处理研究所 ● 微软亚洲研究院 ● 北京工业大学 ● 哈尔滨工业大学机器智能与翻译研究室 ● SYSTRAN Software, Inc 参评单位和系统数量 项目 汉英新闻翻译 受限 不受限 合计 单位 系统 单位 系统 单位 系统 7 13 7 10 汉英新闻系统融合 12 23 6 10 英汉新闻翻译 4 9 8 11 11 20 英汉科技翻译 4 10 6 10 9 20 15 73 合计 评测语料 机器翻语译料 • 训练语料: 新闻、科技公共训练语料:868,947句对; 科技独有训练语料: 620,985句对 其中, 万方数据:320,985句对 中信所语料:300,000句对。 • 6家单位参加了万方数据论文摘要句对齐语料的校对 • 测试语料:新闻语料按照分割日期规定均采自国内外新闻网站; 所有测试集中均混入了3倍的干扰集,真实测试集规模: 机器翻译评测语料 句数 汉字数/单词数 制作单位 汉英新闻翻译汉语语料 1006 41042 计算所 英汉新闻翻译英语语料 1000 21767 计算所 英汉科技翻译英语语料 1008 21339 中信所 评测语料 • 参考译文 每句4个参考译文 4个以目标语言为母语的翻译者独立翻译 新闻的参考译文由计算所制作,科技的参考译文由中信所提供 系统融合语料 • 训练语料 • SSMT2007汉英新闻测试集、参考集和本次评测中10家参评单位提 交的17个系统在SSMT2007汉英新闻真实测试语料上的翻译结果 (共1,002句对) • 测试语料 • 以上17个系统在CWMT2008汉英新闻测试集上的翻译结果。 • 其中,12个系统提交了n-best结果,5个系统提交了1-best结果。 • 参考译文 • 同本次评测汉英新闻翻译项目的参考集 评测流程 • 本次评测采用了网上评测的方式,流程如下: • • • • • 8月31日 评测组织方发放各个项目的训练数据 10月8日 评测组织方发放新闻翻译项目的测试数据 10月10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月13日 评测组织方发放英汉科技翻译项目的测试数据 10月15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统 描述 • 10月20日 评测组织方发放汉英系统融合项目的测试数据 • (即机器翻译项目参评单位提交的运行结果的汇总) • 10月22日 各参评单位提交汉英系统融合项目的测试运行结果和系统 描述 评测方法 • 格式预处理: – 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式; – 此次评测的内部格式更加接近NIST评测格式; – 部分单位提交的结果格式不符合要求; • 解决办法:下次评测提供格式检测程序! • 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。 • 体会:评测中最麻烦的问题莫过于格式和编码 – 统一采用UTF-8编码,但是: – 带编码(如utf-8)的文件在Windows下复制到剪贴板上时(包括使用写字版和 UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如ANSI 编码),从而出现乱码。 – 不能采用utf-8、无BOM编码:因其不识别英镑符号£ 评测方法 • 评测指标: 本次评测采用多种自动评价指标,包括: BLEU、 NIST、GTM、mWER、mPER、ICT • 参考指标: BLEU-SBP:采用修改bp的BLEU WoodPecker:提供基于检测点的评测结果 以上指标均为: – 大小写敏感的 – 中文的评测是基于字的,而不是基于词的 评测方法: BLEU-SBP • 我们发现了BLEU本身存在的问题: • 将测试结果中2%的句子缩短为只有1-2个单词,BLEU值不变! • 用BLEU进行A、B两个结果的显著性差异的符号检验,发现: 评测方法: BLEU-SBP Base BLEU of the base system Contrast Better(%) Worse(%) 置信度 Significant A 0.1964 B 72.07 27.53 0.01 Yes B 0.2407 A 68.6 31.2 A 0.1947 B 61.6 38.0 0.01 Yes B 0.2353 A 32.6 67.0 0.01 Yes No 解决:采用BLEU-SBP指标 (David Chiang et al., 2008) BLEU vs. BLEU-SBP • 两者的最大区别在于bp ( brevity penalty)部分 • 请参考Decomposability of Translation Metrics for Improved Evaluation and Efficient Algorithms, David Chiang, et.al, EMNLP2008 评测方法: BLEU-SBP 汉英新闻12个参评主系统BLEU4与BLEU-SBP结果对比 0.3 0.25 0.2 BLEU4 BLEU4-SBP 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10 11 12 评测方法 • 符号检验: • 在BLEU-SBP的基础上,针对各主系统的翻译结果,进行 了结果之间差异的显著性检验---符号检验 (Collins et al.,2005) • 做法:分别以每个主系统为基准系统,测试了所有其它主 系统与基准系统结果差异的显著性程度,以此构造了所有 主系统翻译结果的差异显著性矩阵。 评测结果:汉英新闻主系统 受限情况 单位 BLEU 4 BLEU4SBP NIST5 GTM mWER mPER ICT 不受限 1 0.2809 0.2631 7.5235 0.7238 0.6824 0.5050 0.3805 不受限 2 0.2390 0.2233 7.8401 0.7039 0.7178 0.5086 0.3388 不受限 3 0.2275 0.2193 7.9180 0.7101 0.7209 0.5085 0.3262 受限 4 0.2264 0.2122 7.6426 0.7128 0.7307 0.5164 0.3352 不受限 5 0.2188 0.2126 7.8713 0.7140 0.7321 0.5102 0.3108 受限 6 0.2051 0.2037 7.3550 0.7207 0.7225 0.5070 0.2631 受限 7 0.2033 0.1901 7.2819 0.6836 0.7262 0.5274 0.3220 受限 8 0.1838 0.1700 6.8184 0.6596 0.7884 0.5676 0.2752 不受限 9 0.1773 0.1767 7.0795 0.7096 0.7121 0.5176 0.2423 受限 10 0.1686 0.1643 7.2578 0.6907 0.7564 0.5432 0.2814 不受限 11 0.1539 0.1529 6.8468 0.6752 0.7394 0.5393 0.2438 受限 12 0.0968 0.0932 5.9160 0.5733 0.8216 0.6179 0.2211 汉英新闻主系统BLEU结果 汉 英 新 闻 主 系 统 汉 英 新 闻 主 系 统 0.2809 1 0.2390 2 3 0.2275 0.2264 4 5 0.2188 0.2051 6 7 0.2033 0.1773 9 10 11 12 0.05 4 6 7 8 10 12 0.1838 8 0.1686 0.1539 0.0968 0.10 0.15 0.20 BLEU-4 0.25 0.30 0.2809 1 2 3 5 9 11 0.2390 0.2275 0.2188 0.1773 不 受 限 0.1539 0.2264 0.2051 受 0.2033 0.1838 0.1686 限 0.0968 0.05 0.10 0.15 0.20 0.25 0.30 BLEU-4 评测结果:英汉新闻主系统 受限情况 单位 BLEU5 BLEU5-SBP BLEU6 NIST6 NIST7 GTM mWER mPER ICT 不受限 1 0.3263 0.3113 0.2652 9.2769 9.2869 0.7582 0.6485 0.4008 0.3941 不受限 2 0.3157 0.3070 0.2542 9.5048 9.5143 0.7754 0.6468 0.4048 0.3603 不受限 3 0.2970 0.2847 0.2349 8.9366 8.9430 0.7556 0.6728 0.4087 0.3865 受限 4 0.2622 0.2526 0.2045 8.2371 8.2434 0.7137 0.6928 0.4416 0.3473 不受限 5 0.2611 0.2579 0.2029 8.8019 8.8083 0.7753 0.6698 0.4139 0.3120 受限 6 0.2532 0.2417 0.1946 8.2184 8.2237 0.7110 0.7215 0.4491 0.3146 不受限 7 0.2413 0.2354 0.1867 8.2081 8.2135 0.7283 0.7133 0.4621 0.2810 受限 8 0.2408 0.2353 0.1838 7.5465 7.5504 0.7101 0.6851 0.4566 0.3564 受限 9 0.2369 0.2233 0.1818 7.9624 7.9670 0.7013 0.7184 0.4735 0.3174 不受限 10 0.2129 0.2084 0.1615 7.8425 7.8460 0.6958 0.7395 0.4842 0.2559 不受限 11 0.1964 0.1947 0.1482 7.4316 7.4359 0.7173 0.7215 0.4771 0.2434 英汉新闻主系统BLEU结果 英 汉 新 闻 主 系 统 英 汉 新 闻 主 系 统 0.3263 1 2 0.3157 0.297 3 4 5 6 7 8 9 0.2611 7 0.25 BLEU-5 0.1964 0.2622 0.2408 8 0.35 限 0.2369 9 0.30 受 0.2532 6 0.1964 受 限 0.2129 4 0.2129 不 0.2413 11 0.2369 0.20 0.2611 10 0.2408 0.15 0.297 3 5 0.2413 11 0.3157 2 0.2622 0.2532 10 0.3263 1 0.15 0.20 0.25 0.30 BLEU-5 0.35 评测结果:英汉科技主系统 受限情况 单位 BLEU5 BLEU5SBP BLEU6 NIST6 NIST7 GTM mWER mPER ICT 不受限 1 0.4879 0.4811 0.4319 11.3272 11.3514 0.8588 0.5185 0.2980 0.4864 不受限 2 0.4718 0.4551 0.4223 10.9460 10.9676 0.8204 0.5665 0.3191 0.4749 受限 3 0.4618 0.4533 0.4028 11.0845 11.1053 0.8497 0.5440 0.3105 0.4692 受限 4 0.4026 0.3853 0.3392 10.3247 10.3379 0.8220 0.5981 0.3550 0.4380 受限 5 0.3743 0.3595 0.3122 9.9192 9.9306 0.8087 0.6173 0.3551 0.4229 不受限 6 0.3651 0.3590 0.3014 10.1106 10.1249 0.8124 0.5726 0.3554 0.4042 受限 7 0.3528 0.3467 0.2887 9.8271 9.8385 0.7993 0.6210 0.3579 0.3739 不受限 8 0.2859 0.2841 0.2243 9.1141 9.1209 0.8087 0.6055 0.3796 0.3342 不受限 9 0.2173 0.2166 0.1653 7.7003 7.7047 0.7452 0.6653 0.4466 0.2476 英汉科技主系统BLEU结果 英 汉 科 技 主 系 统 1 2 3 0.4879 1 0.4879 0.4718 2 0.4718 不 0.4618 4 0.4026 5 6 7 8 9 英 汉 科 技 主 系 统 受 0.2859 8 9 0.3743 0.3651 6 0.2173 限 0.3651 3 0.3528 0.2859 0.30 0.40 BLEU-5 0.3743 5 0.2173 0.20 0.4026 4 7 0.50 0.4618 受 0.3528 限 0.20 0.25 0.30 0.35 0.40 0.45 0.50 BLEU-5 评测结果:汉英新闻系统融合主系统 单位 BLEU4 BLEU4SBP NIST5 GTM mWER mPER ICT 1 0.2944 0.2758 7.7501 0.7319 0.6761 0.4972 0.3920 2 0.2906 0.2683 8.3747 0.7543 0.6785 0.4813 0.3828 3 0.2873 0.2711 8.4634 0.7478 0.6952 0.4838 0.3545 4 0.2721 0.2512 7.4408 0.7219 0.6995 0.5187 0.3794 5 0.2679 0.2560 8.2823 0.7531 0.6986 0.4926 0.3492 6 0.2509 0.2380 8.1013 0.7196 0.7154 0.5005 0.3336 汉英新闻系统融合主系统BLEU结果 汉 英 新 闻 系 统 融 合 0.2944 1 2 0.2906 0.2873 3 4 0.2721 0.2679 5 6 0.2509 0.22 0.23 0.24 0.25 0.26 BLEU-4 0.27 0.28 0.29 0.3 评测结果分析:各主系统所用方法 汉英新闻 英汉新闻 英汉科技 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 11 11 12 以规则方法为主 以统计方法为主 评测结果分析 两种方法在各项目中的平均BLEU对比表明:统计方 法在英汉科技的BLEU得分上优势明显,这一点也可以从 随后的WoodPecker评测结果上看出来。 汉英新闻 BLEU BLEU4 统计 0.2025 规则 0.1862 英汉新闻 BLEU5 0.2694 0.2455 英汉科技 BLEU5 0.4252 0.2894 结论:科技翻译很适合于使用统计机器翻译方法 评测结果分析 • 系统融合的最好结果仅比单系统的最好结 果BLEU值高出1.35个百分点,比预想的要 差得多 • 原因还没有弄明白 评测结果分析 • MSRA在汉英新闻不受限项目上优势明显 • 与去年SSMT2007评测相比,HIT、NEU等 单位进步非常大 • 基于规则的系统表现比想象的好 评测方法: WoodPecker • WoodPecker是微软亚洲研究院开发的基于检测 点的评测工具 – 基于语言学分类的检测工具 – 检测点自动抽取 – 可以提供词级、短语级以及句级的评价指标 • 下载地址: http://research.microsoft.com/research/downloads/details/ad24079 9-a9a7-4a14-a556-6a7c7919b4a/details.aspx WoodPecker: 系统流程 Bilingual testing corpus Parser & Aligner Extra Data Files Bilingual trees & Alignment Linguistic Taxonomy Check-point Extraction Verb Check-points word MT system …… Check-point Database Translations Check-point Evaluation Evaluation of Check-points Evaluation of Category Evaluation of Category Group Noun Check-points Scores Phrase NP Check-points …… Sentenc e “BA” sentence Check-points …… WoodPecker: 相关工具 • 数据预处理 – 中文全/半角转换: A3区全半角转换 A2B – 中文分词: ICTCLAS – 英文首字母大小写转化 Truecase – 英文Tokenization • 词对齐 – GIZA++ • Parsing – Berkeley Parser – Stanford Parser 检测点提取和选择 • 检测点的提取和评测: • 参考译文的预处理方法和对参评系统输出的预处理方法保持一致。 • 基于WoodPecker语言学检测点分类体系,从评测语料中总共提取出了52种汉英检测 点,81种英汉检测点。 • 检测点的选择: – 根据出现频次对检测点类别进行了筛选: • 源语言检测点:出现频次﹥10 • 目标语言检测点:出现频次﹥40 (注: 独立计算每个参考译文中检测点的频次) • 说明: (1)汉英介词同时计入功能词类别和内容词类别.(2)英汉歧义词没有考虑 – 最终选取的检测点类别数目: • 汉英检测点: 46 • 英汉检测点: 58 评测结果:WoodPecker – 汉英新闻主系统 – 英汉新闻主系统 – 英汉科技主系统 – 汉英新闻系统融合 WoodPecker 与 BLEU 相关性分析 (英汉) 项目 ec_ news ec_ tech 检测点 Spearman Pearson General 0.8727 0.9283 G:Words 0.8273 0.8747 G:Phrases 0.8727 0.9340 G:Sentences 0.9182 0.8929 General 0.8000 0.9105 G:Words 0.7167 0.8547 G:Phrases 0.8667 0.9378 G:Sentences 0.6179 0.6179 WoodPecker 与 BLEU 相关性分析 (汉英) 项目 ce_ news ce_ news _comb 检测点 Spearman Pearson General 0.5594 0.7182 G:Words 0.1678 0.4138 G:Phrases 0.6224 0.7425 G:Sentences 0.6923 0.7607 General 0.0857 0.2232 G:Words -0.1429 -0.0828 G:Phrases 0.0857 0.2682 G:Sentences 0.1429 0.3263 WoodPecker 与 BLEU 相关性分析 --相关性最好的5类检测点 子项目 ce_news ec_news 检测点 Spearman Pearson T:Article 0.6993 0.8259 T:NP 0.7063 0.7903 T:PP 0.6573 0.7877 S:NP 0.6294 S:VP 子项目 检测点 Spearman Pearson T:VP 0.9333 0.9717 T:Adv_MOD 0.9167 0.9681 T:Adverb 0.8833 0.9587 0.7606 S:VP 0.8667 0.9535 0.6294 0.7409 S:NP 0.9167 0.9460 S:NP 0.9455 0.9536 T:Prep 0.3714 0.6499 T:VP 0.9545 0.9533 T:PP 0.2000 0.5312 T:NP 0.8545 0.9456 S:Predi_Obj 0.2000 0.4898 S:VP 0.9455 0.9372 S:PP 0.2000 0.4106 S:PP 0.8909 0.9331 S:Prep 0.1429 0.3554 ec_tech ce_news_ comb WoodPecker 与 BLEU 相关性分析 --相关性最差的5类检测点 子项目 ec_new s ec_tech 检测点 子项目 检测点 Spearman Pearson T:Adverb 0.2636 0.2474 T:Verb -0.1468 -0.0648 T:Pron 0.1454 0.1803 T:Predi_Obj -0.1538 -0.0659 T:Prep -0.1727 -0.1114 T:Sub_Predi -0.0839 -0.1327 T:Quantity -0.0818 -0.1151 T:Adv_MOD -0.4195 -0.4012 S:DicPrep -0.0363 -0.1758 T:Adverb -0.5244 -0.6043 S:Pron 0.4666 0.5087 T:Adj_MOD -0.3142 -0.2341 T:Prep 0.1500 0.2674 T:Verb -0.4285 -0.2484 T:Quantity 0.2333 0.2172 T:Noun -0.3142 -0.2615 T:Pron -0.2000 -0.1466 S:Verb -0.6000 -0.3346 S:DicPrep -0.3666 -0.2845 S:AmbiWord -0.5428 -0.3653 ce_news ce_news _comb Spearman Pearson 评测结果分析 在汉英新闻领域,在源语言的“搭配”、“介词”两个检测点 上,统计翻译系统显示出一定优势: 评测结果分析 在汉英新闻领域,“成语”测试点上,基于规则的系统则表现更 好: 评测结果分析 在英汉新闻领域, “介词”和“词典介词”两个检测点,基于规 则的系统占优: 评测结果分析 在英汉新闻领域,源语言的“数词短语”测试点上,基于规则的 翻译系统结果较好: 评测结果分析 各项目WoodPecker评测中总分前五名的结果显示:在英汉新闻领域, 基于规则的系统在这种基于语言学分类的检测点评测中显示了一定的 优势: 汉英新闻 英汉新闻 英汉科技 汉英新闻 系统融合 5 6 4 10 1 0.2883 0.2835 0.2649 0.263 0.2629 2 1 3 5 7 0.401 0.3987 0.3898 0.3771 0.3596 2 3 4 7 1 0.5044 0.4984 0.4895 0.481 0.478 5 3 2 1 6 0.2887 0.2824 0.2812 0.2686 0.2671 总结和展望 总结: 从准备到结束历时半年,期间细节之繁琐非一个“累”字了得! 所幸评测中的小 “闪失” 都得到了纠正,更有幸都得到了大家的谅解! 改进之处: 更加详尽的评测大纲 增加了科技翻译评测 增加了系统融合评测 引入BLEU-SBP,并进行了显著性检验 引入WoodPecker! 展望: 交流、沟通、进步! 总结和展望 • 下次评测怎么做? – 项目设置 • • • • 词语对齐? 系统融合? 科技翻译? 其他? – 训练语料 – 评测指标 – 组织方式 致谢 • 感谢为此次评测提供训练数据的单位,他们是(按拼音顺序排列): – 北京大学计算语言学研究所 – 哈尔滨工业大学信息检索实验室(无偿) – 哈尔滨工业大学机器智能与翻译研究室 – 万方数据公司 – 厦门大学 – 中国科学技术信息研究所(无偿) – 中国科学院计算技术研究所 – 中国科学院自动化研究所 • 感谢为此次评测中提供测试数据的单位,他们是(按拼音顺序排列): – 中国科学技术信息研究所(无偿)特别感谢! – 中国科学院计算技术研究所 • 本次WoodPecker评测的全过程中,得到了 微软亚洲研究院自然语言计算组的张冬冬、李沐 的鼎立协助,在此深表感谢! • 感谢本次评测组织工作的主要承担者付出的艰辛劳动:赵红梅、谢军! 参考文献 • David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng. Decomposability of Translation Metrics for Improved Evaluation and Efficient Algorithms. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 610-619, Honolulu, October 2008. ©2008 Association for Computational Linguistics • Ming Zhou, Bo Wang, Shujie Liu, Mu Li, Dongdong Zhang, Tiejun Zhao. Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points. Coling 2008. • Natural Language Computing Group, Microsoft Research Asia. Manual for WoodPecker: A Linguistic Evaluation Platform for MT Systems http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14a556-d6a7c7919b4a/details.aspx • Michael Collins, Philipp Koehn, and Ivona Kuˇcerov´a.2005. Clause restructuring for statistical machine translation. In Proc. ACL 2005, pages 531–540. 倾听意见和建议 谢谢!