Transcript Document
汉语自动分词— 中文信息处理的一项战略任务 孙茂松 清华大学智能技术与系统国家重点实验室 2004年7月 复旦大学 一个老生常谈、老掉牙的问题? 最简单的语言计算任务,最有可能实用,同时市场呼声最高。 近几年已经取得了长足进步:以北大《人民日报》语料库(或类 似语料库)为训练集。 例:Impact on Text-to-Speech Conversion Bell Labs Mandarin Text-to-Speech Synthesis http://www.bell-labs.com/project/tts/mandarin-gb.html Segmentation Ambiguity: 项目的 项目/的: de project/of 项/目的: di classifier/objective 我是这个项目的负责人。 I am the leader of this project. 他将向英王陛下政府提出与上述各项目的相配合的任何政策。 He will propose to the British government any policy to meet the above objectives. 例:Impact on Text-to-Speech Conversion Bell Labs Mandarin Text-to-Speech Synthesis 我的老板查建泰不同意他弟弟查建国先生的看法。 Zha Zha(Cha) My boss Zha Jian-Tai did not agree to the opinion of his younger brother, Mr Zha Jian-Guo. 华国锋曾任中华人民共和国国务院总理。 Hua4 Ceng(Zeng) Hua1 Hua Guo-Feng is the former premier of the People’s Republic of China. ICTCLAS Output 我是这个项目的负责人。 我/r 是/v 这个/r 项目/n 的/u 负责人/n 。/w 他将向英王陛下政府提出与上述各项目的相配合的任何政策。 他/r 将/d 向/p 英/j 王/n 陛下/n 政府/n 提出/v 与/p 上述/b 各/r 项目/n 的/u 相/d 配合/v 的/u 任何/r 政策/n 。/w ICTCLAS Output 我的老板查建泰不同意他弟弟查建国先生的看法。 我/r 的/u 老板/n 查建泰/nr 不/d 同意/v 他/r 弟弟/n 查建国/nr 先生/n 的/u 看法/n 。/w 华国锋曾任中华人民共和国国务院总理。 华/nr 国锋/nr 曾/d 任/v 中华人民共和国/ns 国务院/nt 总理/n 。 /w 例:Impact on MT: Chinese to English MT http://www.transtar.com.cn/transtar/chinese/netbar/onlinetrans.asp 我看见邓小平同江泽民打招呼。 Transtar: I see that Deng Xiao-Ping greets with Jiang Ze-Min. 我看见周星驰同张学友打招呼。 Transtar: I see week star Chi open together study friend greet. 从中文搜索引擎反映出来的分词问题 从中文搜索引擎反映出来的分词问题 从图象搜索引擎反映出来的分词问题 从图象搜索引擎反映出来的分词问题 从图象搜索引擎反映出来的分词问题 走向Web: 对分词系统性能的粗略考察 豫园是著名的江南古典园林,全国重点文物保护单位。 豫园 始建于明嘉靖年间,有明代四川布政使潘允端所建,至今已有 400多年的历史。1853年上海小刀会起义时,豫园点春堂曾作 为起义军的城北指挥部,现堂内陈列着当年小刀会的武器、自 铸的钱币,以及发布的文告等文物。解放后政府对豫园进行了 大规模的修缮,1961年正式对外开放。 1987年重建东部,恢 复百余年前故景风姿,新旧诸景相映互彰,融为一体,古园更 臻完美,实为游乐观瞻之极佳去处。现占地30余亩,全园擅江 南园林之胜,有萃秀堂、仰山堂、三穗堂、玉华堂、点春堂、 万花楼、会景楼、快楼、鱼乐榭、大假山等40多处胜景。其中 点春堂为1853年上海小刀会起义的指挥部。“玉华堂”前的 “玉玲珑”假山石是与苏州留园的“瑞云峰”、杭州花圃的 “皱云峰”齐名的江南园林三大奇石之一。 豫园新开设了一 个藏有千奇石雕的展馆——石头城,其观赏价值和人文价值受 到中外游客的青睐。该馆规模之大,奇石之多,为世人罕见。 走向Web: 对分词系统性能的粗略考察 走向Web: 对分词系统性能的粗略考察 专名识别出错最多:点/t 春堂/nr、快/a 楼/n、玉/n 玲珑 /an、皱/v 云/vg 峰/ng、奇石/nr、…… 通用词表不够完善:布/n 政/ng 使/v、小刀/n 会/v 组合歧义:三大/j 交集歧义:假山/n 石/ng 词性标注:自/p 铸/v 的/u 钱币/n 构词联想能力差:故/dg 景/vg,古/tg 园/ng 走向Web: 对分词系统性能的粗略考察 金茂大厦位于上海浦东新区陆家嘴金融贸易区黄金地段,与著 名的外滩风景区隔江相望。金茂大厦由中国上海对外贸易中心 股份有限公司投资建造、管理,美国芝加哥SOM建筑事务所设 计。 甫入金茂,气势恢弘的"世界十大名楼集锦"印入眼帘,它展示着 20世纪人类建筑史上最伟大的奇迹;搭乘2倍于直升机爬升速度 的观光电梯直达顶层,令人感受到前所未有的锋速体验;从这 个全上海独一无二的视角远眺,旅游者更能窥见浪漫的云海戏 珠,感慨百年外滩的沧桑烟云,尽览堪称世纪经典的世纪大道 全貌……;如果从观光层内俯瞰酒店中庭,这高152米,直径27 米,比拥有世界最高中庭的圣彼得大教堂更高更宏伟的中庭共 享空间,更是让人感到极目眩晕。乘着盎然的游兴,人们还可 以在这340多米的高空,世界最高的邮政所给亲人朋友寄一张精 美的明信片,送出这来自云间、最浪漫的祝福。 走向Web: 对分词系统性能的粗略考察 走向Web: 对分词系统性能的粗略考察(专业领域) 做空依据: 第一:上行量能不足,市场心态谨慎。大盘连续四个交易 日在1440点附近横盘蓄势,由于经历长期惨跌,大盘在中 期筑底方面必然有一个逐步企稳的过程,而不可能在无重 大利好的情况下,出现短期的大幅拉升,应而在30日线压 制下横盘筑底,将是短期大盘走势的主基调。同时从量能 方面来看,大盘自7月1日长阳拉升后,此后便一直出现一 个缩量盘整的过程,显示投资者追涨信心不足,在市场无 强势热点和强势板块领引的情况下,大盘要在短期内突破 30日线善有难度。 走向Web: 对分词系统性能的粗略考察(专业领域) 走向Web: 对分词系统性能的粗略考察(专业领域) 基本结论:现有的汉语自动分词系统远不能覆盖Web! 中文信息处理当前一项战略任务:研制具有基本覆盖Web能 力的汉语自动分词系统。 必要性:克服制约中文信息处理发展的最大瓶颈(英语文本 的信息处理天然地就在词平面上。而汉语文本起步是在字平面 上,落后英文一个层次。这一个层次的差异是本质上的、全局 性的,如果解决不好,中文信息处理将在整体上永远困顿于低 水平,无法向高级形态发展)。 可能性:难度极大!可能跨越吗? 越来越强大、准确的分词能力(但不可能达到理想境界) +字 需要新思维 基本基调:面向Web, 基于Web。 “大规模”重新定义:TB级的Corpus 相关的重要研究任务 (1)核心词表(通用词表):尽快形成共识(国家标准) (2)基于Web和核心词表的分词歧义(覆盖型和交集型)穷 尽式调研。 跨领域的通用分词歧义表 (3)构造各专业领域的基本词表 (4)基于Web和专业领域核心词表的分词歧义(覆盖型和交 集型)穷尽式调研。 各领域的常用分词歧义表 (5)有选择、可信的汉语自动分词策略 对敏感字串,化实体的recognition为范围的detection。对 “雷区”,可以甚至不分词 (6)加强对字串统计性质的研究 (7)分词算法的研究 (8)非技术因素:促进大规模语言计算资源共享平台与机 制的建设。加强公共评测。 相关的重要研究任务 注意: (1)TB级corpus的性质与GB级corpus的性质可能会有质的 差别。 (2)与ontology的关系 (3)与文本自动分类的关系 (4)研究在互联网环境下自动发现词与词之间关系的算法, 构造覆盖互联网的汉语语义词网。 (5)将自然语言处理、OCR、语音识别等技术融合于基于 内容的图像、视像处理研究中,以显著提高图像和视像的智能 化处理能力。 困惑与呼吁:973 – NSFC面上项目 科学研究上的浮躁 “宁静致远” Thanks!