Transcript Document

汉语自动分词—
中文信息处理的一项战略任务
孙茂松
清华大学智能技术与系统国家重点实验室
2004年7月
复旦大学
一个老生常谈、老掉牙的问题?
最简单的语言计算任务,最有可能实用,同时市场呼声最高。
近几年已经取得了长足进步:以北大《人民日报》语料库(或类
似语料库)为训练集。
例:Impact on Text-to-Speech Conversion
Bell Labs Mandarin
Text-to-Speech Synthesis
http://www.bell-labs.com/project/tts/mandarin-gb.html
Segmentation Ambiguity: 项目的
项目/的: de
project/of
项/目的: di
classifier/objective
我是这个项目的负责人。
I am the leader of this project.
他将向英王陛下政府提出与上述各项目的相配合的任何政策。
He will propose to the British government any policy to meet
the above objectives.
例:Impact on Text-to-Speech Conversion
Bell Labs Mandarin
Text-to-Speech Synthesis
我的老板查建泰不同意他弟弟查建国先生的看法。
Zha
Zha(Cha)
My boss Zha Jian-Tai did not agree to the opinion of his younger
brother, Mr Zha Jian-Guo.
华国锋曾任中华人民共和国国务院总理。
Hua4 Ceng(Zeng) Hua1
Hua Guo-Feng is the former premier of the People’s Republic
of China.
ICTCLAS Output
我是这个项目的负责人。
我/r 是/v 这个/r 项目/n 的/u 负责人/n 。/w
他将向英王陛下政府提出与上述各项目的相配合的任何政策。
他/r 将/d 向/p 英/j 王/n 陛下/n 政府/n 提出/v 与/p 上述/b
各/r 项目/n 的/u 相/d 配合/v 的/u 任何/r 政策/n 。/w
ICTCLAS Output
我的老板查建泰不同意他弟弟查建国先生的看法。
我/r 的/u 老板/n 查建泰/nr 不/d 同意/v 他/r 弟弟/n 查建国/nr
先生/n 的/u 看法/n 。/w
华国锋曾任中华人民共和国国务院总理。
华/nr 国锋/nr 曾/d 任/v 中华人民共和国/ns 国务院/nt 总理/n 。
/w
例:Impact on MT: Chinese to English MT
http://www.transtar.com.cn/transtar/chinese/netbar/onlinetrans.asp
我看见邓小平同江泽民打招呼。
Transtar: I see that Deng Xiao-Ping greets with Jiang Ze-Min.
我看见周星驰同张学友打招呼。
Transtar: I see week star Chi open together study friend greet.
从中文搜索引擎反映出来的分词问题
从中文搜索引擎反映出来的分词问题
从图象搜索引擎反映出来的分词问题
从图象搜索引擎反映出来的分词问题
从图象搜索引擎反映出来的分词问题
走向Web: 对分词系统性能的粗略考察
豫园是著名的江南古典园林,全国重点文物保护单位。 豫园
始建于明嘉靖年间,有明代四川布政使潘允端所建,至今已有
400多年的历史。1853年上海小刀会起义时,豫园点春堂曾作
为起义军的城北指挥部,现堂内陈列着当年小刀会的武器、自
铸的钱币,以及发布的文告等文物。解放后政府对豫园进行了
大规模的修缮,1961年正式对外开放。 1987年重建东部,恢
复百余年前故景风姿,新旧诸景相映互彰,融为一体,古园更
臻完美,实为游乐观瞻之极佳去处。现占地30余亩,全园擅江
南园林之胜,有萃秀堂、仰山堂、三穗堂、玉华堂、点春堂、
万花楼、会景楼、快楼、鱼乐榭、大假山等40多处胜景。其中
点春堂为1853年上海小刀会起义的指挥部。“玉华堂”前的
“玉玲珑”假山石是与苏州留园的“瑞云峰”、杭州花圃的
“皱云峰”齐名的江南园林三大奇石之一。 豫园新开设了一
个藏有千奇石雕的展馆——石头城,其观赏价值和人文价值受
到中外游客的青睐。该馆规模之大,奇石之多,为世人罕见。
走向Web: 对分词系统性能的粗略考察
走向Web: 对分词系统性能的粗略考察
专名识别出错最多:点/t 春堂/nr、快/a 楼/n、玉/n 玲珑
/an、皱/v 云/vg 峰/ng、奇石/nr、……
通用词表不够完善:布/n 政/ng 使/v、小刀/n 会/v
组合歧义:三大/j
交集歧义:假山/n 石/ng
词性标注:自/p 铸/v 的/u 钱币/n
构词联想能力差:故/dg 景/vg,古/tg 园/ng
走向Web: 对分词系统性能的粗略考察
金茂大厦位于上海浦东新区陆家嘴金融贸易区黄金地段,与著
名的外滩风景区隔江相望。金茂大厦由中国上海对外贸易中心
股份有限公司投资建造、管理,美国芝加哥SOM建筑事务所设
计。
甫入金茂,气势恢弘的"世界十大名楼集锦"印入眼帘,它展示着
20世纪人类建筑史上最伟大的奇迹;搭乘2倍于直升机爬升速度
的观光电梯直达顶层,令人感受到前所未有的锋速体验;从这
个全上海独一无二的视角远眺,旅游者更能窥见浪漫的云海戏
珠,感慨百年外滩的沧桑烟云,尽览堪称世纪经典的世纪大道
全貌……;如果从观光层内俯瞰酒店中庭,这高152米,直径27
米,比拥有世界最高中庭的圣彼得大教堂更高更宏伟的中庭共
享空间,更是让人感到极目眩晕。乘着盎然的游兴,人们还可
以在这340多米的高空,世界最高的邮政所给亲人朋友寄一张精
美的明信片,送出这来自云间、最浪漫的祝福。
走向Web: 对分词系统性能的粗略考察
走向Web: 对分词系统性能的粗略考察(专业领域)
做空依据:
第一:上行量能不足,市场心态谨慎。大盘连续四个交易
日在1440点附近横盘蓄势,由于经历长期惨跌,大盘在中
期筑底方面必然有一个逐步企稳的过程,而不可能在无重
大利好的情况下,出现短期的大幅拉升,应而在30日线压
制下横盘筑底,将是短期大盘走势的主基调。同时从量能
方面来看,大盘自7月1日长阳拉升后,此后便一直出现一
个缩量盘整的过程,显示投资者追涨信心不足,在市场无
强势热点和强势板块领引的情况下,大盘要在短期内突破
30日线善有难度。
走向Web: 对分词系统性能的粗略考察(专业领域)
走向Web: 对分词系统性能的粗略考察(专业领域)
基本结论:现有的汉语自动分词系统远不能覆盖Web!
中文信息处理当前一项战略任务:研制具有基本覆盖Web能
力的汉语自动分词系统。
必要性:克服制约中文信息处理发展的最大瓶颈(英语文本
的信息处理天然地就在词平面上。而汉语文本起步是在字平面
上,落后英文一个层次。这一个层次的差异是本质上的、全局
性的,如果解决不好,中文信息处理将在整体上永远困顿于低
水平,无法向高级形态发展)。
可能性:难度极大!可能跨越吗?
越来越强大、准确的分词能力(但不可能达到理想境界)
+字
需要新思维
基本基调:面向Web, 基于Web。
“大规模”重新定义:TB级的Corpus
相关的重要研究任务
(1)核心词表(通用词表):尽快形成共识(国家标准)
(2)基于Web和核心词表的分词歧义(覆盖型和交集型)穷
尽式调研。
跨领域的通用分词歧义表
(3)构造各专业领域的基本词表
(4)基于Web和专业领域核心词表的分词歧义(覆盖型和交
集型)穷尽式调研。
各领域的常用分词歧义表
(5)有选择、可信的汉语自动分词策略
对敏感字串,化实体的recognition为范围的detection。对
“雷区”,可以甚至不分词
(6)加强对字串统计性质的研究
(7)分词算法的研究
(8)非技术因素:促进大规模语言计算资源共享平台与机
制的建设。加强公共评测。
相关的重要研究任务
注意:
(1)TB级corpus的性质与GB级corpus的性质可能会有质的
差别。
(2)与ontology的关系
(3)与文本自动分类的关系
(4)研究在互联网环境下自动发现词与词之间关系的算法,
构造覆盖互联网的汉语语义词网。
(5)将自然语言处理、OCR、语音识别等技术融合于基于
内容的图像、视像处理研究中,以显著提高图像和视像的智能
化处理能力。
困惑与呼吁:973 – NSFC面上项目
科学研究上的浮躁 “宁静致远”
Thanks!