汉语自动分词—中文信息处理的一项战略任务孙茂松清华大学智能技术与系统国家重点实验室2004年7月复旦大学一个老生常谈、老掉牙的问题?最简单的语言计算任务,最有可能实用,同时市场呼声最高。近几年已经取得了长足进步:以北大《人民日报》语料库(或类似语料库)为训练集。例:ImpactonText-to-SpeechConversion:项目的我是这个项目的负责人。Iamtheleaderofthisproject.项目/的:de项/目的:diproject/ofclassifier/objective他将向英王陛下政府提出与上述各项目的相配合的任何政策。HewillproposetotheBritishgovernmentanypolicytomeettheaboveobjectives.华国锋曾任中华人民共和国国务院总理。Hua4Ceng(Zeng)Hua1HuaGuo-FengistheformerpremierofthePeople’sRepublicofChina.我的老板查建泰不同意他弟弟查建国先生的看法。ZhaZha(Cha)MybossZhaJian-Taididnotagreetotheopinionofhisyoungerbrother,MrZhaJian-Guo.BellLabsMandarinText-to-SpeechSynthesis例:ImpactonText-to-SpeechConversionICTCLASOutput我是这个项目的负责人。我/r是/v这个/r项目/n的/u负责人/n。/w他将向英王陛下政府提出与上述各项目的相配合的任何政策。他/r将/d向/p英/j王/n陛下/n政府/n提出/v与/p上述/b各/r项目/n的/u相/d配合/v的/u任何/r政策/n。/wICTCLASOutput我的老板查建泰不同意他弟弟查建国先生的看法。我/r的/u老板/n查建泰/nr不/d同意/v他/r弟弟/n查建国/nr先生/n的/u看法/n。/w华国锋曾任中华人民共和国国务院总理。华/nr国锋/nr曾/d任/v中华人民共和国/ns国务院/nt总理/n。/w例:ImpactonMT:ChinesetoEnglishMT我看见邓小平同江泽民打招呼。Transtar:IseethatDengXiao-PinggreetswithJiangZe-Min.我看见周星驰同张学友打招呼。Transtar:IseeweekstarChiopentogetherstudyfriendgreet.从中文搜索引擎反映出来的分词问题从中文搜索引擎反映出来的分词问题从图象搜索引擎反映出来的分词问题从图象搜索引擎反映出来的分词问题从图象搜索引擎反映出来的分词问题走向Web:对分词系统性能的粗略考察豫园是著名的江南古典园林,全国重点文物保护单位。豫园始建于明嘉靖年间,有明代四川布政使潘允端所建,至今已有400多年的历史。1853年上海小刀会起义时,豫园点春堂曾作为起义军的城北指挥部,现堂内陈列着当年小刀会的武器、自铸的钱币,以及发布的文告等文物。解放后政府对豫园进行了大规模的修缮,1961年正式对外开放。1987年重建东部,恢复百余年前故景风姿,新旧诸景相映互彰,融为一体,古园更臻完美,实为游乐观瞻之极佳去处。现占地30余亩,全园擅江南园林之胜,有萃秀堂、仰山堂、三穗堂、玉华堂、点春堂、万花楼、会景楼、快楼、鱼乐榭、大假山等40多处胜景。其中点春堂为1853年上海小刀会起义的指挥部。“玉华堂”前的“玉玲珑”假山石是与苏州留园的“瑞云峰”、杭州花圃的“皱云峰”齐名的江南园林三大奇石之一。豫园新开设了一个藏有千奇石雕的展馆——石头城,其观赏价值和人文价值受到中外游客的青睐。该馆规模之大,奇石之多,为世人罕见。走向Web:对分词系统性能的粗略考察走向Web:对分词系统性能的粗略考察专名识别出错最多:点/t春堂/nr、快/a楼/n、玉/n玲珑/an、皱/v云/vg峰/ng、奇石/nr、……通用词表不够完善:布/n政/ng使/v、小刀/n会/v组合歧义:三大/j交集歧义:假山/n石/ng词性标注:自/p铸/v的/u钱币/n构词联想能力差:故/dg景/vg,古/tg园/ng走向Web:对分词系统性能的粗略考察金茂大厦位于上海浦东新区陆家嘴金融贸易区黄金地段,与著名的外滩风景区隔江相望。金茂大厦由中国上海对外贸易中心股份有限公司投资建造、管理,美国芝加哥SOM建筑事务所设计。甫入金茂,气势恢弘的世界十大名楼集锦印入眼帘,它展示着20世纪人类建筑史上最伟大的奇迹;搭乘2倍于直升机爬升速度的观光电梯直达顶层,令人感受到前所未有的锋速体验;从这个全上海独一无二的视角远眺,旅游者更能窥见浪漫的云海戏珠,感慨百年外滩的沧桑烟云,尽览堪称世纪经典的世纪大道全貌……;如果从观光层内俯瞰酒店中庭,这高152米,直径27米,比拥有世界最高中庭的圣彼得大教堂更高更宏伟的中庭共享空间,更是让人感到极目眩晕。乘着盎然的游兴,人们还可以在这340多米的高空,世界最高的邮政所给亲人朋友寄一张精美的明信片,送出这来自云间、最浪漫的祝福。走向Web:对分词系统性能的粗略考察走向Web:对分词系统性能的粗略考察(专业领域)做空依据:第一:上行量能不足,市场心态谨慎。大盘连续四个交易日在1440点附近横盘蓄势,由于经历长期惨跌,大盘在中期筑底方面必然有一个逐步企稳的过程,而不可能在无重大利好的情况下,出现短期的大幅拉升,应而在30日线压制下横盘筑底,将是短期大盘走势的主基调。同时从量能方面来看,大盘自7月1日长阳拉升后,此后便一直出现一个缩量盘整的过程,显示投资者追涨信心不足,在市场无强势热点和强势板块领引的情况下,大盘要在短期内突破30日线善有难度。走向Web:对分词系统性能的粗略考察(专业领域)走向Web:对分词系统性能的粗略考察(专业领域)基本结论:现有的汉语自动分词系统远不能覆盖Web!中文信息处理当前一项战略任务:研制具有基本覆盖Web能力的汉语自动分词系统。必要性:克服制约中文信息处理发展的最大瓶颈(英语文本的信息处理天然地就在词平面上。而汉语文本起步是在字平面上,落后英文一个层次。这一个层次的差异是本质上的、全局性的,如果解决不好,中文信息处理将在整体上永远困顿于低水平,无法向高级形态发展)。可能性:难度极大!可能跨越吗?越来越强大、准确的分词能力(但不可能达到理想境界)+字需要新思维基本基调:面向Web,基于Web。“大规模”重新定义:TB级的Corpus相关的重要研究任务(1)核心词表(通用词表):尽快形成共识(国家标准)(2)基于Web和核心词表的分词歧义(覆盖型和交集型)穷尽式调研。跨领域的通用分词歧义表(3)构造各专业领域的基本词表(4)基于Web和专业领域核心词表的分词歧义(覆盖型和交集型)穷尽式调研。各领域的常用分词歧义表(5)有选择、可信的汉语自动分词策略对敏感字串,化实体的recognition为范围的detection。对“雷区”,可以甚至不分词(6)加强对字串统计性质的研究(7)分词算法的研究(8)非技术因素:促进大规模语言计算资源共享平台与机制的建设。加强公共评测。相关的重要研究任务注意:(1)TB级corpus的性质与GB级corpus的性质可能会有质的差别。(2)与ontology的关系(3)与文本自动分类的关系(4)研究在互联网环境下自动发现词与词之间关系的算法,构造覆盖互联网的汉语语义词网。(5)将自然语言处理、OCR、语音识别等技术融合于基于内容的图像、视像处理研究中,以显著提高图像和视像的智能化处理能力。困惑与呼吁:973–NSFC面上项目科学研究上的浮躁“宁静致远”Thanks!