第一章中文信息处理概述§1绪言1.1什么是信息控制论创始人维纳(NorbertWiener)认为,信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界而作出协调时与外部环境交换内容的总称。信息论奠基者香农ClauseShannon认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。该论述第一次阐明了信息的功能和用途。什么是信息(续)Informationmaybedefinedasthecharacteristicsoftheoutputofaprocess,thesebeinginformativeabouttheprocessandtheinput.----RobertM.Losee信息是过程输出的特征,这些特征就是输入和处理过程中产生的信息。换句话说,信息可以理解为由过程所生产的特征值或变量。该特征值或变量是代表了输入和过程的信息。1.2什么是信息处理信息处理就是对信息的接收、存储、转化、传送和发布等。信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地;信息的发布就是把信息通过各种表示形式展示出来1.3什么是中文信息处理从广义来说,由我们祖先创立中文开始,就一直在进行;从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理三、什么是中文信息处理计算机中文信息处理:研究我国语言文字的信息处理问题的应用技术,是为了使汉语言文字适应信息社会的需要,在七十年代才发展起来的多学科交叉的综合性学科,它是一种以计算机为主要工具,以语言文字为处理对象的高新技术。计算机本地化的主要途径1.4中文信息处理的途径计算机的中文化通过改造计算机使它适合中文信息的处理中文的计算机化通过改造我国的文字,使它适合计算机的处理1.5中文信息处理和汉字信息处理中文包括我国各民族使用的各种文字。汉字在中文中处于主导地位。中文信息处理包括汉字信息处理。1.6中文信息处理的必要性人类社会进入了信息社会信息的量日益膨胀人工方法处理信息在目前是很困难的计算机为进行大量的信息处理提高了可能我国以中文为信息的主要表示形式计算机必须要能处理中文计算机的本地化需要中文信息处理技术只有计算机的本地化,信息的计算机处理才能在我国推广应用自然语言处理是计算机技术发展的必然方向1.7中文信息处理的发展50年代,103、104计算机的俄汉翻译60年代,汉字电报译码机70年代,我国才系统地研究中文信息处理80年代,中文信息处理的基础研究蓬勃发展90年代,中文信息处理得到广泛应用21世纪,中文信息处理存在挑战和机遇1.8中文信息处理系统的组成硬件计算机硬件字库输入设备输出设备软件系统软件应用软件1.9中文信息处理的内容中文信息处理系统中文应用软件自然语言理解机器翻译自动文摘文本分类信息检索、抽取和过滤基础研究自然输入字库输入法内码Internet的本地化中文嵌入系统电子照排……1.10国际化和本地化国家标准和国际标准不同字符集问题简繁问题操作系统问题如何过渡?1.11电子消费设备的中文化中文嵌入式操作系统字形、字库字库压缩汉字输入§2汉字的属性及其特点字汇字形字频字音字义词汇2.1字汇所谓字汇就是指汉字的集合,字汇量与计算机对文字处理的方式有很大关系甲骨文3000余个东汉许慎《说文解字》9353个清代张玉书《康熙字典》49030个2.1字汇(续)1952年,教育部公布了《常用字表》,其中收录了汉字2000个(包括500个补充用字);1955年,中国文字改革委员会公布了《通用字表(初稿)》,收录汉字5709个;1965年修订后的《印刷通用汉字字形表》,收录汉字6196个;1988年公布的《现代汉语通用字表》收录汉字7000个;对300万字语料的检测结果:2500个常用字的覆盖率为97.97%,1000个常用字的覆盖率为1.51%,3500字合计覆盖率达到99.48%。2.1字汇(续)随着汉字文化和历史的演变,有些字出现了很多异体字,很多字成为“死字”而不再使用2.1字汇(续)70年代末,我国专门成立专家组,确定了计算机中汉字的字符集,其中最常用的是GB2312一级汉字3755个二级汉字3008个辅助集包含16000余个汉字事实证明这个字符集收录的汉字有很多不合理的地方人名、地面用字少旻(min)喆(zhe)赟(yun)动物名用字多鹱鹛鸸鼍ISO10646-2001定义了5万多个汉字2.1字汇(续)䵯䵼䵤䵈䶫龖龘鼄2.2字形汉字是象形文字,其每个字符都具有特定的形状和构造,这是其与各种拼音文字的最大区别目前对汉字字形的分解方法和分解标准尚未统一,现在的字形分解方法大体上可以分为单字、字根、笔画(笔形)和形素四个层次2.2字形(续)单字单字分成多种结构类型,大体上可以分为独体型、上下结构型、左右结构型和内外结合型四种如果对单字结构进行更精细的划分,可以分为如下十二种:2.2字形(续)左右“朋”左中右“彻”上下“吕”上中下“意”全包围“国”右开口“区”上开口“函”下开口“向”左下开口“句”右上开口“达”右下开口“库”重叠“巫”2.2字形(续)字根字根是组成单字的基本结构单元,它本身由笔画组成。它的基本要求是组字能力强,组成的单字字形匀称目前实际常用的字根为100-300个一般常用的偏旁部首都被选择为字根字根的划分不是绝对的,目前还没有相关的强制性标准,只有指导性标准例如:土旦王2.2字形(续)笔画(笔形)齉爨龘36画30画48画每一次从落笔到提笔,便构成一个笔画一个笔画所形成的轨迹就是笔形2.2字形(续)汉字常用的笔形有五种横、竖、撇、捺、折各种笔形在汉字中使用的频度为:横28%竖18%撇15%捺13%折17%其他19%札2.2字形(续)汉字笔画数最少的仅1画多的可达30余画少数可达60画以上平均每字约11画2.3字频汉字有五、六万个,一般的人仅掌握三千到五千个常用汉字,不会出现文字交流的障碍吗?统计结果表明使用频度最高的164个汉字占汉字使用频度的50%1000个汉字占汉字使用频度的90.4%2500个汉字占汉字使用频度的97.97%????个汉字占汉字使用频度的99.00%2.3字频(续)政治文化新闻科技综合编号字频度字频度字频度字频度字频度1的0.0536的0.0324的0.0375的0.0320的0.03842是0.0165一0.0218一0.0132一0.0097一0.01253一0.0136了0.0196了0.0120在0.0092是0.00984在0.0115不0.0165和0.0086用0.0079在0.00955这0.0109是0.0141在0.0086有0.0073了0.00826主0.0108说0.0130人0.0083是0.0070不0.00817不0.0101他0.0130大0.0083不0.0069和0.00758和0.0098这0.0119主0.0083中0.0066有0.00692.3字频(续)字频有明显的局部性字频统计的结果与字频统计时使用的文本的性质有关字频也有一定的时间性在不同的历史时期同一历史时期的不同阶段,某些特定字的使用频度可能会出现较大的波动例如:镕2.4字音汉字是单音节文字早期汉字读音标记法:直音、反切和注音字符。直音法是用一个汉字给另一个汉字注音,例如。“厶,音司”。反切法是用两个汉字给另外一个汉字注音,如“鲁,郎古切”,“浪”是反切上上字,与被注音字“鲁”的声母相同,“古”是反切下字,与被注音字“鲁”的韵母和声调相同。注音字符包括了注音符号和拼音符号。注音符号创建于五四运动前后,它对汉字注音和推广国语起到很好的作用。目前台湾地区还在继续使用。汉字注音法也有多种,包括:威妥玛式方案、国语罗马字拼音法、北方话拉丁化新文字和《汉语拼音方案》等。2.4字音(续)《汉语拼音方案》是20世纪50年代制定出来的一个汉字标音系统。它用26个西文字母作为拼音字母,用21个声母、35个韵母、4声调以及1个隔音符来记录汉语和标注汉字。2.4字音(续)绝大多数的汉字音节由一个辅音音素和一个(或多个)元音音素构成现代汉语有417个基本音节加上阴平、阳平、上声、去声、轻声五个声调,共有约1330个音节2.4字音(续)六万多个汉字一共1330种读音,所以,汉语中同音字是很多的就GB2312收录的6763个汉字而言没有同音字的读音有25个如:佛给能您耨暖日森僧贼抓同音字最多的读音是yi4(55个)由于一般的人掌握一千多个常用汉字是没有困难的,所以,出现了用常用字注音的方法,非常实用。例如:赟同晕或赟同云(阴平)2.4字音(续)在汉语中除了一音多字现象以外,还有一字多音的现象就GB2312收录的6763个汉字而言其中多音字有866个,占12.8%2.5字义字义是汉字属性中最复杂的属性,对字义很难做客观的量化汉字原来是一种望文生义的文字,汉字的形与义之间有着千丝万缕的联系2.5字义(续)现在一个汉字并不只是一个字义,据统计,一个汉字平均约有四个字义。所以,现代汉语中汉字的表义能力明显下降,尤其是简化汉字車-车汉字的字义往往和上下文环境密切相关,由此上升为语义跑(跑步)(逃跑)汉字的字义还会影响汉字的读音翟(zhai2)(di2)2.6词汇词汇是语言中所有的词和短语的总和。词是由语素构成,是句子中最小的能够独立运用的语言单位。单音节语素在书面上用单个的汉字书写。古汉语中由一个单音节语素构成的词占绝对优势,所以书面上基本一个汉字也就是一个词(只有极少数连绵词例外)。这就形成了汉字连篇书写的传统。20世纪20年代开始,文章开始分段,并使用新式标点符号,不再连篇书写,基本上为按句连写。2.6词汇(续)汉语中的词有词根和词缀词根是指意义实在、在合成内的位置不固定的粘着语素和自由语素;自由语素则是指能够独立成词的语素,例如:“水、木、金、心、火”等。自由语素能够单独成词,也可以与其他语素组合成词粘着语素是指不能单独构成词的语素,例如:“民、伟、丰、型”等。粘着语素必须跟别的语素组成词。词缀是指意义不实在、在合成词内位置固定在前或后的粘着语素。例如,“筷子”中的“筷”是词根语素,“子”是词缀语素。2.6词汇(续)汉语中由一个语素构成的词叫做单纯词,由两个或两个以上语素构成的词称为合成词。单纯词包含一个语素构成的词(例如,“人、走、红、天”等)双音节连绵词(例如,“鸳鸯、垃圾、葡萄、琳琅、吩咐”等)音译词(例如,“沙发、咖啡、巧克力、巴黎、逻辑”等)译自少数民族的地名(例如,“哈尔滨、呼和浩特、吐鲁番”等)。2.6词汇(续)合成词包括三类:重叠、附加和复合重叠式的词是由两个相同的词根相叠构成的词,例如:哥哥、姐姐、刚刚、星星、整整齐齐等;附加式的词是由词根和词缀构成。词缀在词根之前称为前缀,在词根之后则称后缀,,前加式(前缀+词根):老虎、老乡,阿姨、阿毛,微处理器、微笑后加式(词根+后缀):刀子、饼子、胖子、桌子,石头、木头、苦头,作者、读者、科技工作者、唯物主义者,芦花、规范化、现代化复合式词是由两个或两个以上词根成分组成的附加式合成词。汉语复合词的内部结构基本上是和句法结构一致的,有主谓、述宾、补充、偏正、联合等,例如,年轻、民主、自动,司机、站岗、美容,提供、推广、改进,气功、腾飞、火红,体制、开关、质量,等等。2.7语境语境是语言单位出现时的环境。一般分为上下文语境和情景语境。词、短语、句子等在文本中出现时,它前面或后面出现的其他语言单位都是该单位的上