1(52)3.5文字的表示及处理主要内容:西文字符编码汉字编码汉字的输入和输出文本处理文字的表示及处理2(52)1.ASCII码ASCII码,即美国标准信息交换码(AmericanStandardCodeforInformationInterchange),使用7个二进位对字符进行编码。一、西文字符编码文字的表示及处理3(52)基本的ASCII字符集共有128个字符95个可打印字符(常用字母、数字、标点符号)33个控制字符(不可直接显示或打印)特殊字符的ASCII码空格(32)、A(65)、a(97)、0(48)下面为ASCII代码表:文字的表示及处理4(52)标准ASCII字符集及其码表b6b5b4b3b2b1b0012345670123456789ABCDEFb6b5b4b3b2b1b001101001101011控制字符文字的表示及处理5(52)0123456789ABCDEF控制字符01234567b3b2b1b0b6b5b4文字的表示及处理6(52)每个字符用标准规定的7位二进制数表示,在机内占一个字节(最高位为0)。如:字符“A”的ASCII码为:字符“0”的ASCII码为:(00110000)2或(48)10、(60)8、(30)16(01000001)2或(65)10、(101)8、(41)16文字的表示及处理7(52)要求:1.会比较ASCII字符的大小(按其ASCII码值)空格<0~9<A~Z<a~z2.会推算同组字符ASCII码值如A的ASCII值(十进制)为65,则B、C…的ASCII值分别为66、67…文字的表示及处理8(52)定义方式:用8位二进制数位表示一个字符的扩充二-十进制交换码.特点:每个字符对应一个字节,共256种说明:有很多编码没有使用,保留做为扩充2.EBCDIC码文字的表示及处理9二、汉字编码1981年,国家标准局颁布了《信息交换用汉字编码字符集-基本集》(GB2312-80)(国标码)。组成:(1)第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)1.GB2312-80汉字编码文字的表示及处理10(52)(2)第二部分:一级常用汉字,共3755个,按汉语拼音排列(3)第三部分:二级常用汉字,共3008个,按偏旁部首排列汉字共6763个字符共7445个文字的表示及处理11(52)一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字或符号都有一个确定位置,该位置的区号和位号就是这个汉字的“区位码”1.GB2312-80汉字编码GB2312-80字符集文字的表示及处理12(52)区位码:GB2312-80是一个二维代码表,有94行、94列,汉字在代码表中的位置用它所处的行号、列号表示。行号区号列号位号1.GB2312-80汉字编码文字的表示及处理13(52)例如:“大”字的区号20,位号83,区位码是2083用2个字节表示为:000101000101001183列20行大文字的表示及处理14(52)国标交换码(国标码):问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。解决方案:为了避免汉字区位码与通信控制码的冲突,每个汉字的区号和位号必须分别加上32。得到的代码称为汉字的“国标交换码”1.GB2312-80汉字编码文字的表示及处理15(52)例如:“大”字的区号20,位号83区位码:2083国标交换码:52115(+32)二进制表示为:0001010001010011二进制表示为:0011010001110011文字的表示及处理16(52)机内码:问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。解决方法:使表示GB2312汉字的两个字节的最高位(b7)都置为“1”。这种汉字编码,称为GB2312汉字的“机内码”。1.GB2312-80汉字编码文字的表示及处理17(52)例如:“大”字区位码:2083二进制表示为:0001010001010011国标交换码:52115(+32)二进制表示为:0011010001110011机内码:180243(+128)二进制表示为:1011010011110011(B4F3)区位码+32=国标码国标码+128=机内码文字的表示及处理18(52)问题:GB2312-80只有6763个汉字,使用时功能不够。解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。组成:共收入21886个汉字和图形符号(21003个汉字,883个图形符号)2.GBK汉字内码扩展规范文字的表示及处理19(52)GBK编码区分三个部分:汉字区(21003个汉字)、图形符号区、用户自定义区GBK每一个字符都采用双字节表示总体编码范围为:8140H—FEFEH,共23940个码位;首字节范围:81H—FEH(二进制最高位为1);尾字节范围:40H—FEH(二进制最高位可以为0或1);GBK汉字内码扩充规范文字的表示及处理20(52)目的:统一的多文本处理环境,实现所有字符在同一字符集中统一编码途径:UCS:ISO/IEC10646(通用多8位编码字符集)Unicode:统一码或联合码,与UCS完全等同的工业标准优点:编码空间极大(4个字节),能容纳足够多的各种字符集(13亿字符)3.UCS/Unicode汉字编码文字的表示及处理21(52)缺点:4字节的字符编码使存储空间浪费严重克服:UCS-2是双字节编码,共有字符49194个,其中包括:欧洲及中东地区使用的拉丁字母、音节文字各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号中、日、韩(CJK)统一编码的汉字文字的表示及处理22(52)GB18030-2000编码标准在GB2312和GBK编码标准的基础上进行了扩充,采用单字节、双字节和四字节三种方式对字符编码,因此该标准的汉字有27000多个。包括全部中、日、韩统一字符集和CJK汉字扩充的所有字符。4.GB18030-2000编码文字的表示及处理23(52)BIG5码是台湾、香港等地使用的汉字繁体的编码标准,它用双字节进行编码。BIG5收录了13461个汉字和符号。5.BIG5编码文字的表示及处理24(52)几种汉字编码的对比GBK00FF00FF20902汉字00FF00FF6763汉字GB231200FF00FF27484汉字GB18030GB2312GBKGB18030UCS-2(Unicode)6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)27000多汉字(包括GBK汉字和CJK及其扩充中的汉字)2万多汉字双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示(UTF-8编码)1字节、2字节、3字节等不等长编码编码不兼容!保持向下兼容文字的表示及处理25(52)人工输入:通过键盘、手写笔或语音输入方式输入字符自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码三、汉字的输入输出1.汉字输入文字的表示及处理26(52)文本信息的输入人工输入自动识别输入键盘输入联机手写输入语音输入印刷体识别手写体识别文字的表示及处理27(52)键盘输入编码:汉字字数很多,无法与键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就需要对汉字进行编码。(1)键盘输入文字的表示及处理28(52)汉字输入编码的分类拼音编码:如:智能ABC,紫光拼音缺点:同音字引起的重码多,需增加选择操作字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如:五笔字形法和表形码等缺点:编码规则不易掌握文字的表示及处理29(52)联机手写汉字识别系统构成输入、预处理、特征提取、分类、后处理、输出需求的配件:专用的书写板和笔(2)联机手写汉字识别(笔输入)文字的表示及处理30(52)工作过程:在书写板上书写,书写板将笔尖的运动按时间采样,发送到计算机中,由软件进行识别,然后用该汉字(或符号)对应的代码进行保存。例如:汉王笔正识率95℅~90℅,速度12字/秒文字的表示及处理31(52)目的:使计算机具有人的听觉,是模式识别的分支语音识别的分类(按照不同的应用及要求):孤立词/连接词/连续语音识别小词汇量/中词汇/大词汇量语音识别特定人/限定人/非特定人语音识别最高目标:非特定人大词汇量的连续语音识别技术(3)汉字语音识别文字的表示及处理32(52)脱机文字识别:对已经印刷或写完的文字进行识别,自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(OpticalCharacterRecognition)。分类:印刷体OCR和手写体OCR(4)脱机文字识别文字的表示及处理33(52)汉字键盘输入方法的比较类型原理举例优点缺点数字编码使用一串数字来表示汉字电报码区位码仅使用10个数字键难记忆字音编码把汉语的拼音作为汉字的输入编码智能ABC紫光微软拼音输入简单易学,适合于非专业人员重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用字形编码把汉字的部件或笔画作为码元,按照汉字结构及其切分规则作为编码依据,确定每个汉字的输入代码五笔字形表形码郑码重码少、输入速度较快,适合于专业录入员、打字员使用缺乏统一的规范,编码规则不易掌握音形编码(或形音编码)采用字音及字形两种属性作为码元的汉字编码输入方法粤音输入法同上同时要掌握音、形两种取码方法或规则,对普通用户比较困难文字的表示及处理34(52)汉字的输出过程:输出机器内部的汉字编码,需要根据汉字编码对应的汉字字型码进行解释,生成映像,最后再传送到显示器或打印机输出。机内汉字编码字型码打印输出(显示器/打印机)2.汉字输出文字的表示及处理35(52)汉字字型码:用于汉字在显示器或者打印机上输出.汉字字型码表示形式分类:点阵表示形式矢量表示形式文字的表示及处理36(52)汉字字型表示形式:汉字字型码用点阵表示16*16(占32个字节)、24*24、48*48等汉字矢量表示存储描述汉字轮廓特征的信息。如:Windows中TrueType技术即为该表示形式。轮廓描述轮廓点直线二次曲线点阵描述文字的表示及处理37(52)字型库:简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。文字的表示及处理38(52)文本编辑的主要功能(了解)对字、词、句、段落进行添加、删除、修改等操作字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等三、文本编辑1.文本的编辑文字的表示及处理39(52)段落的处理:设置行距、段间距、段缩进、对称方式等页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等“所见即所得”(WhatYouSeeIsWhatYouGet,简称WYSIWYG)文字的表示及处理40(52)文本处理内容:字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换2.文本的处理文字的表示及处理41(52)文本压缩,文本加密,文本著作权保护关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等2.文本的处理文字的表示及处