第五章数字媒体及应用【知识点1】文本(text):是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,字符在计算机中采用二进制编码表示。文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等。【知识点2】字符的编码1)西文字符的编码由拉丁字母、数字、标点符号及一些特殊符号组成。字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。2)ASCII字符集和ASCII码美国标准信息交换码(AmericanStandardCodeforInformationInterchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。基本的ASCII字符集共有128个字符:96个可打印字符(常用字母、数字、标点符号等)32个控制字符特殊字符的ASCII码空格(32)A(65)a(97)0(48)3)扩充ASCII字符集标准ASCII码是七位的编码,但最高位一般为“0”,在数据传输时可用作奇偶校验位。扩充ASCII字符集:高位为1的8位代码(十进制数128~255),称为扩展ASCII码。4)汉字的编码(1)GB2312-80汉字编码《信息交换用汉字编码字符集·基本集》(GB2312-80)•组成:–第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)–第二部分:一级常用汉字,共3755个,按汉语拼音排列–第三部分:二级常用字,共3008个,按偏旁部首排列•区位码:GB2312国标字符集,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示,如:“大”字的区号20,位号83,区位码是2083用2个字节表示为:0001010001010011•国标交换码:–问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。–解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(即二进制00100000)。•机内码:–问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。–解决方法:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。汉字编码例例如:“啊”区位码:1601=1001H0001000000000001国标码:3021H=1001H+2020H0011000000100001机内码:B0A1H=3021H+8080H(1)GB2312-80汉字编码(2)GBK汉字内码扩充规范•问题:GB2312-80只有6763个汉字。•组成:21003个汉字,883个图形符号,与GB2312兼容,包括繁体字。•应用:–操作系统——Windows95以上简体中文版,采用GBK代码,并提供了多种输入法和字体–应用软件——Office95以上简体中文版本提供GBK码的检索和排序–互联网应用——许多网站的网页使用GBK代码,但目前还不是所有搜索引擎都支持GBK汉字文本的搜索(3)GB18030汉字编码标准,兼容GBK和GB2312。(4)通用编码字符集UCS/Unicode目标与途径:实现所有字符在同一字符集中统一编码(5)中国台湾的BIG5(大五码)标准GB2312、GBK、GB18030这几种字符集的主要区别是什么?早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。GB2312(1980年):16位字符集,收录有6763个简体汉字,682个符号,共7445个字符;优点:适用于简体中文环境,属于中国国家标准,通行于大陆,新加坡等地也使用此编码;缺点:不兼容繁体中文,其汉字集合过少。GBK(1995年):16位字符集,收录有21003个汉字,883个符号,共21886个字符;优点:适用于简繁中文共存的环境,为简体Windows所使用(代码页cp936),向下完全兼容gb2312,向上支持ISO-10646国际标准;所有字符都可以一对一映射到unicode2.0上;缺点:不属于官方标准,和big5之间需要转换;很多搜索引擎都不能很好地支持GBK汉字。GB18030(2000年):32位字符集;收录了27484个汉字,同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字。优点:可以收录所有你能想到的文字和符号,属于中国最新的国家标准;缺点:目前支持它的软件较少。补充:现在的PC平台必须支持GB18030,对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。GB2312、GBK到GB18030都属于双字节字符集(DBCS)。GB18030是中国所有非手持/嵌入式计算机系统的强制实施标准。【典型例题】87.每个汉字的机内码都用两个字节存储。(对)52.在中文Windows环境下,西文使用标准ASCII码,汉字采用GB2312编码,现有一段文本的内码为:ABF4D1E378C2B755,则在这段文本中,含有的汉字和西文字符的个数分别是_3_2_67.传输率为9600b/s,意味着每分钟最多可传送_72000个ASCII码字符。22.下列汉字编码标准中,不支持繁体汉字的是__A__。A.GB2312-80B.GBKC.BIGD.GB1803025.在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为__B__A.46HB.66HC.67HD.78H91.汉字输入的编码方法由数字编码、字音编码和形音编码等4种,在同一种汉字编码字符集中,使用不同的编码方法向计算机输入的同一个汉字,它们的内码是不同的。(错)25.根据ASCII码值的大小,下列表达式中,正确的是__D___。A.“a”“A”“9”B.“A”“a”“9”C.“9”“a”“A”D.“9”“A”“a”26.已知“江苏,,两字的区位码是“2913”和“4353”,则其机内码是__D____。A.3D2D和4B55B.4535和535DC.6145和7585D.BDAD和CBD524.若内存中相邻2个字节的内容为十六进制7451,则它们不可能是___B___。A.1条指令的组成部分B.1个汉字的机内码C.1个16位整数D.2个英文字母的ASCII码92.在ASCII码表中,数字和英文字母按照ASCII码值从小到大排列的顺序为:数字、大写字母、小写字母。(对)【知识点3】文本信息的输入方法•人工输入:通过键盘、手写笔或语音输入方式输入字符–特点:速度慢、成本高,不适合需处理大批量文字的应用•自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码–特点:速度快,效率高–文字的自动识别分为:印刷体识别和手写体识别汉字输入编码方法的分类:数字编码:电报码、区位码等字音编码:一种基于汉语拼音的编码方法,同音字引起的重码多字形编码:五笔字形法和表形码等形音编码:吸取了字音编码和字形编码的优点联机手写汉字识别(笔输入)印刷体汉字识别(汉字OCR)•印刷体汉字识别:将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(OpticalCharacterRecognition)。•印刷体文字识别的过程【知识点4】文本的类型1)简单文本(纯文本)这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt2)丰富格式文本•丰富格式文本(richtext、fancytext、formattedtext)•RTF格式文本信息的输入文本信息的输入人工输入人工输入自动识别输入自动识别输入键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入印刷体识别印刷体识别手写体识别手写体识别文本信息的输入文本信息的输入人工输入人工输入自动识别输入自动识别输入键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入印刷体识别印刷体识别手写体识别手写体识别扫描后的扫描后的图像文本图像文本预处理预处理版面分析版面分析文字切分文字切分特征提取特征提取字符识别字符识别后处理后处理识别后的识别后的编码文本编码文本扫描后的扫描后的图像文本图像文本预处理预处理版面分析版面分析文字切分文字切分特征提取特征提取字符识别字符识别后处理后处理识别后的识别后的编码文本编码文本•多媒体文档(MultimediaDocument)3)超文本•线性文本•超文本(hypertext)的阅读方式–传统的顺序式阅读–通过链接、跳转、导航、回溯等操作实现跳跃式阅读•超文本的结构•链源•链宿•超媒体(Hypermedia):超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体”•超文本的应用–Windows等一些软件中的“帮助”文件–使用浏览器从Web服务器上下载的网页(html或htm文件)【典型例题】21.多媒体计算机系统中要表示、传输和处理大量的声音、图像甚至影视视频信息,其数据量之大是非常惊人的,因此,必须研究高效的__B__技术。①流媒体②数据压缩编码③数据压缩解码④图像融合A.①和②B.②和③C.②和④D.③和④【知识点4】文本编辑的主要功能–对字、词、句、段落进行添加、删除、修改等操作–字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等–段落的处理:设置行距、段间距、段缩进、对称方式等–页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等•“所见即所得”(WhatYouSeeIsWhatYouGet,简称WYSIWYG)。•一文本处理:–字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换–词语排序,词语错误检测,文句语法检查–自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换–文本压缩,文本加密,文本著作权保护–关键词提取,文摘自动生成,文本分类–文本检索(关键词检索、全文检索),文本过滤–文语转换(语音合成),文种转换(机器翻译)–篇章理解,自动问答,自动写作等【典型例题】45.文本编辑的目的是使文本正确、清晰、美观,下列_BCD_操作属于文本处理而不属于文本编辑功能。A.添加页眉页脚B.统计文本字数C.文本压缩D.识别并提取文本中的关键字【知识点5】字型库•字型库:简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。•字符形状的描述方法:–点阵描述–轮廓描述【典型例题】68.1KB的内存空间能存储512个汉字内码,约存_14__个24×24点阵汉字的字形码。72.在24×24点阵的汉字字库中,存储每个汉字字型码所需的字节是70B。(错)91.只要是在同一个字符集下,文本的输出所使用的字库都是相同的。(错)【知识点6】图像与图形•从现实世界中通过数字化设备获取的图像,称为:取样图像(sampledimage)、点阵图像(dotmatriximage)、位图图像(bitmapimage)——简称图像(image)•计算机合成的图像(syntheticimage),称为:矢量图形(vectorgraphics),简称图形(graphics)•图像文件格式:PC机上的图像格式有:JPEG、BMP、GIF、TIFF、PNG等。JPEG适合于连续色调、多级灰度、彩色或单色静止图像的国际标准,体积小