1第5章数字媒体及应用★出题方向提示西文与汉字的编码;数字文本的制作与编辑;常用文本处理软件.数字图像的获取、表示及常用图像文件格式;数字图像的编辑、处理和应用;计算机图形的概念与应用.数字声音获取的方法和设备;数字声音的压缩编码;语音合成和音乐合成的基本应用和原理。数字视频获取的方法和设备;数字视频的压缩编码;数字视频的应用。★考核知识要点、重点、难点精解★考点:1西文与汉字的编码1.西文字符的编码在计算机中用于表示字符的二进制编码称为字符编码。目前,国际上使用最多、最普遍的字符编码是ASCII字符编码。ASCII码的全称是“AmericanStandardCodeforInformationInterchange,译为:美国国家信息交换标准字符码。标准ASCII码是7位的编码,可以表示27=128个不同的字符,每个字符都有其不同的ASCII码值,它们的编码范围是0000000B~1111111B(00H~7FH)。并且,这128个字符共分为3类,分别是:(l)数字0~9;(2)26个大写英文字母和26个小写英文字母;(3)各种运算符号、标点符号和控制符号等。其中,数字、大写字母、小写字母都是按照它们的自然顺序进行排列,且小写字母的ASCII码值比其相应的大写字母的ASCII码值大32。例如:大写字母D的ASCII码值是68,小写字母d的ASCII码值=68+32=100。注意虽然标准ASCII码是7位的编码,但由于字节是计算机中最基本的存储和处理单位,故一般仍以一个字节来存放一个ASCII字符.每个字节中多余出来的一位(最高位b7),在计算机内部通常保持为“0”,而在数据传输时和用作奇偶校验位。扩充ASCII码是8位,每个ASCII码字符集分别可以扩充128个字符,这些扩充字符的编码均为高位为1的8位代码(十进制指数128~255),称为扩展ASCII码。2.汉字的编码(1)GB2312-1980汉字编码①国标码为了适应计算机处理汉字信息的需要,1981年我国颁布了《信息交换用汉字编码字符集·基本集》(GB2312-80)。简称国标码,又称汉字交换码。该标准选出6763个常用汉字和682个非汉字字符,为每个字符规定了标准代码,以便在不同计算机系统中间进行汉字文本的交换。2GB2312国际字符集由三部分组成。第一部分是字母、数字和各种符号,包括拉丁文字母、俄文、日文平假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号);第二部分为一级常用汉字,共3755个,按汉语拼音排列;第三部分为二级常用字,共3008个,因不太常用,所以按偏旁部首排列。②区位码在国标码中,所有的常用汉字和图形符号组成了一个94行94列的矩阵。每一行的行号称为“区号”,每一列的列号称为“位号”。区号和位号都由两个十进制数表示,区号编号是01~94,位号的编号也是01~94。由区号和位号组成的四位十进制编码被称为该汉字的“区位码”,其中区号在前,位号在后,并且每一个区位码对应惟一的汉字,例如:汉字“啊”的区位码是1601,表示汉字“啊”位于16区的01位。③机内码区位码中,区号和位号各需要7个二进位才能表示。每个汉字的区号和位号分别使用1个字节来表示,且都从33开始编号(33~126),字节的最高位规定均为1。这种高位均为1的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。目前PC机中GB2312汉字的表示都是这种方式。注意(1)GB2312国际字符集与区位码转换关系为:将区位码转换成GB2312国际字符集的方法如下:①将十进制的区号和位号分别转换成十六进制;②将转换成十六进制的区号和位号分别加上20H;③将分别加上20H的区号和位号组合,得到GB2312国际字符集。(2)汉字内码是由汉字的国标码加上8080H形成,即汉字内码=国标码+8080H【举例】汉字“灯”的区位码是2138,求其国标码。【分析】①汉字“灯”的区号是21,位号是38,转换成十六进制分别是15H、26H。②将转换成十六进制的区号和位号分别加上20H,得到15H+20H=35H;26H+20H=46H。③因此,汉字“灯”的国标码是:3546H。(2)GBK汉字内码扩充规范GBK是我国1995年发布的又一个汉字编码标准,全称为《汉字内码扩展规范》。它一共有21003个汉字和883个图形符号,与GB2312国标汉字字符集及其内码保持兼容,另外收录了繁体字和很多生僻的汉字。GBK字符集中的每一个汉字和图形符号也都采用双字节表示,总的编码范围为8140~FEFE,首字节在81~FE之间,尾字节在40~FE之间(剔除xx7F一条线不安排字符),总计23940个码位,共收人21886个汉字和图形符号,未使用的区域作为用户自定义区。3(3)GB18030一2000编码信息产业部和国家质量技术监督局在2000年联合发布了GB18030一2000汉字编码国家标准,并在2001年开始执行。GB18030一2000编码标准在GB2312和GBK的基础上进行了扩充,它增加了4字节的编码,使码位总数达到160多万个。所包含的汉字数目也增加到27000多个,包括全部中日韩(CJK)统一汉字字符集和CJK汉字扩充A和扩充B中的所有字符。(4)汉字字型码汉字字型码又称汉字输出码,是用于显示或打印输出汉字的汉字编码。汉字的字型通常用点阵的方式来表示的。由于不同字体的汉字有不同的要求,因此汉字的点阵也有所不同。汉字点阵可有16x16点阵、24x24点阵、32x32点阵、……、128xl28点阵、256x256点阵等。点阵越大,字型质量越高,同时所占用的存储空间也越大。对于NxN点阵的字型码而言,一个汉字的每一行有N个点,每一列也有N个点,由于一个字节占用8个二进制位,因此每一行所占用的空间是:N÷8字节,一个汉字所占用的空间是:Nx(N÷8)字节。【举例】16xl6点阵的字型码,每个汉字所占用的字节数=16xl6÷8=32。24x24点阵的字型码,每个汉字所占用的字节数=24x24÷8=72。32x32点阵的字型码,每个汉字所占用的字节数=32x32÷8=128。★考点2:数字文本的制作与编辑1.文本准备(l)汉字键盘输入汉字的键盘输入编码方案有几百种之多,能够被广泛接受的编码方案应具有卜列特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等。汉字输入编码大体分为4种,分别是:①数字编码,这是使用一串数字来表示汉字的编码方法,它们难以记忆,很少使用。②字音编码,这是一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。③字形编码,不易掌握。④音形编混合码,它吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少,但掌握起来也不容易。汉字的输入编码与汉字的内码是不同范畴的概念,不能把它们混淆起来。使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的。(2)联机手写汉字识别(笔输入)4联机手写汉字识别输入法以平常书写的习惯,把要输入的汉字写在一块叫“书写板”的设备上,书写板将笔尖的运动(包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等)按时间顺序采样后发送到计算机中,由计算机软件自动进行识别,然后用该汉字(或符号)对应的代码进行保存。(3)汉语语音识别输入(4)印刷体汉字识别(汉字OCR)输入印刷体汉字识别是将印刷或打印在纸上的中西文字输入计算机并经过识别转换为编码表示的一种技术,也叫做汉字OCR(OpticalCharacterRecognition)。(5)脱机手写汉字识别输入2.文本分类与表示文本是计算机表示文字及符号信息的一种数字媒体。使用计算机制作的数字文本有多种不同的类型:(l)根据它们是否具有编辑排版格式来分,可分为简单文本(纯文本)和丰富格式文本两大类。简单文本呈现为一种线性结构,写作和阅读均按顺序进行。经过排版处理后,纯文本中就增加了许多格式控制和结构说明信息,称为“丰富格式文本”。(2)根据文本内容的组织方式来分,可以分为线性文本和超文本两大类。传统的纸质文本其内容的组织是线性(顺序)的,因而读者总是按顺序先读第1页(从第一行读到最后一行),再读第2页、第3页……,这就是线性文本。超文本(hypertext)概念是对传统文本的一个扩展。除了传统的顺序阅读方式之外,它还可以通过链接、跳转、导航、回溯等操作,实现对文本内容更为方便的访问。超文本采用网状结构来组织信息,一个超文本由若干文本块组成,每个文本块中包含了一些指向其他文本块的指针,用于实现文本阅读时的快速跳转。这些指针称为超链(hyperlink)。超链是有向的,起点位置称为链源(HTML文档中称为锚);目的地(目标)称为链宿,它可以是文本块(本机或者网络中其他计算机的一个文件或者程序),也可以是文本块的同一部分。文本块可以是文字,也可以是图形、图像甚至声音或视频,这就把超文本推广到了多媒体的形式,所以有时也称为“超媒体”(hypermedia)。(3)根据文本内容是否变化和如何变化来分,可分为静态文本、动态文本和主动文本三类。①静态文本一般情况下用得最多的是静态Web文本,静态文本的每次访问都返回相同结果。静态文本的优点在于它简单、可靠、访问速度快。它的主要缺点是不灵活,一旦内容变化,就必须人工修改文档,不适合内容频繁变化的应用场合。②动态文本动态Web文档的内容是在浏览器访问Web服务器时由服务器创建的,文档的内容是变化的,它能向用户提供最新的信息。从浏览器的角度来看,动态文档和静态文档并无区别,它们都采用HTML编写,采用同样的方法进行访问,浏览器不知道(也不需要知道)服务器是从磁盘文件还是从计算机程序取得文档的。5动态文档的创建比静态文档复杂,动态文档的创建者需使用脚本语言如VBScript、Javascript及CGI、ASP等编写程序,并使用SQL查询语言通过ODBC、ADO等接口访问数据库。浏览器访问动态文档需要的时间也会稍长一些,因为服务器需要额外的时间去运行程序创建文档。动态文档的一个主要缺点是不能显示变化着的信息。与静态文档类似,动态文档在浏览器取得文档后内容不会再改变,因而文档很快就开始过时。③主动文档相对于动态文档的优点是它能够访问信息源并连续地更新文档内容。主动文档能够自动更新文档内容的原因在于,Web服务器传送给浏览器的中包含了一个可以本地执行的小程序(Applet),浏览器会自动启动执行这些VBSCript或JavaSCript等编写的程序,需要时后者能主动与Web服务器进行交互,并改变文档的显示内容。只要用户让程序保持运行,文档的内容就总在更新。主动文档的主要缺点是创建和运行这种文档比较复杂,同时缺少安全性。3.文本编辑与处理(1)文本编辑文本编辑的主要功能包括:①对字、词、句、段落进行添加、删除、修改等操作;②字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等;③段落的处理:设置行距、段间距、段缩进、对称方式等;④表格制作和绘图;⑤定义超链;⑥页面布局(排版):设置页边距、每页行列数、分栏、页眉、页脚、插图位置等。(2)文本处理文本处理强调的是使用计算机对文本中所含文字信息的形、音、义等进行分析和处理。文本处理可以在字、词(短语)、句子、篇章等不同的层面上进行。①在字、词(短语)层面上进行的处理包括字数统计、自动分词、词性标注、词频统计、词语排序、词语错误检测、自动建立索引、简/繁体转换、大陆/台湾编码及术语转换等;②在句子级别上进行的处理有语法检查、文语转换(语音合成)、文种转换(机器翻译)等;④在篇章基础上进行的处理有关键词提取、文摘生成、文本分类、文本检索等。此外,为了文本的信息安全和有效地存储或传输,还需要对文本进行加密、压缩等处理。在各种文本处理应用中,我们使用最多的是文本检索。文本检索是将文本按一定的方式进行组织、储存、管理,并根据用户的要求查找到所需文本的技术和应用。目前常用的Web信息检索系统有Google、Yahoo、Alta、Vista、Infoseek、新浪、天网、百度等,