第5章数字媒体及应用5.1文本与文本处理5.2图像与图形5.3数字声音及应用5.4数字视频及应用5.1文本与文本处理5.1.1字符的编码5.1.2文本准备5.1.3文本的分类5.1.4文本编辑、排版与处理5.1.5文本的展现文字处理是计算机应用的基础计算机应用=使用计算机进行信息处理其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。文字数值语言音乐图像···信息的形态有多种写作编辑排版印刷发行写作传统的文字处理过程计算机文字处理过程文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列“字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:(文本编辑器)文本编辑与排版格式化的电子文本(2)文本展现(文本阅读器)(5)文本处理(文本处理软件)(3)文本准备电子文本(1)(文字与图表的输入)文本存储与传输(4)(存档/通信软件)5.1.1.字符在计算机中的表示一、西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题:字符集太小(只有128个字符)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码0XXXXXXX一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》(我国第一个国家标准)——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字和符号都有一个确定位置区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。问题:文本中的汉字与西文字符易与单字节的标准ASCII码混淆不清。例如:“大”字的区号20,位号83,区位码是2083,用2个字节表示为:0001010001010011(1453H)。这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。例如:“大”字的内码是:1011010011110011(B4F3)。汉字的区位码、国标码、机内码的关系:国标码=区位码+2020H机内码=国标码+8080H机内码=区位码+A0A0H汉字机内码双字节,最高位是1;西文字符机内码单字节,最高位是0。GBK汉字内码扩充规范GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1X第1字节第2字节XXXXXXXXXXXXXXUCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112个),称为UCS/UnicodeUCS/Unicode的编码方案:先实现部分字符的编码(共107,361个字符)尽量与已有编码标准兼容其中包含有中、日、韩统一整理出来的近3万汉字(CJK汉字)允许有若干不同的编码方案,例如:GB18030汉字编码标准背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。GB18030实质上是UCS/Unicode字符集的另一种编码方案:单字节编码(128个)表示ASCII字符双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用四字节编码(约158万个)用于表示UCS/Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同(1)UTF-8采用单字节可变长编码(2)UTF-16采用双字节可变长编码兼容性编码不兼容!小结:几种汉字编码的对比编码保持向下兼容5.1.3文本的分类简单文本(纯文本)•没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是.txt•由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息丰富格式文本本书由南京大学出版社(PublishingHouseofNanjingUniversity)出版•有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”•丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。•举例:下面标题的格式为:中文用黑体,西文用ArialBlack体,居中•使用HTML语言描述为:palign=centerfontface=黑体本书由南京大学出版社/fontfontface=ArialBlack(PublishingHouseofNanjingUniversity)/fontfontface=黑体出版/font/p用一对指出的是标记,如fontface=“黑体”和/font等,用于说明排版的格式和文字属性,它们不属于正文内容正文内容超文本若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成“超文本”ABCDEFGHa1a2b2c2f1d1c1b1e1g1h1a3“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频小结:文本的分类文本类型特点在计算机内的表示文件扩展名用途简单文本没有字体、字号和版面格式的变化,文本在页面上逐行排列,也不含图片和表格由一连串与正文内容对应的字符的编码所组成,几乎不包含任何其他的格式信息和结构信息.txt网上聊天短信文字录入OCR输入丰富格式文本(线性文本)有字体、字号、颜色等变化,文本在页面上可以自由定位和布局,还可插入图片和表格除了与正文对应的字符编码之外,还使用某种“标记语言”所规定的一些标记来说明该文本的文字属性和排版格式等.doc.rtf.htm.html.pdf公文论文书稿网页丰富格式文本(超文本)除上述特征外,文本中还含有超链,使文本呈现为一种网状结构同上,但还应包含用于指出“链源”和“链宿”的标记.doc.rtf.htm.html.pdf.hlp同上,以及软件的联机文档(帮助文件)真题讲解一、选择题1、在下列字符中,其ASCII码值最大的一个是。(2005年)A、XB、6C、5D、Y答案:D2、下列汉字编码标准中,不支持繁体汉字的是。(2007年)A.GB2312-80B.GBKC.BIG5D.GB18030答案:A3、在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为______。(2008年)A.46HB.66HC.67HD.78H答案:B4、不同的文本处理软件使用的格式控制和结构说明信息并不统一,不同的丰富格式文本互不兼容,因此一些公司联合提出了一种中间格式,称为______格式。、(2008年)A.DOCB.PDFC.HTMLD.RTF答案:D5、根据ASCII码值的大小,下列表达式中,正确的是。(2009年)A.“a”<“A”<“9”B.“A”<“a”<“9”C.“9”<“a”<“A”D.“9”<“A”<“a”答案:D6、已知“江苏”两字的区位码是“2913”和“4353”,则其机内码是。(2009年)A.3D2D和4B55B.4535和535DC.6145和7585D.BDAD和CBD5答案:D7、若内存中相邻2个字节的内容为十六进制7451,则它们不可能是__________。(2010年)A.1条指令的组成部分B.1个汉字的机内码C.1个16位整数D.2个英文字母的ASCII码答案:B三、填空题1、1KB的内存空间能存储512个汉字内码,约存个24×24点阵汉字的字形码。(2005年)2、在中文Windows环境下,西文使用标准ASCII码,汉字采用GB2312编码,现有一段文本的内码为:ABF4D1E378C2B755,则在这段文本中,含有的汉字和西文字符的个数分别是__________。(2006年)答案:14答案:3、2四、判断题1、每个汉字的机内码都用两个字节存储。(2005年)2、只要是在同一个字符集下,文本的输出所使用的字库都是相同的。(2009年)答案:T答案:F4、在ASCII码表中,数字和英文字母按照ASCII码值从小到大排列的顺序为:数字、大写字母、小写字母。(2008年)答案:T5.2图像与图形5.2.1数字图像的获取5.2.2图像的表示与压缩编码5.2.3数字图像处理与应用5.2.4计算机图形5.2.1数字图像的获取图像的获取过程扫描模拟图像取样取样取样数字图像分色量化量化量化从现实世界中获得数字图像的过程称为图像的“获取”常用的图像获取设备:扫描仪、数码相机、摄像头、摄像机等图像获取过程:将画面划分为M×N个网格,每个网格称为一个取样点将彩色图像取样点的颜色分解成R,G,B三个基色测量每个取样点的每个分量(基色)的亮度值对取样点每个分量的亮度值进行A/D转换,使用数字整型量表示5.2.2图像的表示与压缩编码数字(取样)图像的组成数字取样图像由M(列)×N(行)个取样点组成取样点是组成数字取样图像的基本单位,称为“像素”彩色图像的像素通常由3个彩色分量组成灰度图像和黑白图像的像素只包含1个亮度分量Red分量Green分量Blue分量像素数字(取样)图像的主要参数图像大小(图像分辨率):用来表示组成该图像的行列数目,亦即图像所包含的像素数目使用水平分辨率x垂直分辨率表示对图像清晰度和在屏幕上显示出来的大小有影响颜色空间的类型,指彩色图像所使用的颜色描述方法,如:RGB(红、绿、蓝)模型,显示器使用CMYK(青、品红、黄、黑)模型,彩色打印机使用HSB(色彩、饱和度、亮度)模型,用户界面中使用YUV(亮度、色度)模型,彩色电视信号传输时使用像素深度,即像素的所有颜色分量的二进位数目之和图像类型像素的组成像素深度(位数)颜色空间单色图像黑白图像仅1个分量1位不使用灰度图像仅1个分量2~12位不使用彩色图像彩色图像3个分量以上8~36位RGB,CMY,YUV等数字图像的数据量数字图像数据量的计算公式(以字节为单位):数据量=水平分辨率×垂直分辨率×像素深度/8几种常用格式的图像的数据量:图像大小8位(256色)16位(6536色)24位(真彩色)640×480