第5章数字媒体及应用5.1文本与文本处理5.2图像与图形5.3数字声音及应用5.4数字视频及应用25.1文本与文本处理5.1文本与文本处理5.1.1字符的编码5.1.2文本准备5.1.4文本编辑、排版与处理5.1.3文本的分类5.1.5文本的展现35.1文本与文本处理5.1.1.字符在计算机中的表示45.1文本与文本处理字符、字符集及其编码表文字的基本元素是字母和符号,统称为“字符”(character),它包括:字母、数字、标点、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符的二进位表示,称为该字符的编码或代码(code)不同的字符其编码各不相同字符集中所有字符的编码的一览表,称为该字符集的码表55.1文本与文本处理西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):(考点)ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题:字符集太小(只有128个字符)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码0XXXXXXX65.1文本与文本处理汉字如何编码?汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马······)汉字的特点数量大;字形复杂,同音字多,异体字多如何编码?确定收入多少字、哪些字?在字符集中如何排列?使用多少个二进位进行编码?75.1文本与文本处理常用的汉字编码字符集国家标准GB2312-1980汉字扩充规范GBK国家标准GB18030-2005台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)日本工业标准汉字字符集JISX0208-90韩国国家标准汉字字符集KSC5601-87UCS/Unicode多文种大字符集85.1文本与文本处理一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字和符号都有一个确定位置95.1文本与文本处理GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”(考点)例如:“南”字的代码是1100010011001111(用十六进制表示为C4CF)11第1字节第2字节XXXXXXXXXXXXXX105.1文本与文本处理GBK汉字内码扩充规范GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1X第1字节第2字节XXXXXXXXXXXXXX115.1文本与文本处理标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同(1)UTF-8采用单字节可变长编码(2)UTF-16采用双字节可变长编码兼容性编码不兼容!几种汉字编码的对比编码保持向下兼容125.1文本与文本处理5.1.2.文本准备——文稿如何输入计算机135.1文本与文本处理文字符号输入计算机的方法键盘输入自动识别输入字符信息的输入人工输入(1)数字编码,如电报码、区位码等,(2)字音编码,如智能ABC等(3)字形编码,如五笔字形和表形码等,(4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法145.1文本与文本处理文字符号输入计算机的方法键盘输入联机手写输入自动识别输入字符信息的输入人工输入•优点:–自然,流畅–小型化,适合移动计算•不足:–识别速度和正确性还需提高–书写要求还要降低155.1文本与文本处理文字符号输入计算机的方法键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入•优点:•自然,方便,适合移动计算•不足:•对说话人、说话方式、说话内容的适应能力要大大增强•识别速度和正确性还需大大提高165.1文本与文本处理文字符号输入计算机的方法印刷体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入扫描仪OCR数字文本纸介质文本文本的映象(image)•识别率已达到98%•功能:–简、繁体字混合识别–中文、西文混合识别–文字、表格混合识别–智能校对功能175.1文本与文本处理文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入–技术上非常困难,还无法实用–目前准备先突破工整的楷书手写体的识别!185.1文本与文本处理5.1.3文本的分类195.1文本与文本处理简单文本(纯文本)本书由南京大学出B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6版社(PublishingB0E6C9E7285075626C697368696E67HouseofNanjin20486F757365206F66204E616E6A696EgUniversity)出版6720556E697665727369747929B3F6B0E6文本的内容文本在计算机中的表示•没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是.txt•由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息•举例:205.1文本与文本处理丰富格式文本本书由南京大学出版社(PublishingHouseofNanjingUniversity)出版•有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”•丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。•举例:下面标题的格式为:中文用黑体,西文用ArialBlack体,居中•使用HTML语言描述为:palign=centerfontface=黑体本书由南京大学出版社/fontfontface=ArialBlack(PublishingHouseofNanjingUniversity)/fontfontface=黑体出版/font/p用一对指出的是标记,如fontface=“黑体”和/font等,用于说明排版的格式和文字属性,它们不属于正文内容正文内容215.1文本与文本处理超文本若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成“超文本”ABCDEFGHa1a2b2c2f1d1c1b1e1g1h1a3“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频225.1文本与文本处理小结:文本的分类文本类型特点在计算机内的表示文件扩展名用途简单文本没有字体、字号和版面格式的变化,文本在页面上逐行排列,也不含图片和表格由一连串与正文内容对应的字符的编码所组成,几乎不包含任何其他的格式信息和结构信息.txt网上聊天短信文字录入OCR输入丰富格式文本(线性文本)有字体、字号、颜色等变化,文本在页面上可以自由定位和布局,还可插入图片和表格除了与正文对应的字符编码之外,还使用某种“标记语言”所规定的一些标记来说明该文本的文字属性和排版格式等.doc.rtf.htm.html.pdf公文论文书稿网页丰富格式文本(超文本)除上述特征外,文本中还含有超链,使文本呈现为一种网状结构同上,但还应包含用于指出“链源”和“链宿”的标记.doc.rtf.htm.html.pdf.hlp同上,以及软件的联机文档(帮助文件)5.2图像与图形5.2.1数字图像的获取5.2.2图像的表示与压缩编码5.2.3数字图像处理与应用5.2.4计算机图形245.1文本与文本处理5.2.1数字图像的获取255.1文本与文本处理图像的获取过程扫描模拟图像取样取样取样数字图像分色量化量化量化从现实世界中获得数字图像的过程称为图像的“获取”常用的图像获取设备:扫描仪、数码相机、摄像头、摄像机等图像获取过程:将画面划分为M×N个网格,每个网格称为一个取样点将彩色图像取样点的颜色分解成R,G,B三个基色测量每个取样点的每个分量(基色)的亮度值对取样点每个分量的亮度值进行A/D转换,使用数字整型量表示265.1文本与文本处理5.2.2图像的表示与压缩编码275.1文本与文本处理数字(取样)图像的组成数字取样图像由M(列)×N(行)个取样点组成取样点是组成数字取样图像的基本单位,称为“像素”彩色图像的像素通常由3个彩色分量组成灰度图像和黑白图像的像素只包含1个亮度分量Red分量Green分量Blue分量像素285.1文本与文本处理复习:黑白图象的表示黑白图像黑白图像的每个像素只有一个分量,且只用1个二进位表示,其取值仅“0”(黑)和“1”(白)两种295.1文本与文本处理例2:彩色图象的表示蓝色分量绿色分量红色分量彩色图像的每个像素有三个分量,分别表示三个基色的亮度,假设3个分量分别用n,m,k个二进位表示,则可表示2n+m+k种不同的颜色305.1文本与文本处理数字(取样)图像的主要参数图像大小(图像分辨率):用来表示组成该图像的行列数目,亦即图像所包含的像素数目使用水平分辨率x垂直分辨率表示对图像清晰度和在屏幕上显示出来的大小有影响颜色空间的类型,指彩色图像所使用的颜色描述方法,如:RGB(红、绿、蓝)模型,显示器使用CMYK(青、品红、黄、黑)模型,彩色打印机使用HSB(色彩、饱和度、亮度)模型,用户界面中使用YUV(亮度、色度)模型,彩色电视信号传输时使用像素深度,即像素的所有颜色分量的二进位数目之和图像类型像素的组成像素深度(位数)颜色空间单色图像黑白图像仅1个分量1位不使用灰度图像仅1个分量2~12位不使用彩色图像彩色图像3个分量以上8~36位RGB,CMY,YUV等315.1文本与文本处理举例:分辨率与图像尺寸的关系520x376260x188130x94在显示比例相同时,显示在屏幕上的图像尺寸与图像分辨率成正比325.1文本与文本处理数字图像的数据量数字图像数据量的计算公式(以字节为单位):数据量=水平分辨率×垂直分辨率×像素深度/8几种常用格式的图像的数据量:图像大小8位(256色)16位(65536色)24位(真彩色)640×480300KB600KB900KB1024×768768KB1.5MB2.25MB1280×10241.25MB2.5MB3.75MB例:数字图像传输时间的计算假设数据传输速率为56kb/s(电话上网),则传输一幅分辨率为640×480的6.5万种颜色的未压缩图像的最小时间为:(640x480x