第三章-多媒体信息处理技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第三章多媒体信息处理技术本章介绍多媒体信息处理技术的基本问题,包括多媒体数据的分类、多媒体信息的计算机表示、多媒体数据压缩和编码技术、音频卡和视频卡的应用。重点是掌握多媒体信息处理技术的基本概念,学会音频卡和视频卡的安装与使用,了解多媒体技术中数据的压缩与编码方法。通过相关实验,掌握获取多媒体素材的一般方法。第三章多媒体信息处理技术多媒体数据的分类多媒体信息的计算机表示多媒体数据压缩和编码技术音频卡音乐合成与MIDI视频卡3.1多媒体数据的分类媒体是承载信息的载体,是信息的表示形式。客观世界有各种各样的信息形式,它们都是自然界和人类社会活动中原始信息的具体描述和表现,信息媒体元素是指多媒体应用中可以显示给用户的媒体组成元素,目前主要包括文本、图形、图像、声音、动画和视频等媒体。3.1.1多媒体数据的特点传统的数据采用编码表示,数据量并不大。而多媒体数据具有数据量巨大、数据类型多、数据类型间差别大、数据输入和输出复杂等特点。例如一幅640×480分辨率、256种颜色的彩色照片,存储量要0.3MB,CD质量双声道的声音,存储量要每秒1.4MB。多媒体数据类型多,包括图形、图像、声音、文本和动画等多种形式,即使同属于图像一类,也还有黑白、彩色、高分辨率和低分辨率之分,由于不同类型的媒体内容和格式不同,其存储容量、信息组织方法等方面都有很大的差异。因此,多媒体数据在计算机中的表示是一项很复杂的工作。3.1.2多媒体数据的分类1.文字文本是各种文字的集合。它是用得最多的一种符号媒体形式,是人和计算机交互作用的主要形式2.音频音频泛指声音,除语音、音乐外,还包括各种音响效果。3.图形、图像图形文件基本上可以分为两大类:位图和向量图。4.动画图像或图形都是静止的。由于人眼的视觉暂留作用,在亮度信号消失后亮度感觉仍可保持1/20s~1/10s。利用人眼视觉惰性,在时间轴上,每隔一段时间在屏幕上展现一幅有上下关联的图像、图形,就形成了动态图像。用计算机制作动画的方法有两种:一种称为造型动画,另一种称为帧动画。5.视频影像视频是动态图像的一种。与动画一样,由连续的画面组成,只是画面图像是自然景物的图像。视频一词源于电视技术,但电视视频是模拟信号,而计算机视频则是数字信号。3.2多媒体信息的计算机表示3.2.1文本文件格式常用的文本文件的格式有TXT、RTF以及WORD格式的DOC、DOT文件。这些都是大家比较熟悉的文件格式。3.2.3图形、图像文件格式为了适应不同应用的需要,图像可以以多种格式进行存储。例如,Windows中的图像以BMP或DIB格式存储。另外还有很多图像文件格式,如PCX、PIC、GIF、TGA和JPG等等。不同格式的图像可以通过工具软件来转换。常见的图形文件的格式有如下几种:BMP、PCX、GIF、TIF、JPG、TGA等。1.GIF(GraphicInterchangeFormat)文件GIF文件格式是由Compu-Serve公司在1987年6月为制定彩色图像传输协议而开发的。GIF是一种压缩图像存储格式,压缩比高,文件长度小。GIF格式是图形交换文件格式,支持黑白、16色和256色的彩色图像。GIF主要用于在不同平台上进行图像交流和传输。它同时支持静态、动态两种形式,在网页制作中受到普遍欢迎。2.BMP(bitmap)文件BMP是一种与设备无关的图形文件格式,它是Windows软件推荐使用的一种格式,随着Windows的普及,BMP的应用越来越广泛。BMP是标准Windows和OS/2的图形图像的基本位图格式,BMP文件格式支持黑白、16色和256色的伪彩色图像以及RGB真彩色图像。3.JPG文件JPG文件原来是在AppleMac机器上使用的一种图像格式,使用JPG方法进行图像数据压缩,近年来PC机上十分流行。3.2.3图形、图像文件格式4.TGA文件TGA图形文件格式是Truevision公司为支持Targe和Visa图像捕获卡而设计的文件格式,Targe和Visa图像捕获卡在PC机上得到广泛的应用,因此,TGA图形文件格式的应用也越来越广泛。5.TIF文件TIF格式由Aldus和Microsoft合作开发,最初用于扫描仪和桌面出版业,是工业标准格式,支持所有图像类型。6.PCX文件PCX图形文件格式是Zsoft公司研制开发的,主要用于商业性PCPaintbrush图形软件。PCX文件可以分成三类:各种单色的PCX文件、不超过16种颜色的PCX文件和具有256色和16色的不支持真彩色的图形文件。7.PCD文件PCD文件格式是Kodak公司开发的电子照片文件存储格式,是Photo-CD的专用存储格式,一般都存在CD-ROM上,读取PCD文件要用Kodak公司的专门软件。除了上述几种常用的图像文件格式外,其他格式还有:CorelDRAW默认图像文件格式(*.cdr)、Photoshop默认图像文件格式(*.psd)、CAD中使用的绘图文件格式(.dxf)、Kodak数码相机支持的文件格式(.fpx)、Windows的图元文件格式(*.wmf)等。3.2.4影像文件格式影像文件通常泛指自扫描仪或视频卡读入的静态画面(影像)。因为这种影像不容易像圆、直线、方形、曲线等图形元件那样清楚地被定义,所以,都是以点阵的方式存入文件。数字视频图像有两层技术涵义。一是模拟视频信号输入计算机进行数字化视频编辑,最后的成品称为数字化视频图像。二是指视频图像由数字化的摄像机拍摄下来,从信号源开始,就是无失真的数字化视频。输入计算机时不再考虑视频质量的衰减问题,然后通过软件编辑制成成品。这是第二层涵义的数字化视频,也是更纯粹的数字视频技术。一般我们所指的数字化视频技术主要还是前一种数字视频技术,即模拟视频的数字化处理存储输出技术。目前,在动态图像的文件格式中,常用的有AVI、MOV、MPG和DAT文件等。3.2.4影像文件格式1.AVIVideoforWindows所使用的文件称为音频-视频交错文件(Audio-VideoInterleaved),文件扩展名为AVI。AVI格式的文件将视频信号和音频信号混合交错地存储在一起,是一种不需要专门硬件参与就可以实现大量视频压缩的视频文件格式。在各种多媒体演示系统中被广泛应用。AVI文件使用的压缩方法有好几种,主要使用有损压缩,压缩比高。2.MOV文件MOV文件格式是QuickforWindows视频处理软件所选用的视频文件格式,与AVI文件格式相同,MOV文件也采用Intel公司的Indeo视频有损压缩技术以及视频信息与音频信息混排技术,一般认为,MOV文件的图像质量较AVI格式好。它是Macintosh计算机用的视频文件格式。3.MPG文件格式PC机上的全屏幕活动视频的标准文件为MPG格式文件,也称为系统文件或隔行数据流。4.DAT文件格式DAT是VideoCD或KaraokeCD(卡拉OK)数据文件的扩展名,也是基于MPEG压缩方法的一种文件格式。5.DIR文件格式DIR是Macromedia公司使用的Director多媒体著作工具产生的电影文件格式。3.2.5动画文件格式多媒体应用中使用的动画文件主要有GIF、AVI、SWF等等。1.GIF文件GIF文件可保存单帧或多帧图像,支持循环播放。GIF文件小,是网络唯一支持的动画图形格式,在因特网上非常流行。GIF与JPG的区别在于它支持透明格式,虽然图像压缩比不及JPG文件,但是具有更快的传送速度。2.SWF文件SWF文件是Macromedia公司的Flash动画文件格式,需要用专门的播放器才能播放,所占内存空间小,在网页上使用广泛。3.3多媒体数据压缩和编码技术3.3.1多媒体的数据量、信息量和冗余多媒体计算机面临的最大难题是大量数据的存储与传送问题。在所有可能的数据库中,图像是数据量最大的数据类型。数据是用来记录和传送信息的,或者说数据是信息的载体。对于人类而言,真正有用的不是数据本身,而是数据所携带的信息。信息量与数据量的关系是:信息量=数据量+数据冗余多媒体数据中存在的数据冗余类型有:1.空间冗余2.时间冗余3.编码冗余4.结构冗余5.知识冗余6.视觉冗余7.其他冗余3.3.2数据压缩的基本方法多媒体是将文本、图形、音频、视频、动画、通信和计算机技术结合在一起的一种新技术。人们发现,在处理图形、图像、声音、动画、影像等多媒体信息时,必须要占用相当大的存储空间。因此,以压缩的方式存储数字化的多媒体信息是解决这一问题的唯一途径。可用多种方法,对数据压缩处理方法进行。1.按照解码后的数据与原始数据一致性分类根据解码后的数据与原始数据是否完全一致来进行划分,数据压缩方法有两类:可逆编码方法和不可逆编码方法。可逆编码方法又称无损压缩编码。用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可以恢复的或没有偏差的。多媒体应用中经常使用的无损压缩方法主要是基于统计的编码方法,如游程编码、Huffman编码、算术编码和LZW编码等。不可逆编码方法又称有损压缩编码。用不可逆编码方法压缩的图像,其还原图像较原始图像存在一定的误差,但视觉效果一般是可以被接受的。因此,该方法大多数被使用在把人类视觉作为对象的场合。常用的有损压缩方法有脉码调制(PCM)、预测编码、变换编码、插值和外推法等等。新一代的数据压缩方法有矢量量化和子带编码、基于模型的压缩、分型压缩和小波变换压缩等。3.3.2数据压缩的基本方法2.按方法的原理分类根据方法的原理进行分类,可以划分为预测编码、变换编码、量化与向量量化编码、信息熵编码、分频带编码、结构编码和基于知识的编码等。①预测编码②变换编码③量化与向量量化编码④信息熵编码⑤分频带编码⑥结构编码⑦基于知识的编码3.3.3音频信号的压缩编码音频信号是多媒体信息的重要组成部分。音频信号可以分成电话质量的语音、调幅广播质量的音频信号和高保真立体声信号。语音信号的频率范围是300Hz到3400Hz。随着带宽的增加,信号的自然度将逐步得到改善。高保真音频信号的频率范围是20Hz到20000Hz。从方法上看,声音信号的编码方式可以分为三大类:波形编码:要求重构的声音信号尽可能地接近于原始声音。典型的波形编码技术有脉冲编码调制(PCM)、自适应差分脉冲编码调制(ADPCM)、自适应预测编码(APC)、子带编码(SDC)、自适应变换编码(ATC)等。分析合成编码:以声音信号产生模型为基础,将声音信号变换成模型参数后再进行编码,又称为参数编码方法。典型的分析和合成技术有通道声码器、共振峰声码器、同态声码器、线性预测声码器等。混合型编码:是一种在保留分析合成编码技术精华的基础上,引用波形编码准则去优化激励源信号的方案,可以在4.8k位/秒~9.6k位/秒的编码率上获得较高质量的合成声音。3.3.4视频信号的压缩编码近年来,图像和视频处理技术越来越得到人们的重视。多媒体技术中的关键技术之一就是要用计算机存储和显示静止或活动图像,这就要求计算机具有实时编辑处理、存储和显示数兆字节活动图像的能力。1.视频信号的压缩编码分类在多媒体系统中,图像压缩方法主要利用消除图像在空间和时间上很强的相关性带来的数据冗余度来满足应用要求。图像压缩方法可以分成两种类型:有损压缩和无损压缩。2.视频信号的压缩编码标准JPEG和MPEG就是得到国际标准化组织认可并推荐的两个国际标准。3.JPEG静止图像压缩算法JPEG标准是面向连续色调、多级灰度、彩色或单色静止图像的压缩标准,它定义了两种基本的压缩算法:一种是无失真压缩算法;另一种是有失真压缩算法。4.MPEG运动图像压缩算法MPEG用于减少空域冗余信息的技术与JPEG标准采用的方法基本相同,分三个阶段进行:①作DCT变换,计算变换系数;②对变换系数进行量化;③对变换系数进行编码。3.4音频卡3.4.1音频卡的功能第一块音频卡是在1987年由Adlib公司设计制造的,当时主要用于电子游戏,作为一种技术标准,几乎被所有电子游戏软件采用。随后,新加坡Creative公司推出了音频卡系列产品,广泛地被世界各地微机产品

1 / 37
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功