1第四章多媒体技术基础【本章内容】4.1多媒体的概念4.2光盘存储系统4.3多媒体音频信号处理4.4多媒体图像信号处理4.5多媒体视频信号处理24.1多媒体的概念(自学)媒体(Media)是指承载或传递信息的载体。媒体具有多种形式:1.存储信息的实体载体,如纸张、磁盘等;2.表述信息的逻辑载体,如文字、声音、图形、图像等。31、媒体的分类根据CCITT的定义,媒体可分为五种:感觉媒体:例如声音、文字、图像及物质的质地、形状等。表示媒体:例如语言、图像、视频的编码方式。显示媒体:例如输入显示媒体(键盘等)和输出显示媒体(显示器等)。存储媒体:例如磁盘、光盘等。传输媒体:例如双绞线、光纤等。42、多媒体与多媒体技术通常人们将各种感觉媒体包括文字、声音、图形、图像、动画、视频称为多媒体。多媒体技术是指利用计算机综合处理(获取、编辑、存储和显示)多种媒体信息(文本、图形、图像、音频和视频)的技术。多媒体技术涉及:数字化信息处理技术、音频和视频技术、计算机软硬件技术、人工智能和模式识别技术、通信和网络技术。5多媒体技术的主要特性多样性集成性交互性多媒体的关键技术大容量数据存储多媒体压缩编码和解码虚拟现实(VR)技术多媒体数据库智能多媒体技术多媒体信息检索63、多媒体计算机系统多媒体计算机系统的组成:硬件系统(P94图4-4)软件系统(操作系统)多媒体API(应用程序接口)多媒体创作工具软件多媒体应用系统74.2光盘存储系统光盘存储系统由光盘和光盘驱动器组成。光盘又称CD(CompactDisc)通过光学方式来记录和读取信息。光驱是对光盘上存储的信息进行读写操作的设备。CD-ROM驱动器的速度通常以数据传输率来衡量,数据传输率以150KB/S为一倍速。81、光盘主要特点记录密度高存储容量大采用非接触方式读/写信息信息保存时间长多种媒体融合价格低廉92、光盘的类型按读写性能可分为三种:只读光盘存储器:包括CD-DA、CD-ROM、VCD、DVD-ROM。一次可写光盘存储器:包括CD-R,DVD-R。特点每个记忆单元只能写入一次,信息写入后呈只读状态。多次可擦写光盘存储器:包括CD-RW,DVD-RW,DVD-RAM。特点可多次读写,采用相变或磁光技术。103、光盘的标准CD-DA:数字式激光唱盘,用于存储数字化的高保真立体声音乐。CD-ROM:制定了光盘存储只读信息的统一标准,可用于存储数据、文本、图形、图像、声音、视频等信息。CD-R:一次写入,永久读的标准。用途:CD-R空白光盘在按一定文件格式刻写数据后,可变成CD-DA、CD-ROM、VCD等格式的光盘。11VCD(Video-CD):用于表述在光盘上存放Mpeg-1标准编码的全动态图像及其相应声音数据(数字电视视盘)。DVD:数字通用光盘,主要用于存储多媒体软件和影视节目。特点:容量单层4.7GB,4层17GB采用Mpeg-2标准进行视频处理12蓝光光盘(Blue-rayDisc,简称BD)是新一代光盘标准,用以存储高品质的影音以及高容量的数据存储。一个单层的蓝光光碟的容量为25GB,双层50GB,四层100GB;可以支持VC-1、Mpeg-2、H.264、Mpeg-4等视频标准。134、光盘记录与读取信息的原理光盘读取信息的原理:光盘上用“平面”和“凹坑”来表示二进制信息,通过激光的反射来读出其中存储的信息。激光照射在“平面”上将有70%~80%光反射回来,CD头顺利读取;若照射在“凹坑”将出现激光散射,CD头无法接收。14光盘刻录的原理:1.CD-ROM光盘中的数据通过压模或化学刻写方法制成。2.CD-R光盘增加了一层有机染料作为记录层,在刻录CD-R盘片时,通过大功率激光照射CD-R盘片的染料层,在染料层上形成代表信息的平面和凹坑,由于这种变化是一次性的,所以CD-R盘片只能写入一次,不能重复写入。153.CD-RW的刻录原理与CD-R大致相同,只在记录层上镀的是一层结晶物质,这种结晶层能够呈现出结晶和非结晶两种状态,等同于CD-R的平面和凹坑。通过激光束的照射,可以在这两种状态之间相互转换,所以CD-RW盘片可以重复写入。163.3多媒体音频信号处理1、音频信号的类型音频信号可分为两类:语音信号和非语音信号。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,这条曲线可分解成一系列正弦波的线性叠加。17模拟音频信号的两个重要参数:频率体现音调的高低;幅度体现声音的强弱。周期(T):信号在两个峰点或谷底之间的相对时间。频率(f):每秒钟波峰所发生的数目,单位用赫兹(Hz)或千赫兹(kHz)表示,周期与频率互为倒数,f=1/T。幅度(振幅):从信号的基线到当前波峰的距离。18亚音(subsonic):频率小于20Hz的信号音频(Audio):频率范围为20Hz~20kHz的信号超音频(ultrasonic):高于20kHz的信号日常说话的语音信号频率范围:300~3000Hz192、音频的数字化过程计算机要处理音频信息,首先要将模拟音频信号(如语音、音乐等)转变成数字信号,这个过程称之为模/数转换(A/D)。模拟信号数字化过程的三个步骤:采样、量化和编码。模拟信号的数字化过程100101100011101201)采样采样是指用每隔一定时间间隔,在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。采样周期:即采样的时间间隔,(其倒数为采样频率)采样频率:每秒钟对模拟信号的采样次数奈奎斯特采样定理:采样频率≥2×信号最高频率。目前最常用的三种采样频率分别为:电话效果(11kHz)、FM电台效果(22kHz)和CD效果(44.1kHz)。212)量化量化:对声波波形幅度的数字化。量化位数:量化时采用的二进制位数,位数越多,精度也越高,音质越细腻。例如,用16个二进制位(bit)表示声音,可将声音强度分为216=65536级。每秒声音的数据量=采样频率×量化位数×声道数/8(字节)22采样率为2000Hz,量化等级为20的采样量化过程在相同的采样频率下,量化位数愈高,声音的质量越好;在相同量化位数的情况下,采样频率越高,声音效果也就越好。23编码:是按照一定的格式,把量化后的值用二进制数字表示,并加入一些纠错、同步和控制的数据。常用的编码方式:脉冲编码调制(PCM),特点是抗干扰能力强、失真小、传输特性稳定。3)编码244)数字化音频文件的存储容量波形声音文件的存储量(未经压缩)=采样频率×量化位数×声道数×时间/8(字节)例4-1:用44.1KHz的采样频率进行采样,量化位数选用16位,则录制一分钟的立体声节目,求波形文件的大小?44.1K*16bit*2*60/8=10584KB约10MB253、数字音频的文件格式波形文件——.wavWAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值转换成二进制数,然后存入磁盘。WAV文件支持多种音频位数、采样频率和声道,但文件尺寸过大。Microsoft公司26MPEG音频文件——.mp1/.mp2/.mp3这里的音频文件格式指的是MPEG标准中的音频部分(音频层)。根据压缩质量和编码处理的不同分为3层,分别对.mp1/.mp2/.mp3这3种声音文件。MPEG音频文件的压缩是一种有损压缩,其中MPEG3音频编码具有10:1~12:1的高压缩率,用.mp3格式来储存,一般只有.wav文件的1/10,而音质要略次于CD格式或WAV格式的声音文件。使用千千静听、Winamp播放。27(补充)Mp3中位速的概念:Kbps又称比特率,指的是数字信号的传输速率。常见的MP3的位速:128Kbps=磁带(手机立体声MP3播放器最佳设定值、低档MP3播放器最佳设定值)192Kbps=接近CD(高档MP3播放器最佳设定值)320Kbps=Studio音乐工作室(音乐发烧友适用)28RealAudio文件——.RA/.RM/.RAM一种新型流式音频(StreamingAudio)文件格式,使用RealPlayer播放。特点:可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio主要适用于网络上的在线播放。RealNetworks公司出品29ASF文件——.ASF/.WMAASF和WMA都是微软公司针对Real公司开发的新一代网上流式数字音频压缩技术。这种压缩技术的特点是同时兼顾了保真度和网络传输需求,所以具有一定的先进性。可以利用WinAMP或媒体播放机播放。AIFF文件——.AIF/.AIFF苹果公司开发的声音文件格式,被Macintosh平台和应用程序所支持。CD音乐格式——.CDACD存储采用了音轨的形式,其取样频率为44.1kHz,16位量化位数,是一种近似无损的格式。30VOC文件VOC文件是Creative公司的波形音频文件格式,也是声霸卡使用的音频文件。MIDI文件——.MID/.RMIMIDI是数字乐器接口的国际标准,规定了使用数字编码来描述音乐乐谱的规范。计算机就是根据MIDI文件中存放的对MIDI设备的命令,即每个音符的频率、音量、通道号等指示信息进行音乐合成的。MID文件的优点是短小;缺点是播放效果因软、硬件而异。314、语音处理技术语音编码语音合成语音识别语音增强324.4多媒体图像信息处理1、计算机图像处理的概念计算机图像处理的主要研究内容:图像数字化(采样、量化、编码)图像变换图像编码压缩图像特征增强与提取计算机视觉和模式识别图像噪声的滤除332、彩色模型RGB模型(显示):将红(Red)、绿(Green)、蓝(Blue)三原色的色光以不同的比例相加,以产生多种多样的色光。CMYK模型(打印):印刷四分色模式利用色料的三原色混色原理,加上黑色油墨,共计四种颜色混合叠加,形成所谓“全彩印刷”。四种标准颜色是:C:Cyan=青色;M:Magenta=品红色(洋红色)。Y:Yellow=黄色。K:blacK=黑色,为了避免与RGB的Blue蓝色混淆而改称K。343、图像的数字化过程图像数字化过程分为:采样、量化和编码。1)图像采样是将二维空间上连续的图像用等距的水平线和垂直线分割成像素点,通过像素点的亮度(灰度)或色彩值来表示图像。像素把图像分割成离散的小区域即像素。一幅图像是M×N个像素的集合,M×N表示图像的分辨率。352)图像量化是将采样值划分成各种等级,用一定位数的二进制数(量化字长)来表示采样的值。量化字长(也称颜色深度)越大,则越能真实地反映原有图像的颜色。但得到的数字图像的容量也越大。3)图像编码是按一定的规则,将量化后的数据用二进制数据存储在文件中。位图文件(.bmp):MicrosoftWindows中使用的一种非压缩图像文件格式。36常见的几种位图图像:黑白图像:每个像素点仅用1bit表示。灰度图像:每个点由从0(黑色)到2n-1(白色)的亮度值来表现,其中间的值来表现不同程度的灰。每个像素点用nbit表示。彩色图像:任何一种颜色均可台用红、绿、蓝三种原色调配出来。每种颜色用若干位来表示。37例:一张分辨率为800×600的256色的图像需要多少的存储空间?位图存储量=分辨率*颜色深度/8位转换为字节800*600*8/8=480000Byte≈480KB像素点个数256=28个不同的色彩,用8位表示384、图像的压缩与编码数据之所以能够压缩是基于原始信源的数据存在着很大的冗余度。图像压缩:采用编码技术来压缩图像信息的比特量。图像压缩分类:有损压缩和无损压缩。经典压缩编码方法:预测编码、变换编码和统计编码。39行程编码(RLE)常用的无损压缩算法,将一扫描行中颜色值相同的相邻像素用两个字节来表示,第一个字节是一个计数值,用于指定像素重复的次数;第二个字节是具体像素的值。能够比较好地保存图像的质量,但是相对有损压缩来说这种方法