第二部分多媒体应用基础任课教师:姚瑞霞yaorx@cic.tsinghua.edu.cn办公电话:62782934办公室:东主楼8区309室教务老师:戴音627732402从一个报奖通知说起一份国家级教学成果奖申报材料要求:除纸介质的申报材料外,须提供反映成果的视频光盘。光盘要求能在标准配置的计算机上播放,片长不超过15分钟(附解说词)。光盘上的视频材料要做成使用mpeg4格式压缩的avi视频文件和rm格式压缩的流媒体文件各一份。视频材料制作的技术标准是参考教育部《现代远程教育技术标准体系和11项试用标准(简介)V1.0版》制定的,包括音频、视频两部分的基本技术要求。3音频制作的技术要求数字化音频的采样频率不低于11KHZ。量化位数大于8位。声道数为双声道。数字化音频要以WAV格式为主。用于欣赏的音乐为MP3格式。MIDI设备录制音乐使用MIDI式。音频数据要制作成REAL流媒体格式格式。4视频制作的技术要求存储为mpeg4格式压缩的avi视频文件和rm格式压缩的流媒体文件。彩色视频素材每帧图像颜色数不低于256色。黑白视频素材每帧图像灰度级不低于128级。数字化音频要以WAV格式为主。视频类素材中的音频与视频图像有良好的同步。图像清晰,视频信号稳定,没有扭曲、晃动、抖动、闪耀等现象。视频采样使用Y、U、V分量采样模式,采样基准频率为13.5MHz。5多媒体应用教学目标掌握多媒体技术基本概念:数字化(采样、量化)多媒体压缩编码国际标准JPEG(静态图像),MPEG(动态图像),MP3(音频)了解内容:多媒体文件的类型多媒体文件的常规处理多媒体技术的典型应用多媒体关键技术6内容提要多媒体技术概述图像数字化音频数字化多媒体数据压缩数字图像文件类型数字音频文件类型多媒体技术的应用领域应用:数字图像的处理7概念:多媒体媒体(Medium)在计算机领域中有两种含义:一种指用以存储信息的实体,如磁带、磁盘、光盘等。另一种指信息的载体(表现形式),如数字、文字、图像、图形、动画、视频、音频等。多媒体技术中的媒体是指后者。多媒体是融合两种或两种以上媒体的一种人机交互式信息交流和传播媒体。8概念:多媒体技术多媒体技术是利用计算机通过文字、图像、图形、动画、音频、视频等多种信息形式的交互混合,以数字化的方式集成在一起,从而使计算机具有表现、处理、存储多媒体信息的综合能力和交互能力。基本条件:以计算机技术为核心具有人机交互的特点多媒体技术所处理的多种媒体是逻辑关联的复合数据9多媒体关键技术多媒体输入/输出技术多媒体数据压缩/解压缩技术多媒体专用芯片技术多媒体存储设备与技术多媒体数据管理技术多媒体通信技术10如何记录多媒体数据(声音)留声机一台由大圆筒、曲柄、受话机、短针、膜板和记录介质(蜡盘)组成的机器。原理:膜板随着说话声会引起震动,说话的快慢高低能使短针产生相应的不同颤动,蜡盘均速旋转,声音最终以蜡上划痕的深浅记录下来。将蜡盘固化,在一套反方向的装置上:盘转,短针上下高底不同地拉动一张膜板,膜板就“说出”记录的声音。模拟录音和数字录音11模拟音频和数字音频音频模拟信号模拟音频技术通过模拟电压的幅度表示声音的强弱。模拟声音的录制是将代表声音波形的电信号转换到适当的媒体上。声音波形示例时间振幅12模拟音频和数字音频音频数字信号声音信息的数字化过程是每隔一个时间间隔在模拟声音波形上取一个幅度值(称为采样,采样的时间间隔称为采样周期),并把采样得到的表示声音强弱的模拟电压用数字表示(称为量化)。声音数字化13数字音频的两个要素采样频率越高,数字化音频的质量也就越高。量化位数越大,对音频信号的采样精度就越高。量化位数采样频率14采样频率采样频率根据奈奎斯特定理:要想不产生低频失真,则采样频率至少得是录制的最高频率的两倍。人类的听力范围是20Hz-20kHz,以“人们听不到失真”为限,采样频率至少得是20k×2=40kHz。原始波形录制后的波形15量化位直接决定了采用多少个“台阶”来表示声波振幅的范围(动态范围)。每增加一个bit,表示声波振幅的台阶数就翻一番,并增加6dB的动态范围。量化位:常用的有8位、16位和32位,其中以16位为主。量化位数量化位数电平级数动态范围126dB2412dB3818dB41624dB166553696dB201048576120dB2416777216144dB16声音质量和数据率17如何记录多媒体数据(图像)图像是自然界中的客观景物通过某种系统的映射,使人们产生视觉感受。镜头成像面视角焦距小孔成像原理传统相机成像过程:1.经过镜头光聚焦在胶片上2.胶片上的感光剂随光发生变化3.经显影液显像4.成像数码相机成像过程:1.经过镜头光聚焦在CCD上2.CCD将光转换成电信号3.经处理器加工,记录在内存上4.通过显示器表示,或打印机打印18数字化图像采样和量化多媒体计算机处理图像和视频,首先必须把连续的图像函数f(x,y)进行空间和幅值的离散化处理。F(x,y)采样:空间连续坐标(x,y)的离散化处理。量化:f(x,y)颜色的离散化。数字化:两种离散化结合在一起。图像离散化的结果称为数字图像。xy现实中的图像是一种模拟信号。图像数字化目的:变成计算机能够显示和存储的格式。[F(m,n)]N×M采样N个点M19采样和量化Pixel(像素)PictureElement采样的实质就是要用多少点来描述一张图像。比如,一幅420×570的图像,就表示这幅图像是由293400个点所组成。量化是指要使用多大范围的数值,来表示图像采样之后的每一个点的色彩信息。例如,用3个bits存储一个点,表示该图像只能有8种颜色来表现。2021多媒体数据的信息量举例1一页印在B5(约180mm×255mm)纸上的文件,若以中等分辨率(300dpi)的扫描仪进行采样,其数据量约6.1Mb。一片650MB的CD-ROM,可存约850页。1inch=25.4mm图像像素点个数=(300×180)÷25.4×(300×255)÷25.4每个像素点量化位为1bit/24bit黑白图像文件大小=6403063×1÷1024÷1024=6.1Mb真彩色图像文件大小=6403063×24÷1024÷1024=147Mb22多媒体数据的信息量举例2双通道立体声激光唱盘(CD-A),采样频率为44.1KHz,采样精度(量化)16位/样本。其一秒钟时间内的采样位数为1.35Mb/s,一个650MB的CD-ROM,可存约1小时的音乐。文件每秒存储量(字节/秒)=采样频率(Hz)×采样精度(位)×声道数/844.1×103×16×2÷8=176400B/s=1.35Mb/s一张650MB的CD-ROM,可存音乐:650×8÷1.35÷60÷60=1.07H23多媒体数据压缩的必要性数字化后的信息,尤其是数字化后的视频和音频信号具有数据的海量性。它给信息的存储和传输造成较大的困难,成为阻碍人类有效地获取和使用信息的瓶颈问题之一。因此研究和开发新型有效的多媒体数据压缩编码方法,以压缩的形式存储和传输这些数据将是最好的选择。24多媒体数据压缩的可能性信息量与数据量的关系:I=D-duI——信息量D——数据量du——冗余量举例:语音数据中文广播员一分钟读180个汉字,一个汉字存储两个字节,共需360个字节。采样频率为8kHz(人类语言带宽为4kHz),8位/样本。采样1分钟,其数据量为:8K/s×8b×60s÷8=480KB一分钟的数据冗余为480KB/360B≈1000(倍)的冗余数据冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度叫做“冗余度”。25图像数据的冗余性空间冗余:规则物体的表面具有物理相关性,将其表面数字化后表现为数据冗余。例如,图像中的规则物体,其亮度、饱和度及颜色相同的区域26图像数据的冗余性时间冗余:视频信号和动画一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面。27图像数据的冗余性规则有序排列的图形结构冗余:有些图像的纹理区,图像的像素值存在着明显的分布模式。例如,方格状的地板图案等。我们称此为结构冗余。已知分布模式,可以通过某一过程生成图像。28知识冗余:有些图像的理解与某些基础知识有相当大的相关性。例如:人脸的图像有固定的结构。比如说嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正脸图像的中线上,等等。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。根据已有的知识,对某些图像中所包含的物体,我们可以构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。数据的冗余性29数据的冗余性视觉冗余:人类视觉系统对于图像场的任何变化,并不是都能感知的。人类视觉系统对亮度变化敏感,而对色度的变化相对不敏感;在高亮度区,人眼对亮度变化敏感度下降对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感。听觉冗余:人耳对不同频率的声音的敏感性是不同的,并不能觉察所有的变化,对某些频率并不比特别关注。30数据压缩的条件数据冗余:冗余即是相同或者相似信息的重复。可以在空间范围重复,也可以在时间范围重复;可以是严格重复,也可以是以某种相似性重复。人类不敏感(心理视觉听觉冗余)。31数据压缩与概率数据压缩是用编码实现的Morse电码32数据压缩算法的理论基础信息之父C.E.Shannon首次用数学语言阐明了概率与信息冗余度的关系。指出任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。Shannon借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式,信息熵也奠定了所有数据压缩算法的理论基础。C.E.Shannon33常用压缩编码方法分类冗余压缩法由于不会产生失真,一般用于文本、数据以及应用软件的压缩,它能保证完全地恢复原始数据。但这种方法压缩比较低,一般在2:1~5:1之间。熵压缩法由于允许一定程度的失真,可用于对图像、声音、动态视频等数据的压缩。压缩比将达到几十倍甚至上百倍。34行程编码(RLE,Run-LengthEncoding)原则:重复的数据值序列用一个重复次数和单个数据值来代替。常用编码格式例如,字符串RTAAAASDEEEEE经RLE压缩后为:RT*4ASD*5E行程编码算法控制符重复次数被重复对象35预测编码原理预测编码是根据离散信号之间存在着一定关联性的特点,利用前面一个或多个信号预测下一个信号进行,然后对实际值和预测值的差(预测误差)进行编码。Frame1Frame2ResidualFrameDemo36压缩评价指标衡量一种数据压缩技术的三个重要指标:压缩比要大恢复效果要好,要尽可能地恢复原始数据实现压缩的算法要简单,压缩、解压速度快,尽可能地做到实时压缩、解压从技术应用目的评价压缩指标面向存储的技术面向传输的技术37多媒体数据压缩编码的国际标准标准化是产业活动成功的前提标准制定的目的:使信息管理系统具有普遍性和互操作性,并确保了未来的兼容性,有助于大批量生产。标准制定方法:综合现有的编码技术,制定标准。标准制定组织:国际标准化协会(ISO),国际电子学委员会(IEC),国际电信协会(ITU)等38多媒体数据压缩编码的国际标准压缩对象:音频、静态图像、动态图像JPEG,连续色调静止图像压缩标准JPEG的全称是“联合图像专家组”(JointPhotographicExpertGroup)MPEG系列标准MPEG是“活动图像专家组”(MovingPictureExpertsGroup)英文的缩写,于1988年成