丑八怪出版Chapter1何谓多媒体呢?“多媒体”一词译自英文“Multimedia”即“Multiple”和”Media”的合成,其核心词是媒体。媒体:信息传递和存取的最基本的技术和手段通常概念的“媒体”,可分为以下五种类型:感觉媒体:能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。表示媒体:为了传送感觉媒体而人为研究出来的媒体。借助于此种媒体,便能更有效的存储或传送感觉媒体。如语言编码、电报码等。显示媒体:用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设施,键盘鼠标器、显示器、打印机等。传输媒体:用于传输某些媒体的媒体。如电话线、电缆光纤等。存储媒体:用于存放某种媒体的媒体。如纸张、磁带、磁盘、光盘等。多媒体的定义:多种媒体信息的综合,文本、图形、图像、音频和视频各种媒体信息的综合。文本分为非格式化文本文件和格式化文本文件。非格式化文本文件:只有文本信息没有其他任何有关格式信息的文件,又称为纯文本文件。如“.TXT”文件。格式化文本文件:带有各种文本排版信息等格式信息的文本文件。如“.DOC”文件。图形(Graphic)一般指用计算机绘制的画面,如直线、圆、圆弧、矩形、任意曲线和图表等。在图形文件中只记录生成图的算法和图上的某些特征点,因此也称矢量图。图像(Image)是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,阵列中的各项数字用来描述构成图像的各个点(称为像素点pixel)的强度与颜色等信息。这种图像也称为位图(bit-mappedpicture)。图像文件在计算机中的存储格式有多种,如BMP、PCX、TIF、TGA、GIF、JPG等,一般数据量都较大。采样频率(samplingrate)是将模拟声音波形转换为数字时,每秒钟所抽取声波幅度样本的次数,单位是Hz(赫兹)。数字音频的存储量:可用以下公式估算声音数字化后每秒所需的存储量(未经压缩的)存储量=采样频率×量化位数×声道数÷8若使用双声道,存储量再增加一倍例如,数字激光唱盘(CD-DA)的标准采样频率为44.1kHz,量化位数为16位,立体声。一分钟CD-DA音乐所需的存储量为44.1K×16×2×60÷8=10584KB视频文件的存储格式有AVI、MPG、MOV等。多媒体通信的三个主要特性:集成性、交互性、同步性。集成性是指以计算机为中心综合处理多种信息媒体,它包括信息媒体的集成和处理这些媒体的设备的集成。交互性是指用户可以与计算机的多种信息媒体进行交互操作,从而为用户提供了更加有效地控制和使用信息的手段。丑八怪出版同步性是指在多媒体通信终端上所显示的文字、声音和图像是以在时空上的同步方式工作的。Chapter2多媒体信息的特点:○1多媒体数据类型复杂(多样性)○2多媒体数据的实时性○3多媒体数据的同步性○4数据量大○5多媒体数据的交互性○6码率可变、突发性强信息压缩的必要性:信息量大,数据量大,通信系统中信道带宽和存储设备有限。信息压缩的可行性:空间冗余、时间冗余、视觉冗余、编码冗余、结构冗余、知识冗余、其他冗余。(主要是前三种)Chapter3声音的频率是多少?声音分类频率范围亚声波0-20Hz人类听力所能接受20-20KHz超声波20K-1GHz超高声波1G-10GHz采样频率:话音信号的最高频率约为3.4kHz,采样频率一般选为8kHz。音频采样频率的常见标准有11.025kHz,22.05kHz,44.1kHz,48kHz等。声音未经压缩时的码率可由下式算出:声音的码率=采样频率×量化精度×声道数声音类型声音带宽(Hz)采样频率(kHz)量化位数(bits)声道数未压缩时的码率(kbps)数字语音300-340088164CD唱片20-2000044.11621411.2掩蔽效应:一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音,后者称为被掩蔽声音。时域掩蔽效应:是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。频域掩蔽效应:一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。丑八怪出版ITU-TG系列音频压缩编码标准Chapter4图像的颜色模型RGB模型--显示系统(加色)颜色=R(红的百分比)+G(绿的百分比)+B(蓝的百分比)CMY模型--印刷工业减色混合模型,用青色(C)、紫色(M)、黄色(Y)按一定比例产生的颜色XYZ模型--传输存储RGB模型不用传输系统的原因:1.大大加宽视频信号带宽2.与单色电视不兼容3.增加相关设备成本三种电视系统:1.PAL:大多数西欧国家、中国、中东25帧/秒YUV2.NTSC:北美、日本等部分亚洲国家30帧/秒YIQ3.SECAM:前苏联、东欧、法国、中东25帧/秒YUVYUV模型Y表示亮度信号,UV表示色度信号,Y与UV是分离的。如只有Y,没有UV,则为黑白灰度图像。YIQ模型Y表示亮度信号,IQ分量分别由UV分量旋转33度YCbCr模型YCbCr模型是YUV模型派生出来的模型主要用于数字电视系统以及图像视频压缩标准HSI模型--图像处理反映了人的视觉系统观察彩色的方式,I分量与图像的彩色信息无关,H和S分量与人感受颜色的方式是紧密相联的图像的数字化包括采样和量化、编码等过程。采样:将空间上连续的图像变换成离散点的操作称为采样。静态:先沿垂直方向采样,再沿水平方向采样;运动:先在时间轴上采样,再沿垂直方向采样,最后沿水平方向采样。量化:把采样后所得的各像素的灰度值转换为整数的过程称为量化。与量化有关的概念1、表示像素明暗程度的整数称为灰度级。(或灰度值、灰度)2、一幅数字图像中不同灰度级的个数称为灰度级数(G)3、G=2g,g表示存储图像灰度级数所需的比特位数(bit)(G灰度等级,g像素深度)如:灰度级数G=256,8比特量化,(0-255)或=6比特的量化,可以满足视觉效果;8比特量化4、均匀量化和非均匀量化一般使用均匀量化标准比特速度编码技术应用G.71164kb/sPCM公共电话网GSM音频13kb/sRPE-LPCGSM移动网丑八怪出版目前使用的子采样格式有如下几种:(1)4:4:4采样方式(2)4:2:2采样方式如:(3)4:1:1采样方式(4)4:2:0采样方式(注意:0不代表没有)已知Y分量,如何求U、V分量?按比例计算MATLAB指令:○1dct2函数○2idct2函数○3dctmtx函数功能:二维DCT正变换功能:二维DCT反变换功能:计算DCT变换矩阵格式:B=dct2(A)格式:B=idct2(A)格式:G=dctmtx(n)DCT变换的性质:①DCT是实数序列偶延拓后的DFT变换②变换矩阵与变换内容无关,正反变换变换核相同③DCT具有可分离性,二维DCT可变为两次一维DCT④去相关性仅次于K-L变换,由于其实现容易,因而广泛应用⑤F(0,0)为直流系数,其余则为交流系数,系数主要集中在直流和低频部分图像信号的正交变换的特点:能量守恒性:能量集中性:空间域亮度均匀分布,频率大部分能量集中在低频系数上去相关性:空间域相关像素,通过正交变换在频域大大降低变换系数之间相关性。熵保持性:变换系数F(u,v)的熵值和原图像信号f(x,y)熵值相等。图像的统计特性图像空间域统计特性相邻像素之间的相关特性随两像素之间距离增大而减小。图像差值信号统计特性帧内差值统计特性:指对一幅(帧)图像内部像素进行的统计特性。它为电视图像的帧间压缩编码提供重要依据。图像频域统计特性从频谱角度看出,电视/图像信号绝大部分能量集中于频率域中的低频部分。图像压缩的性能指标:①平均码字长度:②压缩比:③编码效率:④冗余度:⑤比特率:编码的平均码长霍夫曼编码编码过程:①按概率从大到小的顺序排列信源符号:4.43:1.3:1.3YMHzPALUMHzVMHz1111220000(,)(,)MNMNxyuvfxyFuv1()miiiLpxLnrL()HXL1丑八怪出版②从最小的两个概率开始编码,将概率较大的信源符号编为1(或0),将概率较小的信源编为0(或1),如果两个符号概率相同,则任意编码1或者0③对已编的两个概率求和,其结果与未编码的概率从大到小排序④重复第二、三步,直到概率达到1为止⑤画出每个信源符号的概率到1处的路径⑥沿路径的逆方向记下每个符号的二进制序列,即为霍夫曼编码例子说明:①编码不唯一,但平均码长相同②编码效率相同,但对应码字不同③方差Var(C1)=1.36,Var(C2)=0.16,表明第二种编码码字变化小,是比较可取的方法,因在恒定码率的情况下,字长变化小对缓冲器的容量就小④霍夫曼编码是唯一可译码结论:在霍夫曼编码过程中,对缩减信源符号按概率由大到小的顺序重新排列时,应使合并后的新符号尽可能排在靠前位置,使新符号重复编码次数减少,使短码得到充分利用行程长度编码扫描一行中,黑白像素连续出现的数目,按照各个行程长度出现的概率分布为其分配相应的码字,达到压缩的目的国际传真编码标准G3采用改进霍夫曼编码,将码表分为终止码表和形成码表终止码表较短的行程发生的概率比较大,直接进行编码,即终止码统计表明:行程长度为0~63发生的概率大形成码表对于发生概率小的较长的行程采用行程=64N+M的方式进行编码,N即为形成码,M为终止码查表规则如下:G3规定:传真每行为1728个像素①行程小于64的,查终止码表直接编码②行程大于63的,以64的整数倍为索引查形成码表,以余数为索引查终止码表,两者组合即为其编码③G3规定,每一行以白长开始,其长度可以为0,以EOL码结束JPEG编码特点:①压缩比高,压缩质量比较好。图像主观质量损伤难以察觉②有多个参数。用户能得到所需的压缩比或图像质量丑八怪出版③无论连续色调图像的维数,彩色空间,像素宽高比或其他特征如何,都能得到良好的压缩效果。④处理速度快,具有成熟的价格低廉的硬件电路支持。⑤四种运行模式顺序模式:扫描从左到右,从上到下渐近模式:图像压缩由粗到细无损模式:不允许有像素损失分级模式:图像在多分辨率下进行压缩图像预处理格式转换:RGB→YUVRGB和YUV之间的变换不包含在JPEG算法中RGB各分量之间存在相关性,而YUV各分量之间的相关性弱二次采样:人眼对亮度敏感,而对色度不敏感,可以采用YUV422和YUV411数据单元DU:输入图像的每个分量被分割成相互不重叠的8×8的子块,块内的64个数据组成一个数据单元如果图像的行数或列数不是8的倍数,则复制底行和最右边一列至所需的倍数最小编码单元MCU:以最低采样频率的分量为准,将该分量一个DU所对应像区上覆盖的所有各分量上的DU按顺序编组为一个最小编码单元灰度图像:只有一个Y分量,1个MCU只有一个DU彩色图像:以YUV411采样,则1个MCU有4个Y分量的DU,1个U分量的DU,一个V分量的DUDC系数和AC系数扫描AC,DC均用二进制补码表示的整数量化后的系数表,仍是二维,且非零系数基本上都集中在左上角。DC系数远大于AC系数,且相邻子块的DC系数具有很强的相关性。直流系数(DC)编码编码方法前缀码+尾码前缀码:指明尾码的有效位数,其值为B尾码:将Diff表示成B位二进制DC系数AC系数开始1iiDiffDCDC(1024,1023)(2047,2047)iDCDiff0,B0,BDiff用位二进制原码表示用位二进制反码表示丑八怪出版原始图像分量为8bit精度时DC系数差值的典型霍夫曼编码表交流系数(AC)编码编码方法前缀码+尾码前缀码:(零行程,非零值),(NNNN,SSSS)NNNN:只能表示ZRL小于16的值,当值ZRL大于15时,用11110000扩展,再对ZRL=ZRL-16继续编码SSSS:查AC系数的尾码位数赋值表得数字B尾码:非零AC系