中南大学网络学院《多媒体技术》作业题参考解答第一章绪论1.什么是媒体?国际电信联盟定义了哪几类媒体?媒体是指信息存储、加工和传输的各种技术或手段。国际电信联盟定义了五大类媒体:存储媒体、传输媒体、显示媒体、表示媒体、感觉媒体。2.什么是多媒体?多媒体的主要特点是什么?多媒体是指融合两种以上不同媒体的人-机交互式信息交流的传播媒体。多媒体的特点是:①多媒体形式的多样性;②多媒体应用的交互式性;③多媒体技术的集成性;媒体传输的实时性。3.什么是超媒体?多媒体与超媒体之间有什么区别?超媒体是指通过超级链接技术将多媒体对象以非线性方式组织成网络结构的技术。超媒体与超文本之间的不同之处是,超文本主要是以文字的形式表示信息,建立的链接关系主要是文句之间的链接关系。超媒体除了使用文本外,还使用图形、图像、声音、动画或影视片断等多种媒体来表示信息,建立的链接关系是文本、图形、图像、声音、动画和影视片断等媒体之间的链接关系。4.多媒体技术的主要研究内容是什么?多媒体技术是一门综合性、理论性和实践性都很强的学科。作为一门相对独立的学科,它主要解决多媒体应用的各种理论和技术问题,主要包括:数据压缩与解压缩技术、音/视频专用芯片技术、多媒体软件技术、网络多媒体技术和多媒体存储技术。第二章数字语音技术1.什么叫做采样?什么叫做量化?什么叫做线性量化?什么叫做非线性量化?以某种特定的频率对模拟信号进行测量得到一系列离散样本的过程叫做采样(sampling)。量化是指把样本表示成二进制数的过程。线性量化是指量化间隔(样本幅值之差)为均匀值的一种量化。非线性量化则是指量化间隔(样本幅值之差)为非均匀值的一种量化。2.选择采样频率为22.050kHz和样本精度为16位的录音参数。在不采用压缩技术的情况下,计算录制2分钟的立体声需要多少MB(兆字节)的存储空间(1MB=1024×1024B)存储空间=22.050x1000样本/秒x16位/样本x1字节/8位x2(立体声)x2分钟x60秒/分=5292000字节=5292000/1024KB=5168KB=5168/1024MB=5.047MB第三章话音编码1.用自己的语言说出下面3种话音编译码器的基本想法。①波形编译码器,②音源编译码器,③混合编译码器答:波形编译码器的基本思想是,通过对话音波形信号采样来生成一种与原始话音波形尽可能一致的重构信号。一般来说,这种编译码器的复杂程度比较低,数据速率在16kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。在话音生成模型中,声道被等效成一个随时间变化的滤波器,它由白噪声—无声话音段激励,或者由脉冲串——有声话音段激励。因此需要传送给解码器的信息就是滤波器的规格、发声或者不发声的标志和有声话音的音节周期等。混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔,混合使用波形编译码和音源编译码技术。一般来说,波形编译码器的话音质量高,但数据率也很高;音源编译码器的数据率很低,产生的合成话音的音质有待提高;混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。2.什么叫做均匀量化?什么叫做非均匀量化?采用相等的量化间隔对采样得到的信号进行的量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化。非均匀量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示整个信号。3.什么叫做律压扩?什么叫做A律压扩?律压扩是非均匀量化的一种,又称为对数PCM,其量化输出值与作为输入的采样样本值之间的关系由如下的关系式规定:式中:x为输入信号幅度,规格化成-1≤x≤1;sgn(x)为x的极性;为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100500。具体计算时,用=255,律压扩也是非均匀量化的一种,其量化输出值与作为输入的采样样本值之间的关系由如下的关系式规定:0|x|1/A1/A|x|1式中:x为输入信号幅度,规格化成-1x1;sgn(x)为x的极性;A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。4.G.711标准定义的输出数据率是多少?对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s。这个数据就是CCITT推荐的G.711标准。第四章无损数据压缩1、现有8个待编码的符号,它们的概率为:0.15,0.4,0.2,0.03,0.07,0.04,0.10,0.01。使用霍夫曼编码算法求出这8个符号的所分配的代码,并计算平均码长。①将各个码元的概率值按升序(或者降序)排列。0.4,0.2,0.15,0.10,0.07,0.04,0.03,0.01②把最小的两个概率值相加,得到一个新的概率值,将这个新概率值与剩下的其他概率值一起重新按升序排序。0.4,0.2,0.15,0.10,0.07,0.04,0.03,0.01③重复第2步,直到生成一个二叉树形结构,其根节点为概率值1。0.4,0.2,0.15,0.10,0.07,0.04,0.03,0.01④为生成树的各个分支分配编码,原则是:对于一个父节点的两个分支,概率值大的分支赋予1,概率值小的分支赋予0。0.4,0.2,0.15,0.10,0.07,0.04,0.03,0.01⑤从根节点开始,沿到各个叶节点(对应码元)的路径,读取路径各个链路的编码,所得到的编码序0.040.040.080.150.250.350.601.00.040.080.150.250.350.601.011111110000000列即为各个码元的Huffman编码:0.4,0.2,0.15,0.10,0.07,0.04,0.03,0.010111101100110011011110101110100平均码长=1x0.4+3x0.2+3x0.15+3x0.10+4x0.07+5x0.04+6x0.03+6x0.01=2.272、给出报文ababcbababaaaaaaaaab的LZ77(设滑动窗口为10)和LZSS编码(设滑动窗口为10,最小匹配长度为2)。①LZ77编码:(0,0,a)(0,0,b)(2,2,c)(4,3,a)(2,2,a)(2,2,a)(4,4,b)②LZSS编码ab(2,2)c(4,3)(8,3)a(2,2)(4,4)(10,2)第五章数字图像技术1、用十六进制表示的8位压缩图像数据如下:0304050600034556670002780002050102780000091E0001试将这些压缩数据还原为图像数据。04040406060606064556677878*****78781E1E1E1E1E1E1E1E1E说明:*表示空,即不显示图像像素。2、如果有一幅256色的图像,问该图的颜色深度是多少?8位。3、JPEG压缩编码算法的主要计算步骤有哪些?假设计算机的精度足够高,问在这些计算方法中,哪些计算对图像的质量是有损的?哪些计算对图像的质量是无损的?①DCT变换,②量化,③Z字形编码,④使用DPCM对直流系数(DC)进行编码,⑤使用RLE对交流系数(AC)进行编码,⑥熵编码。第2步量化和第4步DPCM编码会产生失真,其他是无损的。第六章数字视频技术1.世界上主要的彩色电视制式有哪几种?目前世界上现行的彩色电视制式有三种:NTSC制、PAL制和SECAM制。NTSC(NationalTelevisionSystemsCommittee)彩色电视制是1952年美国国家电视标准委员会定义的彩色电视广播标准,称为正交平衡调幅制。美国、加拿大等大部分西半球国家,以及日本、韩国、菲律宾等国和中国的台湾采用这种制式。由于NTSC制存在相位敏感造成彩色失真的缺点,因此德国(当时的西德)于1962年制定了PAL(Phase-AlternativeLine)制彩色电视广播标准,称为逐行倒相正交平衡调幅制。德国、英国等一些西欧国家,以及中国、朝鲜等国家采用这种制式。法国制定了SECAM(法文:SequentialColeurAvecMemoire)彩色电视广播标准,称为顺序传送彩色与存储制。法国、苏联及东欧国家采用这种制式。世界上约有65个地区和国家试验这种制式。2.隔行扫描是什么意思?非隔行扫描是什么意思?隔行扫描中,一帧(frame)图像由奇数行构成的一场和偶数行构成的一场组成,即两场合起来组成一帧。因此在隔行扫描中,无论是摄象机还是显示器,获取或显示一幅图像都要扫描两遍才能得到一幅完整的图像。在非隔行扫描中,电子束从显示屏的左上角一行接一行地扫到右下角,在显示屏上扫一遍就显示一幅完整的图像,3.PAL制彩色电视使用什么颜色模型?NTSC制彩色电视使用什么颜色模型?计算机图像显示使用什么颜色模型?PAL制式使用YUV颜色模型,NTSC制式使用YIQ颜色模型,计算机则使用RGB颜色模型。4.ITU-RBT.601标准规定PAL和NTSC彩色电视的每一条扫描线的有效显示像素是多少?720像素。5.一幅YUV彩色图像的分辨率为720×576。分别计算采用4:2:2、4:1:1和4:2:0子采样格式采样时的样本数。①4:2:2Y样本数=720x576=414720U样本数=V样本数=414720/4=103680总样本数:414720+103680+103680=622080②4:1:1Y样本数=720x576=414720U样本数=V样本数=414720/16=25920总样本数:414720+25920+25920=466560③4:2:0Y样本数=720x576=414720U样本数=V样本数=414720/16=25920总样本数:414720+25920+25920=466560第七章MPEG视频1.MPEG专家组在制定MPEG-1/-2Video标准时定义了哪几种图像?哪种图像的压缩率最高?哪种图像的压缩率最低?MPEG专家组在制定MPEG-1/-2Video标准时定义了I图像、P图像和B图像3种图像。B图像压缩率最高,I图像压缩率最低。2.什么是MPEG-4的视频对象?什么是MPEG-4的视频对象区?一个视频对象是指视频图像序列中的同一个物理对象。位于一个图像中的视频对象称为一个视频对象区。3.什么是MPEG-4的轮廓编码?什么是MPEG-4的纹理编码?在形状自适应宏块网格中,对轮廓宏块进行基于DCT的编码称为轮廓编码;对轮廓宏块和标准宏块进行基于DCT的编码称为纹理编码。第八章光学存储媒体1.激光唱盘播放机的声音数据传输率是多少?44.1KHzx1000x16bitx2channels=1315200bps第九章网络多媒体应用1.因特网电话和实时电视会议是多媒体网络应用中频繁交互的应用例子,根据人的听觉系统,对延迟小于150毫秒的声音感觉不到有时延,在150毫秒400毫秒之间的时延可以接受,时延超过400毫秒的会话就令人甚感别扭。2、网络多媒体应用有哪些类型?1.现场交互应用:因特网电话和实时电视会议是频繁交互的应用例子。在这种应用场合下,与会者在任何时候都可能说话或者移动。从与会者说话或者移动的动作到达接收端的时延应该小于几百毫秒才能为用户接受。2.交互应用:声音点播、影视点播是交互应用的例子。在这种应用场合下,用户仅仅是要求服务器开始传输文件、暂停、从头开始播放或者是跳转而已。从用户发出请求播放到在客户机上开始播放之间的时延大约在1~5秒钟就可以接受。对信息包时延和抖动的要求不像因特网电话和实时会议那样高。3.非实时交互应用:现场声音广播和电视广播或者预录内容的广播是非实时交互应用的例子。在这些应用场合下,发送端连续发出声音和电视数据,而用户只是简单地调用播放器播放,如同普通的无线电广播