多媒体计算机技术-3

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第三讲数字信号处理基础信号处理的基本术语人类的听觉特性和视觉特性音频信号处理基础图像信号处理基础数字视频处理基础常用的信号处理算法常用的编码算法信号处理的基本术语信号的数字化处理包括两个步骤,一个是信号在时间上的离散化,即采样;另一个是幅度上的离散化,即量化。数字化之后的信号,将全部变为0、1序列,这就使得信息的采集、存储、传输、复制、加工异常方便。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔△t在模拟信号x(t)上逐点采集其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示采样的基本过程量化的两种方式第三讲数字信号处理基础√信号处理的基本术语人类的听觉特性和视觉特性音频信号处理基础图像信号处理基础数字视频处理基础常用的信号处理算法常用的编码算法人类的听觉特性和视觉特性人耳的听觉特性人眼的视觉特性人耳的听觉特性听域响度级(loudnesslevel)和响度(loudness)音调(pitch)掩蔽效应(maskingeffect)听域听觉阈值的大小随声音频率的改变而改变,不同的人的听觉阈值也不同。大多数人的听觉系统对2~5kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。显然,低于听觉阈值的信号在声音压缩时可以去掉。正常人可听声音的频率范围为20Hz~16kHz,考虑到正常语音的频谱范围一般在20Hz~4kHz之间,语音识别系统通常采用8kHz的采样频率。响度级和响度为了衡量人耳辨别不同纯音的不同灵敏度,定义声音的响度级P(phon),数值上1P等于1kHz纯音的声强级。确定声音的响度级时,需将其与1kHz的纯音相比较,调节1kHz纯音的声强,使其听起来与待测音同样响。此时,1kHz纯音相对于20Pa的声压级就规定为该声音的响度级。当频率较高或较低时,必须有较高的响度,人耳才能感觉到。当频率超过15000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到频率20000Hz的声音,不管响度有多大。响度/dB频率/kHz音调音调是人分辨声音高低时,描述这种感受的一种特性。相对频率低的声音,听起来感觉其音调低,而频率高的声音,听起来感觉其音调高。但是音调与声音的频率并不成正比关系,它还与声音的强度和波形有关。掩蔽效应心理声学模型中的另一个概念是听觉掩蔽效应,即一个强的语音信号可以掩盖一个相邻的弱信号。当两个响度不同的声音同时作用于人耳时,响度较高的频率成分会影响人耳对响度较低的频率成分的感知,使其变得不宜觉察,这种现象被称为掩蔽效应。人类的听觉特性和视觉特性√人耳的听觉特性人眼的视觉特性人眼的视觉特性人眼的视觉系统是世界上最好的图像处理系统,但它还远远不完美。人眼的视觉系统对图像的认知是非均匀的和非线性的,并不是对图像中的任何变化都能感知。对比灵敏度分辨率马赫效应•当亮度发生跃变时,会有一种边缘增强的感觉,视觉上会感到亮侧更亮,暗侧更暗。马赫效应会导致局部阈值效应,即在边缘的亮侧,靠近边缘像素的误差感知阈值比远离边缘阈值高3~4倍,可以认为边缘掩盖了其邻近像素第三讲数字信号处理基础√信号处理的基本术语√人类的听觉特性和视觉特性音频信号处理基础图像信号处理基础数字视频处理基础常用的信号处理算法常用的编码算法音频信号处理基础声音信号的特点声音信号的分类语音采样预加重加窗短时能量短时过零率声音信号的特点声音是通过空气传播的一种连续的波,如图所示。这种连续性表现在两个方面,一个是时间上的连续性,另一方面是指它在幅度上是连续的。声音信号的特点基频与音调谐波与音色幅度与音强音宽与频带基频与音调频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率ω所决定的。音乐中音阶的划分是在频率的对数坐标(20×log)上取等分而得的:谐波与音色nωO称为ωO的高次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An和相位偏移ψn,由此产生各种音色效果。幅度与音强人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3分贝的音强变化,再细分则没有太多意义。我们常用音量来描述音强,以分贝(dB=20log)为单位。在处理音频信号时,绝对强度可以放大,但其相对强度更有意义,一般用动态范围定义:动态范围=20×log(信号的最大强度/信号的最小强度)(dB)音宽与频带频带宽度或称为带宽,它是描述组成复合信号的频率范围声音信号的分类00)sin()(nnntnAtf多媒体技术中通常处理的是规则声音。规则声音是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。模拟信号的曲线无论多复杂,在任一时刻t都可分解成一系列正弦波的线性叠加:语音采样将话筒中传来的语音信号转换成计算机所能处理的数字信号,这个从模拟量到数字量的转变过程称为模-数转换。根据Nyquist采样定理,如果模拟信号的频谱带宽是有限的(假设最高频率为fm),那么用等于或大于2fm的采样频率进行采样所得到的等间隔离散时间序列(采样信号)能够完全惟一地代表原模拟信号,或者说能够由采样信号恢复出原始信号。预加重由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后有6dB/Oct(倍频程)的衰减。因此,在对语音信号进行分析之前,一般要对语音信号加以提升,提升的方法有两种:其一是用模拟电路实现;其二是用数字电路实现。采用数字电路实现6dB/Oct预加重的数字滤波器的形式为:其中,为原始信号序列,为预加重后的序列,为预加重系数,通常取0.9或1.0。)1()()(nxnxny)(nx)(ny加窗语音信号是一种典型的非平稳信号(即信号特征会随时间变化而变化)。但是,语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲缓慢得多,因此语音信号常常假定为短时平稳的,即在10~20ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。短时能量短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号的波形图中可以看到语音信号幅度随时间有相当的变化,特别是清音段的幅度比浊音段的幅度小得多。短时能量给出了反映这些幅度变化的一个合适的描述方法。短时平均能量可用于:区分清音段和浊音段对于高信噪比的语音信号,可以用来区分有无语音短时过零率在离散时间信号情况下,当相邻两次采样具有不同的代数符号时就称为发生了过零。过零率是指单位时间内信号由正变负或由负变正的总次数。短时过零率是窄带信号频率量的一个简单度量第三讲数字信号处理基础√信号处理的基本术语√人类的听觉特性和视觉特性√音频信号处理基础图像信号处理基础数字视频处理基础常用的信号处理算法常用的编码算法图像信号处理基础色彩的基本概念彩色空间及其变换RGB颜色模式HSB颜色模式YUV颜色模式CMYK颜色模式图像数据压缩的可能性统计冗余信息熵冗余结构冗余知识冗余视觉冗余色彩的基本概念从人的视觉系统看,色彩可用色调、饱和度和亮度来描述。人眼看到的任一彩色光都是这三个特性的综合效果,这三个特性可以说是色彩的三要素,其中色调与光波的波长有直接关系,亮度和饱和度与光波的幅度有关。图像深度与色彩类型图像深度与显示深度图像深度与色彩类型图像深度是指位图中记录每个像素点所占的位数,它决定了彩色图像中可出现的最多颜色数,或者灰度图像中的最大灰度等级数。每个像素点的图像深度的分配还与图像所用的色彩空间有关。以最常用的RGB色彩空间为例,图像深度与色彩的映射关系主要有真彩色、伪彩色和调配色。真彩色真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。例如图像深度为24,用R:G:B=8:8:8来表示色彩,则R、G、B各占用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16M种色彩。这样得到的色彩可以反映原图的真实色彩,故称真彩色伪彩色伪彩色(pseudo-color)图像的每个像素值实际上是一个索引值或代码,该代码值作为色彩查找表CLUT(ColorLook-UpTable)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。用这种方式产生的色彩本身是真的,不过它不一定反映原图的色彩。在VGA显示系统中,调色板就相当于色彩查找表。从16色标准VGA调色板的定义可以看出这种伪彩色的工作方式伪彩色伪彩色一般用于65K色以下的显示方式中。标准的调色板是在256K色谱中按色调均匀地选取16种或256种色彩。一般应用中,有的图像往往偏向于某一种或几种色调,此时如果采用标准调色板,则色彩失真较多。因此,同一幅图像,采用不同的调色板显示可能会出现不同的色彩效果。16色标准VGA调色板采用不同的调色板显示同一幅图像的效实例调配色调配色(direct-color)的获取是通过每个像素点的R、G、B分量分别作为单独的索引值进行变换,经相应的色彩变换表找出各自的基色强度,用变换后的R、G、B强度值产生的色彩。调配色与伪彩色相比,相同之处是都采用查找表,不同之处是前者对R、G、B分量分别进行查找变换,后者是把整个像素当作查找的索引进行查找变换。因此,调配色的效果一般比伪彩色好。调配色与真彩色比,相同之处是都采用R、G、B分量来决定基色强度,不同之处是前者的基色强度是由R、G、B经变换后得到的,而后者是直接用R、G、B决定。在VGA显示系统中,用调配色可以得到相当逼真的彩色图像,虽然其色彩数受调色板的限制而只有256色图像深度与显示深度显示深度表示显示缓存中记录屏幕上一个点的位数(bit),也即显示器可以显示的色彩数。因此,显示一幅图像时,屏幕上呈现的色彩效果与图像文件所提供的色彩信息有关,也即与图像深度有关;同时也与显示器当前可容纳的色彩容量有关,也即与显示深度有关。显示深度大于图像深度显示深度等于图像深度显示深度小于图像深度显示深度大于图像深度在这种情况下屏幕上的色彩能较真实地反映图像文件的色彩效果。如当显示深度为24位,图像深度为8位时,屏幕上可以显示按该图像的调色板选取的256种颜色;图像深度为4位时可显示16色。这种情况下,显示的色彩完全取决于图像的色彩定义显示深度等于图像深度在这种情况下,如果用真彩色显示模式来显示真彩色图像,或者显示调色板与图像调色板一致时,屏幕上的色彩能较真实地反映图像文件的色彩效果。反之,如果显示调色板与图像调色板不一致,则显示色彩会出现失真显示深度小于图像深度此时显示的色彩会出现失真。例如,若显示深度为8位,需要显示一幅真彩色的图像时显然达不到应有的色彩效果。在这种情况下不同的图像软件有不同的处理方法色调与色相绘画中要求有固定的色彩感觉,有统一的色调,否则难以表现画面的情调和主题。例如我们说一幅画具红色调,是指它在色彩上总体偏红。计算机在图像处理上采用数字化,可以非常精确地表现色彩的变化,色调是相对连续变化的。用一个园环来表现色谱的变化,就构成了一个色彩连续变化的色环。色彩连续变化的色环太阳光带中的六标准色与六个中间色,即红橙,黄橙,黄绿,蓝绿(青),蓝紫,红紫(品红),合称十二色相或色调。把不同的色调按红橙黄绿蓝紫的顺序衔接起来,就形成了一个色调连续变化过渡的圆环,称作为色环。亮度与明度同一物体因受光不同会产生明度上的变化不同颜色的光,强度相同时照射同一物体也会产生不同的亮度感觉。明度也可以说是指各种纯正的色彩相互比较所产生的明暗差别。在纯正光谱中,黄色的明度最高,显得最亮;其次是橙、绿;再其次是红、蓝;紫色明度最低,显得最暗

1 / 138
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功