第四章音频信号和声卡

lampbaby
1 ℃
2019-12-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第四章音频信号和声卡4.1音频编码基础1、声音信号的特点基频与音调频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低，在音乐中称为音高。音调正是由频率ω所决定的。音乐中音阶的划分是在频率的对数坐标（20×log）上取等分而得的：谐波与音色nωO称为ωO的高次谐波分量，也称为泛音。音色是由混入基音的泛音所决定的，高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An和相位偏移ψn，由此产生各种音色效果。幅度与音强人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3分贝的音强变化，再细分则没有太多意义。我们常用音量来描述音强，以分贝（dB=20log）为单位。在处理音频信号时，绝对强度可以放大，但其相对强度更有意义，一般用动态范围定义：动态范围＝20×log(信号的最大强度/信号的最小强度)(dB)音宽与频带频带宽度或称为带宽，它是描述组成复合信号的频率范围2、声音信号的分类多媒体技术中通常处理的是规则声音。规则声音是一种连续变化的模拟信号，可用一条连续的曲线来表示，称为声波。模拟信号的曲线无论多复杂，在任一时刻t都可分解成一系列正弦波的线性叠加3、音频信号处理方法：对声音在时间轴和幅度两个方面进行离散化。分别称之为采样和量化。根据Nyquist采样定理，如果模拟信号的频谱带宽是有限的（假设最高频率为fm），那么用等于或大于2fm的采样频率进行采样所得到的等间隔离散时间序列（采样信号）能够完全惟一地代表原模拟信号，或者说能够由采样信号恢复出原始信号。4、音频文件的存储格式音频数据必须以一定的数据格式存储在磁盘或其它媒体上。目前比较流行的几种格式为：00)sin()(nnntnAtfa、WAV文件：WAV是MicrosoftWindows本身提供的音频格式，由于Windows本身的影响力，这个格式已经成为了事实上的通用音频格式。b、mp3文件：在mp3出现之前，一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是，mp3可以实现12:1的压缩比例，这使得mp3迅速地流行起来。mp3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术，也就是利用了人耳的特性，削减音乐中人耳听不到的成分，同时尝试尽可能地维持原来的声音质量。c、RM文件：互联网大行其道之后，RealMedia出现了。这种文件格式几乎成了网络流媒体的代名词。RA、RMA这两个文件类型就是RealMedia里面向音频方面的。它是由RealNetworks公司（）发明的，特点是可以在非常低的带宽下（低达28.8kbps）提供足够好的音质让用户能在线聆听。这一特点在互联网的早期简直是广大网虫的福音。也就是因为出现了RealMedia之后，相关的应用比如网络广播，网上教学，网上点播等等才浮出水面，形成了一个新的行业。网络流媒体的道理其实非常简单，简单说就是将原来连续不断的音频分割成一个一个带有顺序标记的小数据包，将这些小数据包通过网络进行传递，在接收的时候再将这些数据包重新按顺序组织起来播放。如果网络质量太差，有些数据包收不到或者延缓了到达，它就跳过这些数据包不播放，以保证用户在聆听的内容是基本连续的。就是这么简单的道理，促成了网络上的又一个传奇。d、其它格式：AVI等。5、度量声音的质量：声音质量可以用声音信号的带宽来衡量，等级由高到低依次是：DAT→CD→FM→AM→数字电话。除此之外度量声音的质量还有两种基本方法：一种是客观质量度量，主要是用信噪比来度量。另一种是主观度量方法，最常用的是MOS（平均意见得分）法。4.2音频信号压缩技术音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。对音频压缩技术的研究和应用由来已久，如A律、u律编码就是简单的准瞬时压扩技术，并在ISDN话音传输中得到应用。一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。（1）时域压缩（或称为波形编码）技术是指直接针对音频PCM码流的样值进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP，以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM（SB-ADPCM）技术如G.721、G.722、Apt-X等。（2）子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型（心理声学模型），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型（Perceptual）压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行压缩时引入了大量的量化噪声。然而，根据人类的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被限制在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量（EBU音质标准）。子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ（MUSICAM），以及用于PhilipsDCC中的PASC（PrecisionAdaptiveSubbandCoding，精确自适应子带编码）等。（3）变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT（离散余弦变换）、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善，而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善之处，如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步，这些缺陷正逐步被消除，同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC（AudioSpectralPerceptualEntropyCoding）、PAC（PerceptualAudioCoder）等。几种基本的编码方法：脉冲编码调制，增量调制，自适应脉冲编码调试，差分脉冲编码调试，自适应差分脉冲编码调试，子带编码。4.3音频编码标准1、G.711本建议公布于1972年，它给出话音信号编码的推荐特性。话音的抽样率为8000Hz，允许偏差是±50ppm(PartsPermillion)。每个样值采用8位二进制编码。使用A律和μ律非线性量化技术。速率为64kbps，主要用于公用电话网中。2、G.722G.722建议的带宽音频压缩仍采用波形编码技术，因为要保证既能适用于话音，又能用于其他方式的音频，只能考虑波形编码。G.722编码采用了高低两个子带内的ADPCM方案，高低子带的划分以4KHz为界。然后再对每个子带内采用类似G.721建议的ADPCM编码，因此G.722建议的技术方案可以简写为SB-ADPCM（子带-自适应差分脉冲码调制）。速率为64kbps。主要用于视听多媒体和会议电话。3、G723.11996年，CCITT（国际电报电话咨询委员会）通过了G723.1标准—用于多媒体传输的5.3kbps或6.3kbps双速率语音编码。采用多脉冲激励最大似然量化算法。4、G.728为了进一步降低压缩的速率，CCITT于1992年制定了G.728标准，是用基于低时延码本激励线性预测编码算法，速率为16kbps，主要用于公共电话网中。5、G.7291996年制定，使用8kbps共轭结构代数码激励线性预测算法，此标准用于无线移动网，数字多路复用系统和计算机通信系统中。6、MP3压缩技术MP3是一种音频压缩的国际技术标准。MP3格式开始于二十世纪80年代中期，在德国夫朗和费研究所（FraunhoferInstitute）开始的，研究致力于高质量、低数据率的声音编码。1989年，夫朗和费研究所在德国被获准取得了MP3的专利权，几年后这项技术被提交到国际标准组织(ISO)，整合进入了MPEG-1标准。MP3格式是一个让音乐界产生巨大震动的一个声音格式。MP3的全称是MovingPictureExpertsGroup,AudioLayer3，它所使用的技术是在VCD（MPEG-1）的音频压缩技术上发展出的第三代，而不是MPEG-3。MPEG代表的是MPEG活动影音压缩标准，MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。MPEG音频文件根据压缩质量和编码复杂程度的不同可分为三层（MPEGAUDIOLAYER1/2/3分别与MP1、MP2和MP3这三种声音文件相对应）。MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为4:1和6:1-8:1，而MP3的压缩率则高达10:1～12:1，也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。音乐信号中有许多冗余成分，其中包括间隔和一些人耳分辨不出的信息（如混杂在较强背景中的弱信号）。MP3为降低声音失真采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然它是一种有损压缩，但是它的最大优势是以极小的声音失真换来了较高的压缩比。4.4声卡的组成和工作原理声卡的基本构造：一般的声卡都是由声音控制/处理芯片、功放芯片、声音输入/输出端口几部分组成。在自然界我们所听到的声音都是经由空气或一些介质所传播的,就物理学的观点来看,声音可以用波形图表示出音高(Pitch)、音量(Volume)、音色(Tone或Timbre)叁种组成要素。这些声音都是连续的信号,也就是所谓的模拟信号，然而我们都清楚微机只能处理0或1的数字信号,也就是不连续的信号。由此可见声卡最基本的功能,就是要有把所录到的模拟信号转换成为微机可以接受的数字信号,以及将处理完成的数字音源信号转换成模拟音源信号输出,一般将这两种过程称作:Analog-to-DigitalConversion(ADC)与Digital-to-AnalogConversion(DAC)。声卡的工作原理1.输出由PCI总线通过系统音频接口传来的音频信号首先输入到主芯片，主芯片对它们进行音频运算处理产生可输出的数字音频信号,信号则通过线路输出到C