高清语音概念简述1.声波概念声波是声音的传播形式。声波是一种机械波,由物体(声源)振动产生。声波的传播需要介质,从气体和液体介质中传播是一种纵波,固体中传播可能混有横波。人的耳朵可以听到的声波频率一般在20Hz到20000Hz之间。说话的频率基本上为300Hz-3400Hz。人耳可听到的频率范围大于说话的频率范围。我们可以听到更多的声音。2.声音的采集声波是模拟波,如何收集声音困绕人类几百年。1860年意大利人梅乌奇发明电话,解决声波转换为电信号的问题。从此声音可以远距离传播。1877年爱迪生制造出人类史上第一台留声机,实现声波采集。但不管是爱迪生,梅乌奇还是其后的贝尔。限于当时的技术水平,先辈们以模拟的方式记录和传播声波。声音是模拟信号,为了将声音转换为电信号用于远距离传输。在转换的过程中,电子元器需要对声音进行采集,采集的过程并非连续进行的,需要元器件在一定的时间内抽取声波的样本。每秒种采样次数被称之为采样频率。采样频率越高声音的还原就越真实越自然。比如电影的采样率是24Hz,PAL制式的采样率是25Hz,NTSC制式的采样率是30Hz。当我们把采样到的一个个静止画面再以采样率同样的速度回放时,看到的就是连续的画面。同样的道理,以44.1kHz采样率记录的CD以同样的速率播放时,就能听到连续的声音。显然,这个采样率越高,听到的声音和看到的图像就越连贯。人的听觉和视觉器官能分辨的采样率是有限的。对同一段声音,用20kHz和44.1kHz来采样,重放时,可能可以听出其中的差别,而基本上高于44.1kHz采样的声音,比如说96kHz采样,绝大部分人已经觉察不到两种采样出来的声音的分别了。之所以使用44.1kHZ这个数值是因为经过了反复实验,人们发现这个采样精度最合适,低于这个值就会有较明显的损失,而高于这个值人的耳朵已经很难分辨,而且增大了数字音频所占用的空间。一般为了达到“万分精确”,我们还会使用48kHz甚至96kHz的采样精度,实际上,96kHz采样精度和44.1kHz采样精度的区别绝对不会象44.1kHz和22kHz那样区别如此之大,我们所使用的CD的采样标准就是44.1kHz。常见的采样频率有如下几种:采样频率效果5kHz仅能达到人们讲话的声音质量11kHz播放小段声音的最低标准,是CD音质的四分之一22.01kHz声音可以达到CD音质的一半,用于FM电台,音乐网站等44.1kHz标准的CD音质,可以达到很好的听觉效果GSM的语音采样8kHz,VoLte语音的语音采样却有16KHz。仅就采样频率而言,VoLte语音在声音的采集阶段就比GSM高出一倍的采样点,还原声音时多一倍的采样点自然比GSM的效果要好。3.音频信号的数模转换音频信号作为模拟信号被采集上来后,直接进行调制用于存储和传输。例如固定电话,磁带,唱片。模拟信号虽然可以精确的表示音频信号,但是并不利于信号的传输与处理。电子元件方便处理和存储的数据是0和1,表征简单,而模拟信号表征困难,现有的电子设备量化模拟信号困难。更麻烦的是模拟信号的传输对于承载的要求高,传输介质的干扰,抖动,都会影响信号。无线通信干扰大,丢包多的特性影响音频信号的传输质量。这也是第一代移动通信系统话质差的重要原因。随着技术发展,半导体元件和模数转换技术先后出现。音频的处理也可由原来的模拟方式转换为数字方式。音频转换为数字信号需要合适的方法表示模拟量,换句话说就是将声音转换成“010001”之类的二进制符号。音频信号用二进制表示的优势是1.便于电子元器件对音频的编码、存储2.编码算法应用后,具备抗干扰和抗丢包特性。3.还原音频信号方便4.音频信号便于压缩减少传输数据量正因为有这么多特性,模拟的音频信号转换成数字信号才能更有利于传输、存储、处理。模数转换一般要经过采样、量化和编码三个步骤。模数传换时的采样,在上一章已做详细表述。采样之后的音频信号时间上实现离散,但幅度仍然连续变化,无法准确判断取值。量化的作用是用有限个幅度值近似地表示原来连续变化的幅度值,把模拟信号的幅度离散化。对于音视频常使用的量化方法是DTFT,即DiscreteTimeFourierTransformation的缩写,中文术语是离散时间傅立叶变换。音频信号和视频信号有时间量,使用DTFT将连续时间信号转换成离散的数字编码消息。计算机才能进行进一步的编码处理。4.音频信号的编码编码是按照一定的规律,把量化后的值用数字表示,然后用n个比特(bit)的二进制代码来表示已经量化的取样值。不同的编码代表不同的数字音频格式,常见的如MP3,WAV,AAC,FLAC,CD,OGG,WMA等。这些格式用于数字音乐的压缩,存储,播放和传输。每种数字格式都有不同的编码速率。所谓编码速率等于采样频率*量化比特数。量化比特数就是常说的采样精度,音频信号在模数转换过程中需要用数字序列量化音频信号。那么用几位二进制数字表示就是量化比特数。常见的量化比特数有8bit、12bit、16bit、32bit。音质的好坏在于人耳能否分辨出更多的音效。音效越多用于表示的量化比特数就越大,因此编码速率也随之增大。音频信号的数据量也越大。以MP3格式的固定编码速率表为例:编码速率(kbps)实际文件大小(MB)失真程度32010.4小2568.36中2247.31中1926.27中1284.18大963.13大642.08大通讯领域所使用的音频编码格式不同于数字音乐。因为音乐的带宽远比人声宽,一场交响乐发出的声音甚至包含人耳能听到的所有音频带宽。而人说话只有300Hz-3400Hz。这也使音乐的编码要比人声更复杂,耗费更多的资源用于编解码。在相当长的一段时间内,如固定电话,移动通信网络设备的处理能力与容量是有限的,而承载业务量是逐步增加。用户的业务需求多数为实时的,例如电话,可视电话。保障实时业务,对设备的要求更高。追求高品质语音和视频的作法增加通信设备的复杂程度,降低稳定性。为了把有限的资源更好的服务大众,通信网络选择更适用于人声的语音编码。通信网络采用RTE-LTPLPC,ACELP、VSELP等专门对于人声优化的编码算法,针对通信网有限的传输容量,结合音频信号压缩技术,形成各种编码速率的语音编码标准应用于通信网络。GSM的语音编码分为FR(全速率编码),EFR(增强性全速率),HR(半速率),AMR-NB(自适应多速率编码-窄带)。VOLTE的语音编码为AMR-WB(自适应多速率编码-宽带)。该编码可分为九种现在所述的高清语音特指使用,常用12.65kbps和23.85kbps应用网络编码编码速率编码算法压缩比GSMEFR12.2kbpsACELP8.5FR13kbpsRTE-LTPLPC8HR5.6kbpsVSELP18.4VOLTEAMR-WB6.6kbpsACELP动态压缩8.85kbps12.65kbps14.25kbps15.85kbps18.25kbps19.85kbps23.05kbps23.85kbps自适应多速率编解码(AMR,AdaptiveMulti-RateCodec)技术;相比原有的GSM语音编码器采用固定的编码速率,AMR语音编码器则可根据无线信道和传输状况来自适应地选择一种最佳信道模式(全速率或半速率)和信源编码模式(以比特率来区分)进行编码传输。更适用于移动网络传输。AMR-WB的高编码速率能够表达的信息量更多。GSM语音编码FR(全速率编码)处理的语音带宽是200~3400Hz,VOLTE的语音编码AMR-WB(自适应多速率编码)是50~7000Hz。可见VoLte的处理带宽更宽,这样意味着VoLte可以采集编码到更多低频和高频声音,还原后的声音比GSM更丰富。举个例子,人在一个有背景音乐的场景里说话。GSM语音效果会重点突出人声,人声清晰干脆,背景音乐层次感辨析度不足。同样条件下,使用VOLTE,背景音乐相对于GSM表现饱满,有层次感,人声融入背景音乐,整个场景作为一个整体体现,甚至包含说话时四周墙壁的回响。总结的说,所谓高清语音是相对传统的语音编码而言的,技术指标上要求采样频率高于传统的语音,量化方法和编码速率同样有更高的要求。从感知上说,传统语音局限于人声的表达,高清语音除人声之外还能表达更多的环境上的声响。