第十三章音频水印13.1音频水印特点13.2音频水印算法评价标准13.3音频水印分类及比较13.4DCT域分段自适应音频水印算法实例13.5小结互联网技术的迅速发展和音频压缩技术的日益成熟使得以MP3为代表的网络音乐在互联网上广泛传播。但是,肆无忌惮的复制和传播盗版音乐制品使得艺术作品的作者和发行者的利益受到极大损害。在这种背景下,能够有效地实行版权保护的音频数字水印(DigitalAudioWatermarking)技术变得越来越重要,已成为一个十分热门的研究领域。数字音频水印技术将具有特定意义的信息嵌入到原始音频中而不显著地影响其质量。根据不同的应用,嵌入的水印数据可以是版权信息、序列号、文本(如音乐或艺术家的名字)、一个小的图像甚至是一小段音频。水印隐藏在宿主音频数据中通常不为人所感知,此外还必须能够抵抗常规音频信号处理以及某些恶意的攻击。一个好的音频水印算法应该具备如下性质:(1)水印必须嵌入到宿主音频数据中,否则很容易被修改或除去。(2)水印必须具有感知透明性,即不能对原始音频的质量产生明显的影响。(3)为保证水印的安全性,一般在嵌入过程和检测过程中要使用密钥。(4)水印应该对MP3有损压缩、低通滤波、噪声、重采样等音频信号处理具有鲁棒性。(5)嵌入和检测的计算代价要足够小以进行实时处理。(6)在大多数情形下,水印检测不应该需要原始音频,即进行盲检测,因为寻找原始音频是十分困难的。(7)水印算法最好是公开的,即安全性应依赖于密钥的选择而不是对算法进行保密。设计一个水印系统满足以上全部要求是很困难的。有些性质如鲁棒性、透明性和数据容量之间是相互矛盾的,因此,在这些要求中寻找最佳平衡是水印系统设计的目标。13.1音频水印特点在音频中加入水印,要考虑到音频载体信号的在人类听觉系统、音频格式以及传送环境等方面的特点。与图像和视频相比,音频信号在相同的时间间隔内采样的点数少。这使得音频信号中可嵌入的信息量要比可视媒体也要少。并且由于人耳听觉系统(HAS)要比人眼视觉系统(HVS)敏感得多,因此听觉上的不可知觉性实现起来要比视觉上困难得多。13.1.1人类听觉系统(HAS-HumanAuditorySystem)人耳的机理相当复杂,它就像一个频率分析仪,能够探测到从10Hz至20000Hz的声音。描述人类听觉系统的感知特性一般从下面三个方面来分析:响度、音高和掩蔽效应。(1)对响度的感知声音的响度即声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即声压单位(达因/平方厘米)或声强单位(瓦特/平方厘米)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两个概念,但它们之间又有一定的联系。当声音弱到人耳刚刚可以听见时,称此时的声音强度为“听阈”。例如,1KHz纯音的声强达到时,人耳刚能听见,此时的客观响度级定义为零dB声强级,而主观响度级定义为零方。另一种极端的情况是声音强到是人耳感到疼痛,我们称这个阈值为“痛阈”。例如,当频率为1KHz的纯音声强达到120dB左右时,人耳感到疼痛,此时主观响度级为120方。实验表明,“听阈”和“痛阈”都随频率变化。图13.1说明了人耳对响度的感知随频率变化的特性。图中最上面的一条曲线是“痛阈”随频率变化的曲线,最下面的一条曲线是“听阈”随频率变化的曲线,这两条曲线之间的区域就是人耳的听觉范围。由图13.1可见,1KHz的10dB的声音和200Hz的30dB的声音,在人耳听起来具有相同的响度。图13.1人耳对响度的感知随频率变化的曲线(2)对音高的感知客观上用频率来表示声音的音高,单位为Hz。而主观感觉的音高单位则是“(美)”。它们也是两个不同又有联系的概念。主观音高与客观音高的关系可用下式表示。人耳对响度的感知有一个从听阈到痛阈的范围,对频率同样也有一个感知范围。人耳可以听见的最低频率约为20Hz,最高频率约为18000Hz。图13.2就反映了人耳对响度感知能力随着信号频率变化的规律。图13.2“音高-频率”曲线(3)掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音,这种现象称为听觉掩蔽效应。前者称为掩蔽声音,后者称为被掩蔽声音。听觉掩蔽取决于屏蔽声音与被掩蔽声音的幅值与时域特性,可分为频域掩蔽和时域掩蔽。频域掩蔽是指听觉信号中,若两个信号的频率相近,那么较强的信号将淹没较弱的信号。实验证明低频信号可以有效地掩蔽高频信号,但高频信号对低频信号的掩蔽作用不明显。在当代高质量声音编码技术中就使用了频率掩蔽模型。时域掩蔽比较直观,它是指强音和弱音同时或几乎同时出现时,强音屏蔽弱音的现象。时域掩蔽包括超前掩蔽与滞后掩蔽。超前掩蔽是指在强掩蔽声音出现前,被掩蔽声音不可听见。滞后掩蔽是指在强掩蔽声音消失后,被掩蔽声音不可听见。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽大约只有5~20ms,而滞后掩蔽可以持续50~200ms。(4)对于频域信号中的相位分量和幅值分量,人耳对幅值和相对相位更为敏感,而对绝对相位不敏感。(5)人耳对不同频段声音的敏感程度不同,通常人耳可以听见20Hz~18KHz的信号,对2KHz~4KHz范围内的信号最为敏感,在此范围内幅度很低的信号也能被听见,而在低频区和高频区,同样低幅度的信号就可能无法被听见。即使对同样声压级的声音,人耳实际感觉到的音量也是随频率而变化的。(6)人类听觉系统对声音文件中附加的随机噪声敏感,并能觉察出微小扰动。(7)人类听觉系统有很大的动态范围及较小的分辨范围,HAS能察觉到大于100,000,000:1的能量,也能感觉大于1000:1的频率范围,对加性随机干扰也同样敏感。可以测出音频文件中低于1/10,000,000(低于外界水平80dB)的扰动。因此,较大的声音可屏蔽较小的声音。13.1.2音频文件格式对高质量数字音频的描述样本最流行的格式是16比特线性量化,如:Windows中的WAV格式音频文件和AIFF音频交换文件格式。另一种对较低质量声音的流行版本是采用8比特律的对数分度。这些量化方法使信号产生了一些畸变,在8比特律中显得更为明显。一般声音的流行采样频率包括8KHz,9.6KHz,10KHz,12KHz,16KHz,22.05KHz和44.1KHz。采样频率影响数据隐藏,因为它给出了可用频谱的上限(如果信号的采样频率为8KHz,则由采样定理,引入的修改分量的频率不会超过4KHz)。对于大多数已有的数据隐藏技术而言,可用的数据空间与采样频率的增长至少呈线性关系。需要考虑的是由有损压缩算法(如ISOMPEG-AUDIO)引起的变化。这些变化彻底改变了信号的数据结构,它们仅仅保留了听者能感觉到的特性部分,也就是说,它听起来与原来的相似,即使信号在最小平方意义上完全不同。13.1.3声音传送环境音频信息隐藏是指通过对声音文件作一些修改来嵌入信息,如作者信息、产品序号、提示旁白等,这种修改的作用效果类似于向声音文件中添加噪声数据。一般而言,此类修改必须做到不可觉察和难以在不损坏原始信号的情况下去除。其实由环境因素引起的声音变形也很常见,如周围的噪声、电路中的信号干扰等,且易被听者所忽略。尤其是在将模拟声音信号转换到数字音频时需要进行A/D转换,这就不可避免地要引入量化噪声。一个数字格式的声音文件可在多种环境中传送。在图13.3中描述了几种可能的形式。第一种为无损传输,如图13.3(a)所示,即信号是在未作修改的环境中传送的,因此相位和幅值都没改变。在第二种情况中(图13.3(b)),信号以更高或更低的采样率重新采样,未改变相位和幅值,但改变了时域特性。第三种情况是将信号转换成模拟的形式来传送(图13.3(c))。在这种情况下,即使认为模拟线路是无干扰的,相位、幅值和采样率都改变了。最后一种情况如图13.3(d)所示,当环境有干扰存在时,信号将被非线性地传送,从而导致相位和幅值改变,以及引起回声等。信源信宿信源信宿重新采样信源信宿信源信宿(a)数字化媒体(b)信号重采样(c)模拟化媒体(d)嘈杂环境图13.3传送媒体13.2音频水印算法评价标准13.2.1感知质量评测标准(1)主观感知质量评测标准在音频水印中,一个常用的主观评价指标称为平均观点分(MeanOpinionScore,MOS),即测试者根据音频的好坏,给音质打分。一般按五分制评分。显然,得分为5或接近于5意味着两个音频数据之间几乎没有差别。MOS分值的含义如表13.1所示。此外,在ITU-RBS.1116中也定义了一个主观评分标准——主观听觉质量区分度(SDG)。表13.1MOS主观评分标准分数音频质量描述5优异相当于在专业录音棚的录音质量,语音非常清晰。4良相当于长距离PSTN网上的语音质量,语音自然流畅。3中达到通信质量,听起来仍有一定困难。2差语音质量很差,很难理解。1不能分辨语音不清楚,基本被破坏。(2)客观感知质量评测标准ITU-R推荐的BS.1387音频质量听觉评测标准通常用于音频编码器的质量评价,但也可作为一个很好的客观听觉质量评价标准用于音频水印技术。BS.1387有基本版本和高级版本两种,基本版本使用基于FFT的人耳模型,高级版本使用基于滤波器组的人耳模型。在两种情况下,模型输出变量与神经网络结合给出一个量值作为听觉质量客观区分度ODG(ObjectiveDifferenceGrade),其含义如表13.2所示。表13.2ODG客观评分标准ODG描述0.0不可感觉-1.0可感觉但不刺耳-2.0轻微刺耳-3.0刺耳-4.0非常刺耳早期的音频水印算法也采用公式13.1所示带水印信号对原始信号的信噪比(SNR)来度量感觉质量,但它并不是一个好的音频听觉质量评价标准,比如在极轻微的同步攻击下即使听觉质量实际上几乎没有变化但SNR却会降到很低。102'10210)()()(log10NNnnxnxnxSNR(13.1)13.2.2鲁棒性评测标准鲁棒性的级别包括以下几种:零级(没有鲁棒性)、低级、中级、中高级、较高级、高级和最高级。比特率是指在单位时间内可靠地植入宿主信号中的水印数据量,例如比特数/秒。鲁棒性可用提取出的水印误码率(BER)来衡量。设嵌入和抽取的水印序列长度为B位比特,则BER按如下公式计算:10)()(',0)()(',1100BnnwnwnwnwBBER(13.2)13.2.3虚警率虚警率是指在没有嵌入水印的媒体中地检测出水印的概率。计算虚警率十分困难,目前的办法一般是建立一个模型再估计它的值。但这样会产生两个问题:首先现实的水印技术难以模拟,再者建立模型就需要理解算法的细节,而这通常是商业机密,尽管它违反了Kerckhoffs准则。再有一种直观的方法就是根据大量实验进行统计,但这又经常由于实验数量巨大而不现实。13.3音频水印分类及比较13.3.1经典的音频信息隐藏技术音频信息隐藏技术之间的区别主要体现在数据嵌入/提取方案的不同,早期的方法主要有以下四种[3-8]:最不重要位方法、扩展频谱方法、相位编码方法、回声隐藏方法。分别介绍如下:(1)最不重要位:最不重要位(LSB-LeastSignificantBit)方法是一种最简单的数据嵌入方法。(2)扩展频谱方法:借鉴扩频通信的思想,可以在编码音频数据流时把秘密数据分散在尽可能多的频率谱分量中以达到隐藏数据的目的。(3)相位编码:相位编码(PhaseCoding)是最为有效的编码方法之一。它充分地利用了人类听觉系统(HAS)的一种特性:即人耳对绝对相位的不敏感性及对相对相位的敏感性。基于这个特点,将代表秘密数据位的参考相位替换原音频段的绝对相位,并对其它的音频段进行调整,以保持各段之间的相对相位不变。(4)回声隐藏方法:回声隐藏(EchoHiding)是通过引入回声来将秘密数据嵌入到载体数据中。它利用了音频信号在时域中的后屏蔽作用,即弱信