国内统计信号处理在音频模式识别中的应用摘要语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业,目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。在语音识别系统中必然存在预处理,存在语音信号处理的过程,因此能否对语音信号作很好的处理则是一个很重要的环节,因此我们可利用信号处理的理论对其进行描述。主题一:我国信号处理技术的发展98年在中国电子学会和中国仪器仪表学会的组织下成立了信号处理学会该学会分个专业学组,即:理论与方法学组,振动信号处理学组,语声、图像及通信信号处理学组,雷声信号处理学组和信号处理系统与设备学组。在信号处理的理论和应用方面取得了一大究成果,使我国信号处理技术水平由起步一跃而进入了国际先进行列。1990年我国在北京主持召开了第一届国际信号处理学术会议,来自23个国家和地区的专家学者,交流了学科最新成果,250余篇论文中一半以上集中了国内的优秀成果。会议的胜利召开是我国信号进入国际学术行列的标志。特别值得欣慰的是我们学会的取名。我们的学会自成立开始即为信号处理学会,而国际IEEE的相应学会“声学,语言信号处理学会(ASSP)亦于1990年起更名为信号处理学会(SP)采用了与我国相同的名称。第二届国际信号处理学术会议IcsP’93将于1993年10月在北京召开,将有国内外稿件35。余篇发表,其中有近一半是国内稿件,将充分反映国内的研究水平。国内信号处理技术的进展可以从以下三个方面来介绍,即:1.理论和算法;2应用发展。1理论和算法.⑴离散变换1960年Good提出了快速付立叶变换的想法,1965年Cooley和Tukcy又独立地发表了FFT算法,数字信号处理发生了革命性的改变。Rader等于1970年提出了计算素数点的DFT方法(PFA)使FFT算法所适用的范围从幕次序列长度推广到了素数序列长度的场合。Winograd于1978年在总结了Rader算法后,系统地提出了算法的结构理论。1984年Duhmel发表了义基基ZFFT算法,即SPFFT使DFT和FFT的算法进入了比较完善的地步。我国学者在PFA方法方面详细地讨论了它与FFT的关系,从映射的角度统一了素因子分解算法(PFA)、时域分解的Cooley一TukeyFFT算法和频域分解的Cooley一TukeyFFT算法。对PFA算法与基ZFFT算法的差别有了深刻的认识,并且指出基ZFFT的计算误差可以用点数近似的素因子分解算法的误差来计算。在义基基SPFFT的研究中指出,时域分解sPFFT与频域分解的SPFFT信号流图之间,并没有经典FFT算法那种互相置换的拓扑关系。在算法速度上,除了N~32、N一64及N一128时,义基算法明显快于经典算法外,点数较大时两者速度几乎接近。WFTA一般仅适合于小点数的变换,对于N)16以后,其编程工作的复杂性按指数规律增加,所以对大点数的DFT仍是一个待研究的问题。利用两个模块构成第4期袁保宗:信号处理技术的若干进展(国内)·3·PFFT算法已经给出了N一13、17、19、23及29、31点DFT算法。根据这一方法实现了长度为1009点的DFT快速算法。我国学者在实现FFT方面还提出了素数长度的递归DFT算法,并且在此基础上又提出了具有N次乘法的快速付立叶变换算法。1978年至1981年,H.J.Nussbanmer在利用多项式变换计算DFT和卷积后,我国学者也做了很多工作,先后实现了二维数字卷积的FPT(快速多项式变换)和超大型二维循环卷积的FPT和FNT(Fermat数论变换),这种超大型二维卷积是利用M=ZJ十1,d一2b的FNT计算规模大于二维循环卷积的方法,研究表明将FNT和FPT结合可以计算任何N·M二维循环卷积(N三2t,M一2’十一’)。多变量多项式变换的研究也得到了发展,一种计算卷积的新算法已被提出,它比传统办法压缩更多的乘法和加法次数,它被用来计算三维(16·16·16)的卷积时间为17.325,或三维(128·128·8)的卷积时间为73.325,或三维(128.128·8)的卷积时间为73.185(在VAX830o机上)。⑵离散W变换是我国学者的贡献,现在得到国际学术界的引用。但是二维离散W变换不能直接分解为两个一维DWT的乘积。我国学者又提出了用一维DWT表示及计算DWT的新形式,并构造了用一维快速DWT来计算二维DWT及实现二维卷积。,⑶谱估计理论随机信号的谱估计是信号处理的主要内容之一,它在振动、医学、航天、航空以及雷达等领域有重要用途。尽管以付立叶变换为基础的周期图法是长期以来最流行的功率谱估计算法,但是它致命的弱点是频谱分辨率的限制。为了克服这个缺点,1967年Burg提出了最大嫡谱估计,E.Paraen1986年提出AR谱估计,从此,高分辨率谱估计方法成了研究的热点,相继出现一系列非线性谱估计方法,如最小交叉嫡谱分析法,ARMA模型参数估计法,Pisorenk。谱分解法,最大似然法,Prony复极点模型法等。我国学者编写的《随机数字信号处理》一书,详细地总结了各类谱估计方法,有关的算法程序亦由我国学者完成的《近代数字信号处理通用程序》一书中以源程序方式刊出。这些方法在国内已有了广泛的研究及应用。最大嫡方法MEMZ和倒谱分析方法,初看起来是互不相关的两个领域,但是它们的联系被我国学者发现:最大嫡MEMI公式中的拉格朗日不定乘子与自相关序列的复倒谱及时间序列的实倒谱互为复共扼,从而使倒谱分析方法可用于MEMZ开辟了新的途径。利用二阶矩理论所能解决的谱估计或建模问题,一般仅能涉及最小相位,因果型,高斯过程激励以及线性问题。而事实上,许多地震信号、天文时间序列,数字通信中的信道等效信号等问题,常常涉及到非最小相位,非因果,非高斯过程以及非线性系统等严重问题。这时高阶统计量以及高阶谱起到重要作用。早在60年代,H.Akaike,K.Hasslman,M·D·Godfrey等人已提出高阶谱的数字基础。但由于计算量大及结构复杂等原因未能应用。直到80年代初期才又被人们所重视,C.L.Nikais,J.M.Mendel,M.Rosenblat等人做了大量的工作,才使其成为最近以来谱估计方面兴起的又一个新热点。我国是在1986年第三届信号处理会议时开始注意多谱估计问题。1989年在《电子学报》上较系统地介绍了多谱估计的参数方法,之后相继的研究工作给出了一种两步法的扩展,根据最小嫡原理,提出了一基于2阶和4阶积累序列匹配的辨识非最小相位系统的有效方法。对于非线性系统,我国学者首次推导出非线性Volterra核函数和高阶统计量之间的关系。这种关系从形式上与线性模型一样,但意义完全不同,且线性模型是它的一种特例。对于一类非线性模型即Hammerstein模型,已提出了多种该模型估计线性子系统参数的算法。这些算法,无迭代过程。⑷空间谱估计将现代谱估计方法用于空间目标的参数估计,常称为空间谱估计。空间谱估计所估计的参数为信号的空间频率。空间谱估计具有高精度和超高分辨率的性能,在无线电·4·电信科学1”3年测向方面有广阔的应用前景。1979年R.0.Schmidt提出了MUSIc(MultiplesignalCharae-terization)方法,开拓了空间谱分析的序幕。它利用空间相关矩阵作特征分解,来确定信号子空间,然后利用信号子空间的正交特性确定信号的方向参数,从而可以实现信号源之间的分离。由于MUSIC方法仅适用于非相干信号源,对于有相干源存在的情况,1981年J.E.Evans等人提出空间平滑法,经过空间平滑后的阵列信号按照MUsIC方法就可以估计出相干源的方向参数,但这种方法是以损失阵列的有效孔径为代价.我国学者在1988年提出大量实验证明:一种以MUSIC为基础的特征值分解一奇异值分解法(EVD一SVD),利用此法比空间平滑法有更好的分辨率和信号方向估计性能,更重要的是我国学者所提方法是在广义信号子空间概念上建立的,能更清楚地揭示提高分辨率的关键所在。除此之外,在任意几何排列阵列对相干信号源的测向,在短数据、低信噪比时的测向以及阵元位置误差与阵元间互报对测向性能的影响等问题也进行了深入的研究,提出了有效的解决方法。另一种具有很高运算效率的空间谱分析方法,于1985年由T.Kailath等人提出。该法称为ESpRIT(Estimationof519:iarametersviaRotationInvariantTeehn叫ue)方法。它同样也不适用于相干信号源,亦不能用于二维参数估计。我国学者近来对ESPRIT方法作了发展,把它推广到相干源的估计和二维的参数估计,提出了ZDcA一EsPRIT(2一menoionalCombinedArray一ESPRIT)方法,这种方法所费的时间仅为一维EsPRIT方法的两倍,同样具有高时效的优点,同时分辨率比二维MUsIC方法更高。此外在宽带信号的测向、相关信源的自适应特征子空间算法等方面也做了很多工作。⑸自适应滩波算法信号处理的另一个活跃领域是自适应滤波。因为信号采集过程中都伴随着噪声,因而滤波是必需的。维纳撼波和卡尔曼滤波都要求对信号及噪声的统计知识有一定的先验了解。而自适应滤波却不需这些知识,自适应滤波在1967年由B.Widrow提出后,一直发展很快。B.Widrow的LMS法是根据最优方法中的最速下降法提出的,它是通过橄向滤波器来实现的。之后在1980年前后,J.1.Makhoul提出了模型自适应撼波,M.MQrf及B.FreLander研究了递归型自适应数字撼波及最小二乘递归格式滤彼等。在国内对自适应滤波算法进行了广泛的研究。在平方根递归最小二乘自适应均衡方面,提出了一种分数间隔平方根R