SchoolofComputer&Information语音信号处理SpeechSignalProcessing2020/1/4语音信号处理基础知识以及分析、处理技术(《语音信号处理》赵力编著)隐马尔可夫模型(《FundamentalsofSpeechRecognition》L.Rabiner著)专题报告语音信号处理(参考文献)《语音信号处理》赵力编著《语音信号处理》韩纪庆编著《FundamentalsofSpeechRecognition》L.Rabiner著《现代语音技术基础与应用》蔡莲红编著《音频信息处理》韩纪庆编著国际会议(ICASSP),国际期刊(speechcommunication)基础知识以及分析、处理技术语音信号处理的基础知识语音信号的短时时域分析线性预测分析和倒谱分析隐马尔可夫模型专题报告语音信号处理基础知识以及分析、处理技术语音信号处理的基础知识1.1概述:发音语音学、声学语音学和听觉语音学三大分支音高、音强、音长、音色四种要素1.2语音生成系统及语音信号产生模型:语音发音系统图激励+声道+辐射模型1.3语音听觉系统(简略)1.4语音信号的语谱图(里程碑,1941,贝尔实验室)宽带语谱图:良好的时间分辨率,频率分辨率较差;窄带语谱图:良好的频率分辨率,时间分辨率较差。基础知识以及分析、处理技术语音信号的短时时域分析2.1语音信号的数字化和预处理:分帧、加窗、预加重2.2语音信号的时域分析:短时能量、短时平均幅度、短时过零率短时自相关函数、短时平均幅度差函数2.3语音信号时域分析的应用端点检测基音周期的估计基础知识以及分析、处理技术倒谱分析和线性预测分析3.1短时傅里叶谱3.2同态信号处理的基本原理3.3线性预测分析的基本原理基础知识以及分析、处理技术隐马尔可夫模型(HMM)HMM的基本思想HMM的三大算法HMM实现中的问题专题报告语音信号处理隐马尔可夫模型HMM的基本思想4.1HMM的基本思想马尔可夫链(MarkovChain)离散隐马尔可夫模型(Extension,urn-and-ball)隐马尔可夫模型的定义和元素(DefinitionandElements)隐马尔可夫模型HMM的三大算法4.2HMM的三大算法Forward-Backward算法(ProbabilityEvaluation)Viterbi算法(OptimalStateSequence)Baum-Welch重估算法(ParameterEstimation)隐马尔可夫模型HMM实现中的问题初始模型的选取(InitialEstimatesofHMM)多个观察值序列训练(MultipleObservationSequences)数据下溢问题(Underflow,Scaling)训练数据的不足(InsufficientTrainingData,Adaptation)4.3HMM实现中的问题基础知识以及分析、处理技术隐马尔可夫模型专题报告语音识别说话人识别(声纹识别)情感语音音视频双模态语音检索语音数据库设计与建立语音信号处理动态时间规整(DTW)算法•动态规划(DynamicProgramming)的思想Level-Building算法和One-Pass算法(难点)•参考L.Rabiner的书,但中文讲授,借助多媒体较直观地显示前向-反向搜索的过程专题报告语音识别Mel频率倒谱系数(MFCC特征参数)主要英文讲授,包括:专题报告说话人识别(声纹识别)应用背景及基本术语•Speaker-verification&Speaker-identification•Text-dependent&Text-independentGMM-UBM模型框架•GMM(GaussianMixtureModel)模型•GMM-UBM以及GMM-MAP-UBM框架评价指标及美国NIST比赛的实验结果情感计算是近年来研究的一个热门话题。让计算机带有情感,这是人工智能与人机交互追求的目标。作为表达信息的最自然和最直接的方式之一,语音也是传递情绪的最重要媒介之一。从语音中识别出说话人的情感状态是一个模式识别问题,包括:专题报告情感语音情感语音特征•能量、基音•时长、共振峰情感分类•ANN•SVM•HMM/HCRF视觉和听觉是人类感知的两种重要方式,包括:专题报告音视频双模态(Audio-Visual)应用背景•语音识别和说话人识别的鲁棒性问题(VisualSpeech,Viseme)•情感语音识别双模态的融合•特征级融合•决策级融合•模型级融合(DBN)美国录制的双模态数据库(录像)语音检索是一个重要的分支,用于大规模数据库的语声检索。关键分为:切分(Segmentation)和聚类(Clustering)。汉语语音音节切分评价机制基于说话人的语音切分语音数据流专题报告语音检索数据库建立是研究基础:专题报告语音数据库设计与建立•实验设计(伪装、诱发、自然)•录制环境•注释、评估(离散、维度)•四个人一组,分工协作:检索文献(至少1篇英文)理解文献内容(列出的文献在报告中有对应的内容)写报告(一组一份)做陈述(可选。中英文均可,整个小组加分)专题报告综合训练大作业•题目:我列出10个供参考,但不限于此,只要和语音相关均可。•时间:学期中间给出题目,学期末提交报告,最后一堂课陈述。•效果:有人综述,有人给出编程结果。并当场提问、讨论。Thanks!