结合发音动作参数的统计建模语音合成方法研究基本信息批准号60905010项目名称结合发音动作参数的统计建模语音合成方法研究项目类别青年科学基金项目申请代码F030404项目负责人凌震华负责人职称副教授依托单位中国科学技术大学研究期限2010-01-01到2012-12-31资助经费19(万元)项目摘要中文摘要对语音合成系统音色特征的灵活控制是语音合成技术发展的一个重要方向。传统的大语料库拼接合成方法和基于声学统计模型的参数语音合成方法已经能够较好的解决语音合成的自然度与可懂度问题;但在语音合成的灵活性上,这两种方法会受到对训练数据的依赖性强、难以融合语音学知识等问题的制约。发音动作参数作为声学参数之外的一种语音表征方式,描述的是说话人发音过程中舌、唇等发音器官的位置与运动情况,它相比声学参数具有更加明确的生理意义,可以通过语音学发音规则直接控制,这为实现灵活可控的语音合成提供了一条新的思路。本项目旨在将发音动作参数引入基于隐马尔科夫模型的参数语音合成方面进行探索性的研究,希望通过对声学参数与发音动作参数的联合建模,将语音生成机理融入合成系统中,实现由语音学知识驱动的可控制语音合成方法,这在丰富语音信号的建模方法、促进语音学研究与言语工程的结合方面也具有重要意义。中文主题词语音合成;隐马尔科夫模型;声学参数;发音动作参数;英文摘要英文主题词speechsynthesis;hiddenMarkovmodel;acousticfeature;articulatoryfeature;结题摘要本项目围绕结合发音动作参数的统计参数语音合成方法开展研究工作,旨在通过语音学知识驱动的方式提高语音合成系统的灵活可控性。经过为期三年的研究工作,项目课题组顺利完成了计划的研究内容与目标,具体包括:在声学-发音动作参数数据库建设方面,利用电磁发音仪(electromagneticarticulography,EMA)进行发音动作参数的采集,完成了国际上首个中文连续语流多发音人的声学-EMA同步语料库;在声学-发音动作参数联合建模方法研究方面,提出了基于双流隐马尔科夫模型的声学-发音动作参数联合建模方法以及特征域的转换矩阵绑定方法,为基于发音动作参数的可控声学参数预测奠定了基础;在灵活可控的高质量声学参数生成方法研究方面,设计实现了基于声学-发音动作参数联合模型的层次化参数生成方法,提出了结合对数能量谱全局方差模型的参数生成方法以及基于最小Kullback-Leibler距离的参数生成方法,一方面实现了对生成声学参数特征的灵活控制,另一方面提高了合成语音的音质与自然度。此外,我们还开展了基于隐马尔科夫模型的发音动作参数预测和基于共振峰参数的可控语音合成方面的研究,并完成了项目相关数据处理、模型训练以及合成演示软件的开发。项目研究成果共完成论文发表13篇,计算机软件著作权申请1项;培养博士研究生2人和硕士研究生2人。在结合发音动作参数的语音合成方面的论文发表,获得2010年IEEE信号处理学会最佳青年作者论文奖;项目负责人参与并集成本项目研究成果的“智能语音交互关键技术及应用开发平台”项目获得2011年国家科技进步奖二等奖。项目课题组依托本项目,与英国爱丁堡大学语音技术研究中心合作申请2011年度国家自然科学基金委员会-英国爱丁堡皇家学会合作交流项目并获批准(项目名称“用于灵活可控语音合成的发音动作参数-声学参数联合建模方法研究”,批准号61111130120);共完成了4人次的交流出访与和5人次的外国专家来访,并完成了多篇合作论文的发表。为了在已取得研究成果基础上对本项目的研究内容进行进一步的延伸与拓展,项目负责人申请的2012年度国家自然科学基金青年-面上连续资助项目也已得到批准(项目名称“融合语音产生机理与统计声学建模的层次化语音合成方法研究”,批准号61273032)并开始项目实施。成果1IntegratingarticulatoryfeaturesintoHMM-basedparametricspeechsynthesis奖励Zhen-HuaLing2智能语音交互关键技术及应用开发平台奖励凌震华3VowelCreationbyArticulatoryControlinHMM-basedParametricSpeechSynthesis会议Zhen-HuaLing|Zhen-HuaLing|KorinRichmond|KorinRichmond|JunichiYamagishi|JunichiYamagishi4Cross-StreamDependencyModelingUsingContinuousF0ModelForHmm-BasedSpeechSynthesis会议XinWang|Zhen-HuaLing|Li-RongDai5Target-filteringmodelbasedarticulatorymovementpredictionforarticulatorycontrolofHMM-basedspeechsynthesis会议Ming-QiCai|Zhen-HuaLing|Li-RongDai6Statisticalmodelingofsyllable-levelF0featuresforHMM-basedunitselectionspeechsynthesis会议Ling,Zhen-Hua1|Wang,Zhi-Guo1|Dai,Li-Rong17MinimumgenerationerrortrainingforHMM-basedpredictionofarticulatory会议Zhao,Tian-Yi1|Ling,Zhen-Hua1|Lei,Ming1|Dai,Li-Rong1|Liu,Qing-Feng1movements8HMM-basedtext-to-articulatory-movementpredictionandanalysisofcriticalarticulators会议Ling,Zhen-Hua1|Richmond,Korin2|Yamagishi,Junichi29GlobalVarianceModelingontheLogPowerSpectrumofLSPsforHMM-basedSpeechSynthesis会议Ling,Zhen-Hua|Hu,Yu|Dai,Li-Rong10Feature-SpaceTransformTyinginUnifiedAcoustic-ArticulatoryModellingforArticulatoryControlofHMM-basedSpeechSynthesis会议Zhen-HuaLing|KorinRichmond|JunichiYamagishi11Formant-controlledHMM-basedspeechsynthesis会议Lei,Ming1|Yamagishi,Junichi2|Richmond,Korin2|Ling,Zhen-Hua1|King,Simon2|Dai,Li-Rong112ArticulatorycontrolofHMM-basedparametricspeechsynthesisusingfeature-space-switchedmultipleregression期刊Ling,Zhen-Hua1|Ling,Zhen-Hua1|Richmond,Korin2|Richmond,Korin2|Yamagishi,Junichi2|Yamagishi,Junichi213AnAnalysisofHMM-based期刊Ling,Zhen-Hua|Richmond,predictionofarticulatorymovementsKorin|Yamagishi,Junichi14MinimumKullback-LeiblerDivergenceParameterGenerationforHMM-basedSpeechSynthesis期刊Zhen-HuaLing|Li-RongDai15基于Viterbi解码的中文合成音库韵律短语边界自动标注期刊杨辰雨|朱立新|凌震华|戴礼荣