第三讲语音合成概述•背景•目标•基本问题•技术历程•典型系统第三讲语音合成概述•背景•目标•基本问题•技术历程•典型系统背景•计算机的普及•人机自然语言交互•语音合成在人机交互系统中的作用•语音合成的其它应用SpeechRecognitionNaturalLanguageUnderstandingDialogManagerSpeechSynthesisNaturalLanguageGenerationInformationDatabase第三讲语音合成概述•背景•目标•基本问题•技术历程•典型系统目标•“让计算机像人一样说话”–从文字到语音TTS(Text-To-Speech)–从概念到语音CTS(Concept-To-Speech)–从意念到语音ITS(Intention-To-Speech)•现阶段-TTS•前瞻性-CTS•等待时机-ITS第三讲语音合成概述•背景•目标•基本问题•技术历程•典型系统基本问题•原因–从语音到文字的信息缺失•从文字到语音(TTS)–从文字到发音描述•发什么音•如何发音–从发音描述到语音合成第三讲语音合成概述•背景•目标•基本问题•技术历程•典型系统技术历程•1937,Voder,BellLab.,H.Dudly•1962,级联共振峰,KTH,G.Fant•1970s,混合共振峰,MIT,D.Klatt•1986,PSOLA,F.Charpentier•2000s,Unit-selection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable技术历程•1937,Voder,BellLab.,H.Dudly•1962,级联共振峰,KTH,G.Fant•1970s,混合共振峰,MIT,D.Klatt•1986,PSOLA,F.Charpentier•2000s,Unit-selection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable•音色,孤立音段•音色,孤立音段•音色,孤立词•音色、韵律,语句•韵律,语句第三讲语音合成概述•背景•目标•基本问题•技术历程•典型系统典型系统•基于单元挑选的TTS系统构成(韵律导向)–两个模块•前端:文本处理,从文字到发音描述•后端:语音处理,从发音描述到语音合成–一个接口,发音描述–数据库,合成单元ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系统例:北京交通大学成立于1896年。TextNormalization:北京交通大学成立于1896年ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系统例:北京交通大学成立于1896年。TextNormalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackendPOS(PartOfSpeech)典型系统例:北京交通大学成立于1896年。TextNormalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)ProsodicEvent:OutPutPWordLayer:北京ng交通ng大学ng成立于vg_pg一八九六年tOutPutPPhraseLayer:##北京交通大学##成立于##一八九六年OutPutIPhraseLayer:##北京交通大学成立于一八九六年OutPutSentenceLayer:##北京交通大学成立于一八九六年ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系统例:北京交通大学成立于1896年。TextNormalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)ProsodicEvent:OutPutPWordLayer:北京ng交通ng大学ng成立于vg_pg一八九六年tPhonetizer:北bei3京jing1(BL:北京)交jiao1(BL:交通)通tong1(BL:交通)大da4(BL:大学)学xue2(BL:大学)成cheng2(BL:成立)立li4(BL:成立)于yu2(BL:于)一yi1(BL:一八九六年)八ba1(BL:一八九六年)九jiu3(BL:一八九六年)六liu4(BL:一八九六年)年nian2(BL:一八九六年)ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系统例:北京交通大学成立于1896年。Interface:{2{1^2%0{0^2%0[@ng^2%0@npr(#bei3&MC$北)(#jing1&MC$京)][@ng^2%0@ng(#jiao1&MC$交)(#tong1&MC$通)][@ng^2%0@ng(#da4&MC$大)(#xue2&MC$学)]0}{0^2%0[@vg_pg^2%0@vgo(#cheng2&MC$成)(#li4&MC$立)@pg(#yu2&MC$于)]0}{0^2%0[@t^2%0@t(#yi1&MC$一)(#ba1&MC$八)(#jiu3&MC$九)(#liu4&MC$六)(#nian2&MC$年|)]0}1}2}ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系统例:北京交通大学成立于1896年。ProsodicAcousticPredictor:GMM(bei3)GMM(jing1)GMM(jiao1)GMM(tong1)GMM(da4)GMM(xue2)GMM(cheng2)GMM(li4)GMM(yu2)GMM(yi1)GMM(ba1)GMM(jiu3)GMM(liu4)GMM(nian4)SegmentAcousticPredictor:occ(bei3)occ(jing1)occ(jiao1)occ(tong1)occ(da4)occ(xue2)occ(cheng2)occ(li4)occ(yu2)occ(yi1)occ(ba1)occ(jiu3)occ(liu4)occ(nian4)ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系统例:北京交通大学成立于1896年。ProsodicAcousticPredictor:GMM(bei3)GMM(jing1)…SegmentAcousticPredictor:occ(bei3)occ(jing1)…UnitSelection:argmincost(sam(bei3),sam(jing1),sam(jiao1),…)Corpus:bei3jing1ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpe