基于波形拼接的语音合成

zhangyanmomo
1 ℃
2020-01-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

©2003iFLYTEKTECHCENTER维吾尔语音合成技术研究报告艾斯卡尔·艾木都拉博士教授新疆大学信息科学与工程学院新疆大学多语种信息技术重点实验室维吾尔语的特点维吾尔语属于阿尔泰语系，她有标准语和方言。我们讨论的是维吾尔标准语，现行维吾尔文字释义阿拉伯文字为基础的，共有32个字母。（1）维吾尔语的音素结构音素是最小的语音单位，它有元音和辅音两大类。在32个字母中有8个元音字母，24个辅音字母。维吾尔语字母表及其读音表示读法字母顺序读法字母顺序dد9aائ1rر10əەئ2zز11bب3Zژ12Pپ4sس13tت5xش14jج6ºlغ15qچ7fف16hخ8维吾尔语字母表及其读音表示读法字母顺序读法字母顺序oوئ25kق17uۇئ26Kك18өۆئ27gگ19üۈئ28ηڭ20wۋ29lل21eېئ30mم22iىئ31nن23yي32hھ24（2）维吾尔语的音节结构维吾尔语音节的三大块是：（起音）+领音+（收音）。领音必须是元音，音节中可以没有起音和收音，但是不能没有领音，所以元音是音节的中心。我们用字母‘V’表示元音，用‘C’表示辅音，维吾尔语的音节可以归纳为以下几种形式：V,VC,CV,VCC,CVC,CVCC,CCV,CCVC,CCVCC.维吾尔语中约有5000多个音节，（包括外来词）但是这些音节的使用频率是不平衡的。一般有2000个左右的常用音节。（3）维吾尔语词语构成维吾尔语中有着丰富的构词词缀，而且词缀在词的构成中具有不同的作用。第一类是用来生成新词的词缀；第二类词缀是构成名词复数形式的词缀；第三类词缀是用来构成名词所有格；第四类词缀是用来构成形容词的级别。统计上述的词缀共有263个。这些词缀都是由一个或者多个音节构成的。在维吾尔语里，表示同一语法意义的词缀往往有几种语音上有差别的形式，它们叫做变体。如-رەل/-رلا都表示复数，只是在语音上有差别。在说话时变体中选择何种形式，取决于语音和谐规律。（4）维吾尔语句子的构成同其它语言的句子一样，由词、短语构成。但是维语句子中的词语和词语之间用空格分开，发音和文字表示是一致的，这就为我们的文本分析提供了方便。近期语音合成的方法可以归结为四种：1、物理机理语音合成；2、源－滤波器语音合成；3、基于波形拼接技术的语音合成；4、可训练的语音合成；基于波形拼接的语音合成波形拼接合成方法的基本原理就是根据输入文本分析得到的信息，从预先录制和标注好的语音库中挑选合适的单元，进行少量的调整，然后拼接得到最终的合成语音，其中用来进行单元挑选的信息可以是前端分析得到的韵律文本，也可以是生成的声学参数（比如基频、时长和谱参数），或者两者兼有。由于最终合成语音中的单元都是直接从音库中复制过来的，其最大的优势就是在于保持了原始发音人的音质。基于波形拼接的语音合成其中基于波形拼接技术的合成包括：1、基于大语料库的波形拼接合成方法。由于在模型的精确度方面的原因，以前的合成器都难以有效的合成高自然度的语音，而基于原始语音库的波形拼接合成在实现高自然度的合成系统上，取得了很大的进展。2、基于小样本的波形拼接调整合成。基于大语料库的波形拼接合成虽然大语料库合成系统的合成语音的音质和自然度都相当不错，相应的单元挑选策略也越来越精细，使得挑选出来的单元基本不需要调整，不仅保持了原始语音的音质，而且不连续现象也得到很大的改善，自然度得到极大的提高并得到了越来越广泛的应用，但是它也存在一些内在的缺陷和不足。一般而言，大语料库合成系统的合成效果都不是很稳定，对有些语句可以合成的很好，而对有些语句则合成效果比较差。由于音库很大，使得音库制作的工作量非常大，而且周期也很长，合成系统的合成语音比较单一。基于小样本的维吾尔波形拼接合成为了利用容量最小的语音语料库来高自然度地合成所有维吾尔文本，我们选择了原始音库比较小（即拼接样本数比较少）的合成系统也就是基于小样本的波形拼接合成系统，研究一些调整算法来对时长、基频以及谱参数进行高灵活度的调整并平滑拼接点处从而提高合成语音的自然度。对此我们做了一些研究工作。基于单音素的语音合成我们实现了两种不同拼接单元的语音合成技术：1、基于单音素的语音合成技术：单音素语音语料库是由32个维吾尔音素组成的一个声音文件其中有8个元音和24个辅音。我们首先研究维吾尔语的特点，积累了维吾尔里面常用的，用得最频繁的特定的单词，然后考虑音素的拼接问题，比较录制的各种音素声音，取出发音最清楚的维吾尔音素就建立了单音素语音语料库。系统收到维吾尔文本后，文本分析模块分析收到的文本并把它分割成音素序列，取出语料库中对应的语音数据来合成语音。系统框图分割成音素序列语音波形选择语音波形拼接音素序列表语音语料库维吾尔文本系统框图合成语音输入的维吾尔文本：分割成音素序列：系统总体流程过程语料库的波形数据拼接后的波形：基于双音素的语音合成2、基于双音素的语音合成技术由单音素来合成语音时，因为拼接点的数目过多尤其是元音和铺音拼接的地方不太顺，很容易加噪声，严重影响合成语音的效果。解决这些问题，我们建立了“元音+辅音”和“辅音+元音”形式的双音素语音数据库，其中有384个双音素。我们把这些声音文件以OLE对象类型存储到数据库。系统收到维吾尔文本后，文本分析模块分析收到的文本并把它分割成音素序列。把对应的声音文件直接从数据库中取出来合成。从系统语音合成效果来看，拼接单元越大合成语音的自然度越好，同时语料库的容量也会变大。但我们的目的是充分利用语音库中的有限的原始语音来实时地合成无限的维吾尔语文本。系统中只用一种语音基元来合成语音时合成语音的效果不好，因此我们保证拼接单元的长度不会太长的情况下采用可变长音素序列作为合成基元。我们计划建立包含三种语音基元的语音语料库：1、单音素单音素语音语料库由32个维吾尔音素组成的，其中有维吾尔语中的8个元音，24个辅音。2、双音素双音素语音语料库的拼接单元有“元音+辅音”和“辅音+元音”两种，总共有384个双音素。3、三音素三音素语音语料库的拼接单元有“辅音+元音+辅音”一种，总共有4608个三音素。此外我们还有建立数字的语音语料库。建立语料库前我们首先建立文本库，积累所有的单音素，双音素和三音素对应的维吾尔文本，根据语料库的语音基元找出最优的拼接单元选择算法。为了对拼接单元的韵律特征进行调整，使合成波形既保持了原始语音基元的主要音段特征，又使拼接单元的韵律特征符合语义并表示合成语音的情绪和不同重要性，从而进一步提高合成语音的可懂度和自然度我们研究了一些韵律修改算法。PSOLA算法研究了PSOLA算法(TD-PSOLA和FD-PSOLA)。TD-PSOLA(时域基音同步叠加法)基本上实现了，但TD-PSOLA算法较适合于时长的改变,当涉及音高的改变,特别是音高改变幅度较大时,容易造成叠加单元的混叠或析漏。FD-PSOLA(频域基音同步叠加法)不仅可以改变时间标尺，还可以对信号在频域上做适当调整。所以我们正在研究FD-PSOLA算法并把它应用在维吾尔语音合成中。PSOLA算法改变拼接单元的韵律参数时我们遇到“到底把那些参数改变多少？”的问题。我们用“维吾尔语语调模式词典”来统计语料库中的每个音素在不同单词里面的发音方式，参数化不同类型单词的发音方式并建立“规则库”，根据“规则库”来对音素序列进行PSOLA算法调整。此外我们还有提取音素声音的各种特征参数，建立“语音特征参数库”调整拼接单元的各种特征参数（比如LPC,MFCC，过零率等）。基频曲线为了表示合成语音的情绪和语句内容的不同重要性，我们研究了基频曲线。由于Fujisaki模型旨在模拟曲线的产生过程，并且该模型同时提供预测要素和解释要素，所以我们正在对该模型进行研究。为此我们要统计维吾尔语中的单词和短语类型，语调方式和重音方式。积累不同类型的单词和短语，标注曲线，建立“曲线模型库”。根据输入的文本从“曲线模型库”找出最合适的曲线模型，加上合成后的语音信号，就可以进一步提高合成语音的自然度。0F0F0F0F0F0F可训练的语音合成虽然波形拼接语音合成系统的效果不错，由于受音库容量以及单元调整算法的限制，其优势并不是很明显，也存在不少缺陷，比如：合成语音的效果不稳定，不连续，而且单元调整过大时导致语音音质急剧下降以及合成系统的可扩展性太差等。这些缺陷明显限制了波形拼接语音合成系统在多样化语音合成方面的应用，因此，近年来可训练的语音合成（TrainableTTS）的概念被提出来并逐渐得到越来越广泛的应用。可训练的语音合成TrainableTTS的优势就在于，可以在短时间内，基本不需要人工干预的情况下自动构建一个新的系统，因此对于不同发音人、不同发音风格、甚至不同语种的依赖性非常小。而它的不足之处在于，由于采用模型来生成目标参数并基于参数合成器来合成最终的语音，其合成效果与原始语音相比还是有不小的差距。考虑到TrainableTTS在合成时所需的存储和运算资源非常有限，因此特别适合在嵌入式环境下的应用。现在我们正在研究维吾尔TrainableTTS系统的数据准备工作。TrainableTTS的框架TrainableTTS系统主要包括两大部分：训练部分在训练过程中，利用HMM训练对语音参数进行建模。合成部分在合成过程中，对输入文本进行属性分析，并利用训练后的模型进行参数预测，最后通过合成器合成出语音。系统框架如下图所示：TrainableTTS系统流程模型训练模型训练之前，除了定义一些HMM原型的参数以外，还有一部分非常重要的工作，就是对上下文属性集和用于决策树聚类的问题集进行设计，需要注意的是，这部分工作是与语种相关的。除此之外，整个TrainableTTS的训练和合成流程基本上与语种无关。在训练过程中，利用HMM训练对谱参数，基频以及时长进行建模。TrainableTTS训练流程后端合成在合成过程中，首先是对输入文本进行分析，得到我们所需要的上下文属性,然后根据这些属性分别对语音参数的聚类决策树进行决策，并得到相应的模型序列，最后根据模型基于参数生成算法来生成参数，并通过合成器合成出最终的语音，流程图如下图所示：TrainableTTS合成流程图