端到端的语音合成方法、设备及存储介质的制作方法

ranzhi
1 ℃
2020-07-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

本技术涉及数据处理技术领域，提供端到端的语音合成方法、装置、模型训练方法、模型训练装置及存储介质，该端到端的语音合成方法包括：获取待处理文本；基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列，其中韵律信息用于表示待处理文本中的停顿时长；基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列；将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据；合成声波数据，得到待处理文本对应的语音数据。该方法将带有韵律信息的拼音序列作为模型数据，将模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据，使合成的语音韵律效果更好，提高了语音合成的质量。权利要求书1.一种端到端的语音合成方法，其特征在于，包括：获取待处理文本；基于所述待处理文本，确定所述待处理文本中的韵律信息，生成所述待处理文本对应的带有韵律信息的文本序列，其中所述韵律信息用于表示所述待处理文本中的停顿时长；基于带有韵律信息的所述文本序列，生成带有韵律信息的拼音序列；将所述拼音序列输入端到端的语音合成模型，得到所述待处理文本对应的声波数据；合成所述声波数据，得到所述待处理文本对应的语音数据。2.根据权利要求1所述的端到端的语音合成方法，其特征在于，所述基于所述待处理文本，确定所述待处理文本中的韵律信息，包括：基于所述待处理文本，根据标点、语句结构和词性，确定所述待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。3.根据权利要求1所述的端到端的语音合成方法，其特征在于，通过韵律模型，基于所述待处理文本，确定所述待处理文本中的韵律信息，生成所述待处理文本对应的带有韵律信息的文本序列。4.根据权利要求1所述的端到端的语音合成方法，其特征在于，所述基于所述待处理文本，根据标点、语句结构和词性，确定所述待处理文本中的韵律信息，还包括：基于所述待处理文本，转换得到纯字文本；基于所述纯字文本，确定所述待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。5.根据权利要求4所述的端到端的语音合成方法，其特征在于，所述基于所述纯字文本，确定所述待处理文本中的韵律信息，生成带有韵律信息的所述文本序列还包括：对所述纯字文本进行分词，得到分词文本；基于所述分词文本，确定所述待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。6.根据权利要求5所述的端到端的语音合成方法，其特征在于，所述根据待处理文本，确定所述待处理文本中的韵律信息包括：基于对所述分词文本进行词性分析，确定所述待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。7.根据权利要求1-6任一项所述的端到端的语音合成方法，其特征在于，所述方法还包括：根据所述带有韵律信息的所述文本序列进行发音预测，生成带有韵律信息的所述拼音序列。8.一种韵律模型训练方法，其特征在于，所述韵律模型用于如权利要求1-7任一项所述的端到端的语音合成方法，所述韵律模型训练方法包括：获取训练集，其中所述训练集包括文本以及与所述文本对应的韵律信息；将所述文本输入所述韵律模型，得到待测韵律数据；利用所述文本对应的所述韵律信息和所述待测韵律数据，训练韵律模型。9.一种端到端的语音合成模型训练方法，其特征在于，所述端到端的语音合成模型用于如权利要求1-7任一项所述的端到端的语音合成方法，所述端到端的语音合成模型训练方法包括：获取训练集，其中所述训练集包括多个文本以及与所述多个文本对应的多个语音；将所述语音转换为标准声波数据；将所述文本输入所述端到端的语音合成模型，得到待测声波数据；根据所述标准声波数据和所述待测声波数据，训练所述端到端的语音合成模型。10.一种端到端的语音合成装置，其特征在于，所述端到端的语音合成装置包括：获取模块，用于获取待处理文本；文本序列生成模块，用于基于所述待处理文本，确定所述待处理文本中的韵律信息，生成所述待处理文本对应的带有韵律信息的文本序列，其中所述韵律信息用于表示所述待处理文本中的停顿时长；拼音序列生成模块，用于基于带有韵律信息的所述文本序列，生成带有韵律信息的拼音序列；声波数据生成模块，用于将所述拼音序列输入端到端的语音合成模型，得到所述待处理文本对应的声波数据；合成模块，用于合成所述声波数据，得到所述待处理文本对应的语音数据。11.一种韵律模型训练装置，其特征在于，韵律模型用于如权利要求1-7任一项所述的语音合成方法，所述韵律模型训练装置包括：获取模块，用于获取训练集，其中所述训练集包括文本以及与所述文本对应的韵律信息；韵律数据获取模块，用于将所述文本输入所述韵律模型，得到待测韵律数据；训练模块，用于利用所述文本对应的所述韵律信息和所述待测韵律数据，训练韵律模型。12.一种端到端的语音合成模型训练装置，其特征在于，所述端到端的语音合成模型用于如权利要求1-7任一项所述的端到端的语音合成方法，所述端到端的语音合成模型训练装置包括：获取模块，用于获取训练集，其中所述训练集包括多个文本以及与所述多个文本对应的多个语音；转换模块，用于将所述语音转换为标准声波数据；数据生成模块，用于将所述文本输入所述端到端的语音合成模型，得到待测声波数据；训练模块，用于根据所述标准声波数据和所述待测声波数据，训练所述端到端的语音合成模型。13.一种电子设备，其中，所述电子设备包括：存储器，用于存储指令；以及处理器，用于调用所述存储器存储的指令执行权利要求1-7中任一项所述的端到端的语音合成方法、权利要求8中所述的韵律模型训练方法以及权利要求9中所述的端到端的语音合成模型训练方法。14.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-7中任一项所述的端到端的语音合成方法、权利要求8中所述的韵律模型训练方法以及权利要求9中所述的端到端的语音合成模型训练方法。技术说明书技术说明书端到端的语音合成方法、装置及存储介质技术领域本技术一般地涉及互联网技术领域，特别是端到端的语音合成方法、端到端的语音合成装置、韵律模型训练方法、韵律模型训练装置、端到端的语音合成模型训练方法、端到端的语音合成模型训练装置及存储介质。背景技术语音合成，又称文语转换(TTS，TextToSpeech)技术，能将任意文本转化为标准语音，即将文字信息转化为可听的声音信息，涉及声学、语言学、数字信号处理以及计算机科学。韵律是包括在语音中的节奏、强调、语调等，韵律信息在语音合成中起到了十分重要的作用。在使用端到端语音合成技术时，使用文本与语音一一对应的标准数据库训练语音合成模型，由于标准数据库中的容量有限，使语音合成模型无法学习到韵律信息的规则，使得合成的语音缺乏韵律感，无法达到良好的合成效果。技术内容为了解决现有技术中存在的上述问题，本技术提供端到端的语音合成方法、端到端的语音合成装置、韵律模型训练方法、韵律模型训练装置、端到端的语音合成模型训练方法、端到端的语音合成模型训练装置及存储介质。一方面，本技术实施例提供端到端的语音合成方法包括：获取待处理文本；基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列，其中韵律信息用于表示待处理文本中的停顿时长；基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列；将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据；合成声波数据，得到待处理文本对应的语音数据。在一实施例中，基于待处理文本，确定待处理文本中的韵律信息，包括：基于待处理文本，根据标点、语句结构和词性，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。在一实施例中，通过韵律模型，基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列。在一实施例中，基于待处理文本，根据标点、语句结构和词性，确定待处理文本中的韵律信息，还包括：基于待处理文本，转换得到纯字文本；基于纯字文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。在一实施例中，基于纯字文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列还包括：对纯字文本进行分词，得到分词文本；基于分词文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。在一实施例中，根据待处理文本，确定待处理文本中的韵律信息包括：基于对分词文本进行词性分析，确定待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。在一实施例中，端到端的语音合成方法还包括：根据带有韵律信息的文本序列进行发音预测，生成带有韵律信息的所述拼音序列。本技术实施例的又一方面提供韵律模型训练方法，韵律模型用于如前任一项所述的语音合成方法，韵律模型训练方法包括：获取训练集，其中训练集包括文本以及与文本对应的韵律信息；将文本输入所述韵律模型，得到待测韵律数据；利用文本对应的韵律信息和待测韵律数据，训练韵律模型。本技术实施例的又一方面提供端到端的语音合成模型训练方法，端到端的语音合成模型用于如前任一项所述的端到端的语音合成方法，端到端的语音合成模型训练方法包括：获取训练集，其中训练集包括多个文本以及与多个文本对应的多个语音；将语音转换为标准声波数据；将文本输入端到端的语音合成模型，得到待测声波数据；根据标准声波数据和待测声波数据，训练端到端的语音合成模型。本技术实施例的又一方面提供端到端的语音合成装置，端到端的语音合成装置包括：获取模块，用于获取待处理文本；文本序列生成模块，用于基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列，其中韵律信息用于表示待处理文本中的停顿时长；拼音序列生成模块，用于基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列；声波数据生成模块，用于将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据；合成模块，用于合成声波数据，得到待处理文本对应的语音数据。本技术实施例的又一方面提供韵律模型训练装置，韵律模型用于如前任一项所述的语音合成方法，韵律模型训练装置包括：获取模块，用于获取训练集，其中训练集包括文本以及与文本对应的韵律信息；韵律数据获取模块，用于将文本输入所述韵律模型，得到待测韵律数据；训练模块，用于利用文本对应的韵律信息和待测韵律数据，训练韵律模型。本技术实施例的又一方面提供端到端的语音合成模型训练装置，端到端的语音合成模型用于如前任一项所述的端到端的语音合成方法，端到端的语音合成模型训练装置包括：获取模块，用于获取训练集，其中训练集包括多个文本以及与多个文本对应的多个语音；转换模块，用于将语音转换为标准声波数据；数据生成模块，用于将文本输入端到端的语音合成模型，得到待测声波数据；训练模块，用于根据标准声波数据和待测声波数据，训练端到端的语音合成模型。本技术实施例的又一方面提供一种电子设备，其中，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行端到端的语音合成方法、韵律模型训练方法或端到端的语音合成模型训练方法。本技术实施例的又一方面提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行端到端的语音合成方法、韵律模型训练方法或端到端的语音合成模型训练方法。本技术实施例将表征停顿时长的韵律信息与待处理文本结合，生成待处理文本的带有韵律信息的文本序列，进而生成对应的带有韵律信息的拼音序列，并将带有韵律信息的拼音序列作为模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据，合成声波数据，得到待处理文本对应的语音数据，使合成的语音韵律效果更好，提高了语音合成的质量。附图说明通过参考附图阅读下文的详细描述，本技术实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本技术的若干实施方式，其中：图1示出了本技术实施例提供的一种端到端的语音合成方法的流程图；图2示出了本技术实施例提供的又一种端到端的语音合成方法的流程图；图3示出了本技术实施例提供的一种韵律模型训练方法的流程图；图4示出了本技术实施例提供的一种端到端的语音合成模型训练方法的流程图；图