1200字范文 > 语音合成模型的训练方法装置设备及存储介质与流程

语音合成模型的训练方法装置设备及存储介质与流程

时间：2021-01-29 22:21:26

本发明涉及人工智能领域，尤其涉及一种语音合成模型的训练方法、装置、计算机设备及计算机可读存储介质。

背景技术：

目前，随着互联网的快速发展，人们越来愈多的采用语音聊天等功能进行交流，为了满足用户的需求，很多客服往往采用人工合成语音进行智能对话，因此，需要根据文本进行语音合成，将文本转换为语音，以满足用户的对话聊天需求。

当前语音合成模型的训练需要构建大量高质量的语音和文本数据，尤其在参数式和端到端合成模型系统中，需准备数十小时的目标说话人语音和对应文本的采样数据。建立这样的数据库需耗大量高的时间和人力成本。而采用的语音合成模型的训练方法，利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练得到语音合成的深层神经网络模型。但这种方法对不同说话人仍需构建数小时或数十小时高质量带标签的语音数据，通过监督学习进行模型训练，数据利用率低。

技术实现要素：

本发明的主要目的在于提供一种语音合成模型的训练方法，旨在解决现有技术需要采集大量的带标签的文本及语音，训练得到语音合成的深层神经网络模型的技术问题。

为实现上述目的，本发明提供一种语音合成模型的训练方法，所述一种语音合成模型的训练方法包括：

在检测到第一待训练数据和第二待训练数据时，读取所述第一待训练数据中无标注文本信息和无标注语音信息，以及所述第二待训练数据中带标注文本信息和带标注语音信息，其中，所述第一待训练数据的数量大于所述第二待训练数据的数量；

基于预置编码解码器模型，构建所述无标注文本模型和所述无标注语音模型；

基于所述带标注文本信息和所述带标注语音信息，获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息；

根据所述带标注文字特征的向量表征信息训练所述无标注语音模型，根据所述带标注声学特征的向量表征信息训练所述无标注文本模型，生成语音合成模型。

可选的，所述基于预置编码解码器模型，构建所述无标注文本模型和所述无标注语音模型，包括：

在读取到所述无标注文本信息和所述无标注语音信息时，获取预置编码-解码器模型，其中，所述预置编码-解码器模型包括预置编码器模型和预置解码器模型；

基于所述无标注文本信息训练预置编码器模型，获取无标注文字特征的向量表征信息，构建所述无标注文本模型；

基于所述无标注语音信息训练预置解码器模型，获取无标注声学特征的向量表征信息，构建所述无标注语音模型。

可选的，所述基于所述无标注文本信息训练预置编码器模型，获取无标注文字特征的向量表征信息，构建所述无标注文本模型，包括：

检测到所述无标注文本信息作为输入值训练所述预置编码器模型时，获取预置词法分析，其中，所述预置词法分析为所述预置编码器模型的编码规则；

基于所述预置词法分析，获取所述预置编码器模型输出的所述无标注文字特征的向量表征信息；

基于所述无标注文字特征的向量表征信息和所述无标注文本信息，构建所述无标注文本模型。

可选的，所述基于所述无标注语音信息训练预置解码器模型，获取无标注声学特征的向量表征信息，构建所述无标注语音模型，包括：

若检测到所述无标注语音信息作为输入值训练所述预置解码器模型时，获取预置句法分析，其中，所述预置句法分析为所述预置解码器模型的解码规则；

基于所述预置句法分析，获取所述预置解码器模型输出的所述无标注声学特征的向量表征信息；

基于所述声学特征的向量表征信息和所述无标注文本信息，构建所述无标注语音模型。

可选的，所述基于所述带标注文本信息和所述带标注语音信息，获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息，包括：

在读取到所述带标注文本信息和所述带标注语音信息时，获取所述无标注文本模型和所述无标注语音模型；

若检测到将所述带标注文本信息作为所述无标注文本模型的输入值，获取所述预置词法分析；

基于所述预置词法分析，获取所述无标注文本模型输出的带标注文字特征的向量表征信息；

若检测到将所述待标注语音信息作为所述无标注语音模型的输入值，获取所述预置句法分析；

基于所述预置句法分析，获取所述无标注语音模型输出的带标注声学特征的向量表征信息。

可选的，所述基于所述无标注语音信息训练预置解码器模型，获取无标注声学特征的向量表征信息，构建所述无标注语音模型之后，还包括：

基于所述编码器模型的注意力机制，获取所述注意力机制关注的所述无标注文字特征的向量表征信息；

基于所述解码器模型的注意力机制，获取所述注意力机制关注的所述无标注声学特征的向量表征信息。

可选的，所述根据所述带标注文字特征的向量表征信息训练所述无标注语音模型，所述带标注声学特征的向量表征信息训练所述无标注文本模型，生成语音合成模型，包括：

若检测到所述编码器模型的注意力机制关注的所述无标注文字特征的向量表征信息与所述带标注文字特征的向量表征信息相同时，基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系，训练所述无标注文本模型；

若检测到所述解码器模型的注意力机制关注的所述无标注声学特征的向量表征信息与所述带标注声学特征的向量表征信息相同时，基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系，训练所述无标注声学模型；

基于训练后的无标注文本模型与无标注声学模型，修改所述无标注文本模型与所述无标注声学模型之间的权重参数，生成所述语音合成模型。

此外，为实现上述目的，本发明还提供一种语音合成模型的训练装置，所述语音合成模型的训练装置包括：

读取单元，用于在检测到第一待训练数据和第二待训练数据时，读取所述第一待训练数据中无标注文本信息和无标注语音信息，以及所述第二待训练数据中带标注文本信息和带标注语音信息，其中，所述第一待训练数据的数量大于所述第二待训练数据的数量；

构建单元，用于基于预置编码解码器模型，构建所述无标注文本模型和所述无标注语音模型；

获取单元，用于基于所述带标注文本信息和所述带标注语音信息，获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息；

生成单元，用于根据所述带标注文字特征的向量表征信息训练所述无标注语音模型，根据所述带标注声学特征的向量表征信息训练所述无标注文本模型，生成语音合成模型。

可选的，所述构建单元具体用于：

基于所述无标注文本信息训练预置编码器模型，获取无标注文字特征的向量表征信息，构建所述无标注文本模型；

基于所述无标注语音信息训练预置解码器模型，获取无标注声学特征的向量表征信息，构建所述无标注语音模型。

可选的，所述构建单元具体用于，还包括：

第一获取子单元，用于检测到所述无标注文本信息作为输入值训练所述预置编码器模型时，获取预置词法分析，其中，所述预置词法分析为所述预置编码器模型的编码规则；

第二获取子单元，用于基于所述预置词法分析，获取所述预置编码器模型输出的所述无标注文字特征的向量表征信息；

第一构建子单元，用于基于所述无标注文字特征的向量表征信息和所述无标注文本信息，构建所述无标注文本模型。

可选的，所述构建单元具体用于，还包括：

第三获取子单元，用于若检测到所述无标注语音信息作为输入值训练所述预置解码器模型时，获取预置句法分析，其中，所述预置句法分析为所述预置解码器模型的解码规则；

第四获取子单元，用于基于所述预置句法分析，获取所述预置解码器模型输出的所述无标注声学特征的向量表征信息；

第二构建子单元，用于基于所述声学特征的向量表征信息和所述无标注文本信息，构建所述无标注语音模型。

可选的，所述获取单元具体用于：

在读取到所述带标注文本信息和所述带标注语音信息时，获取所述无标注文本模型和所述无标注语音模型；

若检测到将所述带标注文本信息作为所述无标注文本模型的输入值，获取所述预置词法分析；

基于所述预置词法分析，获取所述无标注文本模型输出的带标注文字特征的向量表征信息；

若检测到将所述待标注语音信息作为所述无标注语音模型的输入值，获取所述预置句法分析；

基于所述预置句法分析，获取所述无标注语音模型输出的带标注声学特征的向量表征信息。

可选的，所述语音合成模型的训练装置包括：

第一获取关注单元，用于基于所述编码器模型的注意力机制，获取所述注意力机制关注的所述无标注文字特征的向量表征信息；

第二获取关注单元，用于基于所述解码器模型的注意力机制，获取所述注意力机制关注的所述无标注声学特征的向量表征信息。

可选的，所述生成单元具体用于：

基于训练后的无标注文本模型与无标注声学模型，修改所述无标注文本模型与所述无标注声学模型之间的权重参数，生成所述语音合成模型。

此外，为实现上述目的，本发明还提供一种计算机设备，所述计算机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音合成模型的训练程序，所述语音合成模型的训练程序被所述处理器执行时实现如上发明所述语音合成模型的训练方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音合成模型的训练程序，所述语音合成模型的训练程序被处理器执行时实现如上发明所述的语音合成模型的训练方法的步骤。

本发明实施例提出的一种语音合成模型的训练方法、装置、计算机设备及计算机可读存储介质，通过在检测到第一待训练数据和第二待训练数据时，读取所述第一待训练数据中无标注文本信息和无标注语音信息，以及所述第二待训练数据中带标注文本信息和带标注语音信息，其中，所述第一待训练数据的数量大于所述第二待训练数据的数量；基于预置编码解码器模型，构建所述无标注文本模型和所述无标注语音模型；基于所述带标注文本信息和所述带标注语音信息，获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息；根据所述带标注文字特征的向量表征信息训练所述无标注语音模型，根据所述带标注声学特征的向量表征信息训练所述无标注文本模型，生成语音合成模型，实现了采用大量无标签的语音数据或文本数据获得预训练模型，仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明语音合成模型的训练方法的第一实施例的流程示意图；

图3为本发明语音合成模型的训练方法的第二实施例的流程示意图；

图4为图3中S22的步骤的细化流程示意图；

图5为图3中S23的步骤的细化流程示意图；

图6为图2中S30的步骤的细化流程示意图；

图7为本发明语音合成模型的训练方法的第三实施例的流程示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：在检测到第一待训练数据和第二待训练数据时，读取第一待训练数据中无标注文本信息和无标注语音信息，以及第二待训练数据中带标注文本信息和带标注语音信息，其中，第一待训练数据的数量大于所述第二待训练数据的数量；基于预置编码解码器模型，构建无标注文本模型和所述无标注语音模型；基于带标注文本信息和带标注语音信息，获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息；根据带标注文字特征的向量表征信息训练无标注语音模型，根据带标注声学特征的向量表征信息训练无标注文本模型，生成语音合成模型。

由于现有技术需要采集大量的带标签的文本及语音，训练得到语音合成的深层神经网络模型。

本发明提供一种解决方案，使采用大量无标签的语音数据或文本数据获得预训练模型，仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音合成模型的训练程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中语音合成模型的训练程序，并执行以下操作：

在检测到第一待训练数据和第二待训练数据时，读取第一待训练数据中无标注文本信息和无标注语音信息，以及第二待训练数据中带标注文本信息和带标注语音信息，其中，第一待训练数据的数量大于第二待训练数据的数量；

基于预置编码解码器模型，构建无标注文本模型和无标注语音模型；

基于所述带标注文本信息和所述带标注语音信息，获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息；

根据所述带标注文字特征的向量表征信息训练无标注语音模型，根据带标注声学特征的向量表征信息训练无标注文本模型，生成语音合成模型。