1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 语音合成模型的训练方法 装置 设备及存储介质与流程

语音合成模型的训练方法 装置 设备及存储介质与流程

时间:2021-01-29 22:21:26

相关推荐

语音合成模型的训练方法 装置 设备及存储介质与流程

本发明涉及人工智能领域,尤其涉及一种语音合成模型的训练方法、装置、计算机设备及计算机可读存储介质。

背景技术:

目前,随着互联网的快速发展,人们越来愈多的采用语音聊天等功能进行交流,为了满足用户的需求,很多客服往往采用人工合成语音进行智能对话,因此,需要根据文本进行语音合成,将文本转换为语音,以满足用户的对话聊天需求。

当前语音合成模型的训练需要构建大量高质量的语音和文本数据,尤其在参数式和端到端合成模型系统中,需准备数十小时的目标说话人语音和对应文本的采样数据。建立这样的数据库需耗大量高的时间和人力成本。而采用的语音合成模型的训练方法,利用从目标发音人的小规模语料数据中提取的文本特征及声学特征,训练得到语音合成的深层神经网络模型。但这种方法对不同说话人仍需构建数小时或数十小时高质量带标签的语音数据,通过监督学习进行模型训练,数据利用率低。

技术实现要素:

本发明的主要目的在于提供一种语音合成模型的训练方法,旨在解决现有技术需要采集大量的带标签的文本及语音,训练得到语音合成的深层神经网络模型的技术问题。

为实现上述目的,本发明提供一种语音合成模型的训练方法,所述一种语音合成模型的训练方法包括:

在检测到第一待训练数据和第二待训练数据时,读取所述第一待训练数据中无标注文本信息和无标注语音信息,以及所述第二待训练数据中带标注文本信息和带标注语音信息,其中,所述第一待训练数据的数量大于所述第二待训练数据的数量;

基于预置编码解码器模型,构建所述无标注文本模型和所述无标注语音模型;

基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;

根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,根据所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型。

可选的,所述基于预置编码解码器模型,构建所述无标注文本模型和所述无标注语音模型,包括:

在读取到所述无标注文本信息和所述无标注语音信息时,获取预置编码-解码器模型,其中,所述预置编码-解码器模型包括预置编码器模型和预置解码器模型;

基于所述无标注文本信息训练预置编码器模型,获取无标注文字特征的向量表征信息,构建所述无标注文本模型;

基于所述无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建所述无标注语音模型。

可选的,所述基于所述无标注文本信息训练预置编码器模型,获取无标注文字特征的向量表征信息,构建所述无标注文本模型,包括:

检测到所述无标注文本信息作为输入值训练所述预置编码器模型时,获取预置词法分析,其中,所述预置词法分析为所述预置编码器模型的编码规则;

基于所述预置词法分析,获取所述预置编码器模型输出的所述无标注文字特征的向量表征信息;

基于所述无标注文字特征的向量表征信息和所述无标注文本信息,构建所述无标注文本模型。

可选的,所述基于所述无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建所述无标注语音模型,包括:

若检测到所述无标注语音信息作为输入值训练所述预置解码器模型时,获取预置句法分析,其中,所述预置句法分析为所述预置解码器模型的解码规则;

基于所述预置句法分析,获取所述预置解码器模型输出的所述无标注声学特征的向量表征信息;

基于所述声学特征的向量表征信息和所述无标注文本信息,构建所述无标注语音模型。

可选的,所述基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息,包括:

在读取到所述带标注文本信息和所述带标注语音信息时,获取所述无标注文本模型和所述无标注语音模型;

若检测到将所述带标注文本信息作为所述无标注文本模型的输入值,获取所述预置词法分析;

基于所述预置词法分析,获取所述无标注文本模型输出的带标注文字特征的向量表征信息;

若检测到将所述待标注语音信息作为所述无标注语音模型的输入值,获取所述预置句法分析;

基于所述预置句法分析,获取所述无标注语音模型输出的带标注声学特征的向量表征信息。

可选的,所述基于所述无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建所述无标注语音模型之后,还包括:

基于所述编码器模型的注意力机制,获取所述注意力机制关注的所述无标注文字特征的向量表征信息;

基于所述解码器模型的注意力机制,获取所述注意力机制关注的所述无标注声学特征的向量表征信息。

可选的,所述根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型,包括:

若检测到所述编码器模型的注意力机制关注的所述无标注文字特征的向量表征信息与所述带标注文字特征的向量表征信息相同时,基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系,训练所述无标注文本模型;

若检测到所述解码器模型的注意力机制关注的所述无标注声学特征的向量表征信息与所述带标注声学特征的向量表征信息相同时,基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系,训练所述无标注声学模型;

基于训练后的无标注文本模型与无标注声学模型,修改所述无标注文本模型与所述无标注声学模型之间的权重参数,生成所述语音合成模型。

此外,为实现上述目的,本发明还提供一种语音合成模型的训练装置,所述语音合成模型的训练装置包括:

读取单元,用于在检测到第一待训练数据和第二待训练数据时,读取所述第一待训练数据中无标注文本信息和无标注语音信息,以及所述第二待训练数据中带标注文本信息和带标注语音信息,其中,所述第一待训练数据的数量大于所述第二待训练数据的数量;

构建单元,用于基于预置编码解码器模型,构建所述无标注文本模型和所述无标注语音模型;

获取单元,用于基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;

生成单元,用于根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,根据所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型。

可选的,所述构建单元具体用于:

在读取到所述无标注文本信息和所述无标注语音信息时,获取预置编码-解码器模型,其中,所述预置编码-解码器模型包括预置编码器模型和预置解码器模型;

基于所述无标注文本信息训练预置编码器模型,获取无标注文字特征的向量表征信息,构建所述无标注文本模型;

基于所述无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建所述无标注语音模型。

可选的,所述构建单元具体用于,还包括:

第一获取子单元,用于检测到所述无标注文本信息作为输入值训练所述预置编码器模型时,获取预置词法分析,其中,所述预置词法分析为所述预置编码器模型的编码规则;

第二获取子单元,用于基于所述预置词法分析,获取所述预置编码器模型输出的所述无标注文字特征的向量表征信息;

第一构建子单元,用于基于所述无标注文字特征的向量表征信息和所述无标注文本信息,构建所述无标注文本模型。

可选的,所述构建单元具体用于,还包括:

第三获取子单元,用于若检测到所述无标注语音信息作为输入值训练所述预置解码器模型时,获取预置句法分析,其中,所述预置句法分析为所述预置解码器模型的解码规则;

第四获取子单元,用于基于所述预置句法分析,获取所述预置解码器模型输出的所述无标注声学特征的向量表征信息;

第二构建子单元,用于基于所述声学特征的向量表征信息和所述无标注文本信息,构建所述无标注语音模型。

可选的,所述获取单元具体用于:

在读取到所述带标注文本信息和所述带标注语音信息时,获取所述无标注文本模型和所述无标注语音模型;

若检测到将所述带标注文本信息作为所述无标注文本模型的输入值,获取所述预置词法分析;

基于所述预置词法分析,获取所述无标注文本模型输出的带标注文字特征的向量表征信息;

若检测到将所述待标注语音信息作为所述无标注语音模型的输入值,获取所述预置句法分析;

基于所述预置句法分析,获取所述无标注语音模型输出的带标注声学特征的向量表征信息。

可选的,所述语音合成模型的训练装置包括:

第一获取关注单元,用于基于所述编码器模型的注意力机制,获取所述注意力机制关注的所述无标注文字特征的向量表征信息;

第二获取关注单元,用于基于所述解码器模型的注意力机制,获取所述注意力机制关注的所述无标注声学特征的向量表征信息。

可选的,所述生成单元具体用于:

若检测到所述编码器模型的注意力机制关注的所述无标注文字特征的向量表征信息与所述带标注文字特征的向量表征信息相同时,基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系,训练所述无标注文本模型;

若检测到所述解码器模型的注意力机制关注的所述无标注声学特征的向量表征信息与所述带标注声学特征的向量表征信息相同时,基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系,训练所述无标注声学模型;

基于训练后的无标注文本模型与无标注声学模型,修改所述无标注文本模型与所述无标注声学模型之间的权重参数,生成所述语音合成模型。

此外,为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音合成模型的训练程序,所述语音合成模型的训练程序被所述处理器执行时实现如上发明所述语音合成模型的训练方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音合成模型的训练程序,所述语音合成模型的训练程序被处理器执行时实现如上发明所述的语音合成模型的训练方法的步骤。

本发明实施例提出的一种语音合成模型的训练方法、装置、计算机设备及计算机可读存储介质,通过在检测到第一待训练数据和第二待训练数据时,读取所述第一待训练数据中无标注文本信息和无标注语音信息,以及所述第二待训练数据中带标注文本信息和带标注语音信息,其中,所述第一待训练数据的数量大于所述第二待训练数据的数量;基于预置编码解码器模型,构建所述无标注文本模型和所述无标注语音模型;基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,根据所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型,实现了采用大量无标签的语音数据或文本数据获得预训练模型,仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;

图2为本发明语音合成模型的训练方法的第一实施例的流程示意图;

图3为本发明语音合成模型的训练方法的第二实施例的流程示意图;

图4为图3中S22的步骤的细化流程示意图;

图5为图3中S23的步骤的细化流程示意图;

图6为图2中S30的步骤的细化流程示意图;

图7为本发明语音合成模型的训练方法的第三实施例的流程示意图。

本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的主要解决方案是:在检测到第一待训练数据和第二待训练数据时,读取第一待训练数据中无标注文本信息和无标注语音信息,以及第二待训练数据中带标注文本信息和带标注语音信息,其中,第一待训练数据的数量大于所述第二待训练数据的数量;基于预置编码解码器模型,构建无标注文本模型和所述无标注语音模型;基于带标注文本信息和带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;根据带标注文字特征的向量表征信息训练无标注语音模型,根据带标注声学特征的向量表征信息训练无标注文本模型,生成语音合成模型。

由于现有技术需要采集大量的带标签的文本及语音,训练得到语音合成的深层神经网络模型。

本发明提供一种解决方案,使采用大量无标签的语音数据或文本数据获得预训练模型,仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建。

如图1所示,图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC,便携计算机等具有显示功能的可移动式终端设备。

如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音合成模型的训练程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中语音合成模型的训练程序,并执行以下操作:

在检测到第一待训练数据和第二待训练数据时,读取第一待训练数据中无标注文本信息和无标注语音信息,以及第二待训练数据中带标注文本信息和带标注语音信息,其中,第一待训练数据的数量大于第二待训练数据的数量;

基于预置编码解码器模型,构建无标注文本模型和无标注语音模型;

基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;

根据所述带标注文字特征的向量表征信息训练无标注语音模型,根据带标注声学特征的向量表征信息训练无标注文本模型,生成语音合成模型。

进一步地,处理器1001可以调用存储器1005中存储的语音合成模型的训练程序,还执行以下操作:

在读取到无标注文本信息和无标注语音信息时,获取预置编码-解码器模型;

基于无标注文本信息训练预置编码器模型,获取无标注文字特征的向量表征信息,构建无标注文本模型;

基于无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建无标注语音模型。

进一步地,处理器1001可以调用存储器1005中存储的语音合成模型的训练程序,还执行以下操作:

检测到无标注文本信息作为输入值训练预置编码器模型时,获取预置词法分析,其中,预置词法分析为预置编码器模型的编码规则;

基于预置词法分析,获取预置编码器模型输出的无标注文字特征的向量表征信息;

基于无标注文字特征的向量表征信息和无标注文本信息,构建无标注文本模型。

进一步地,处理器1001可以调用存储器1005中存储的语音合成模型的训练程序,还执行以下操作:

若检测到无标注语音信息作为输入值训练预置解码器模型时,获取预置句法分析,其中,预置句法分析为预置解码器模型的解码规则;

基于预置句法分析,获取预置解码器模型输出的无标注声学特征的向量表征信息;

基于声学特征的向量表征信息和无标注文本信息,构建无标注语音模型。

进一步地,处理器1001可以调用存储器1005中存储的语音合成模型的训练程序,还执行以下操作:

在读取到带标注文本信息和带标注语音信息时,获取无标注文本模型和无标注语音模型;

若检测到将带标注文本信息作为无标注文本模型的输入值,获取预置词法分析;

基于预置词法分析,获取无标注文本模型输出的带标注文字特征的向量表征信息;

若检测到将待标注语音信息作为无标注语音模型的输入值,获取预置句法分析;

基于预置句法分析,获取无标注语音模型输出的带标注声学特征的向量表征信息。

进一步地,处理器1001可以调用存储器1005中存储的语音合成模型的训练程序,还执行以下操作:

基于编码器模型的注意力机制,获取注意力机制关注的无标注文字特征的向量表征信息;

基于解码器模型的注意力机制,获取注意力机制关注的无标注声学特征的向量表征信息。

进一步地,处理器1001可以调用存储器1005中存储的语音合成模型的训练程序,还执行以下操作:

若检测到编码器模型的注意力机制关注的无标注文字特征的向量表征信息与带标注文字特征的向量表征信息相同时,基于带标注文字特征的向量表征信息与带标注声学特征的向量表征信息之间的映射关系,训练无标注文本模型;

若检测到解码器模型的注意力机制关注的无标注声学特征的向量表征信息与带标注声学特征的向量表征信息相同时,基于带标注文字特征的向量表征信息与带标注声学特征的向量表征信息之间的映射关系,训练无标注声学模型;

基于训练后的无标注文本模型与无标注声学模型,修改无标注文本模型与无标注声学模型之间的权重参数,生成语音合成模型。

参照图2,图2为本发明语音合成模型的训练方法的第一实施例,语音合成模型的训练方法包括:

步骤S10,在检测到第一待训练数据和第二待训练数据时,读取第一待训练数据中无标注文本信息和无标注语音信息,以及第二待训练数据中带标注文本信息和带标注语音信息,其中,第一待训练数据的数量大于第二待训练数据的数量;

终端在检测到第一待训练数据和第二待训练数据时,读取所述第一待训练数据中的无标注文本信息和无标注语音信息以及第二待训练数据中带标注的文本信息和带标注的语音信息。第一待训练数据为终端搜索到的大量无标注文本信息以及语音信息,第二待训练数据为终端获取到的目标发音人的语音信息以及语音信息对应的文本信息,将目标发音人的语音信息作为带标注语音信息,将语音信息对应的文本信息作为带标注文本信息,带标注语音信息与带标注文本信息存在着映射关系,且第一待训练数据中的无标注文本信息和无标注语音信息的数量大于第二待训练数据中带标注文本信息和带标注语音信息的数量。

步骤S20,基于预置编码解码器模型,构建无标注文本模型和无标注语音模型;

当终端读取到无标注文本信息、无标注语音信息、带标注文本信息、带标注语音信息时,提取预置数据库。预置数据库可以是字典,也可以使中文维基百科等,预置编码解码器模型以字典或中文维基百科等将无标注文本信息和无标注语音信息以及带标注文本信息以及带标注语音信息进行拆解,获取无标注文本信息的文字特征、无标注语音信息的声学特征、带标注文本信息的文字特征以及带标注语音信息的声学特征。其中,文字特征包括:字词粒度、字词性、词长以及韵律停顿,声学特征包括:谱参数、时长以及基频。

终端在获取到无标注文本信息的文字特征时,获取预置编码器模型。将无标注文本信息作为预置编码器模型的输入值,将无标注文字特征作为预置编码器模型的输出值。终端根据无标注文本信息以及对应的无标注文字特征,修改预置编码器模型的权重参数,从而构建无标注文本的神经网络模型,其中,无标注文本的神经网络模型的类型可以是卷积神经网络模型或循环神经网络模型。

终端在获取到无标注语音信息的声学特征时,获取预置解码器模型。将无标注语音信息作为预置解码器模型的输入值,将无标注声学特征作为预置解码器模型的输出值。终端根据无标注语音信息以及对应的无标注声学特征,修改预置解码器模型的权重参数,从而构建无标注语音的神经网络模型,其中,无标注语音的神经网络模型的类型可以是卷积神经网络模型或循环神经网络模型。

步骤S30,基于带标注文本信息和带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;;

终端在读取到带标注文本信息和带标注语音信息时,将带标注文字信息作为无标注文本模型的输入值,并将带标注语音信息作为无标注语音模型输出值。当将带标注文字信息作为无标注文本模型的输入值,根据无标注文本模型中的词法分析,获取带标注文字信息的文字特征,无标注文本模型基于带标注文字信息以及带标注文字信息的文字特征,得到带标注文字特征的向量表征信息,具体为,无标注文本模型基于权重参数,获取到待标注文字特征在权重矩阵中的向量表征信息。当将带标注语音信息作为无标注声学模型的输出值,根据无标注语音模型中的句法分析,获取带标注语音信息的声学特征,无标注声学模型基于带标注声学信息以及带标注文字信息的声学特征,得到带标注声学特征的向量表征信息,具体为,无标注声学模型基于权重参数,获取到待标注声学特征在权重矩阵中的向量表征信息。文字特征包括:字词粒度、字词性、词长以及韵律停顿,声学特征包括:谱参数、时长以及基频。

步骤S40,根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,根据所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型。

终端获取到无标注文本模型和无标注语音模型时,获取无标注文本模型中的无标注文字特征向量表征信息以及无标注语音特征模型中的无标注声学特征向量表征信息。在无标注文字特征向量表征信息与带标注文字特征向量表征信息相同,或无标注声学特征向量表征信息与带标注声学特征向量表征信息相同时,根据带标注文字特征向量表征信息和带标注声学特征向量表征信息之间的映射关系,得到无标注文字特征向量表征信息与带标注声学特征向量表征信息之间的映射关系,或者无标注声学特征向量表征信息与带标注文字特征向量表征信息之间的映射关系。例如,判断无标注文字特征向量表征信息与带标注文字特征向量表征信息是否相同,或者判断无标注声学特征向量表征信息与带标注声学特征向量表征信息是否相同,当相同时,得到无标注文字特征向量表征信息与带标注声学特征向量表征信息之间的映射关系或者无标注声学特征向量表征信息与带标注文字特征向量表征信息之间的映射关系。终端在得到无标注文字特征向量表征信息与无标注声学特征向量表征信息之间的映射关系时,训练无标注文本模型与无标注语音模型的权重参数,生成语音合成模型。

在本实施例中,终端在检测到编码解码器模型中的第一待训练数据和第二待训练数据时,获取第一待训练数据中无标注文本信息的文字特征和无标注语音信息的声学特征,以及第二待训练数据中带标注文本信息的文字特征和带标注语音信息的声学特征,基于编码解码器模型,生成无标注文本模型和无标注语音模型,基于无标注文本模型和无标注语音模型,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息,并根据带标注文字特征的向量表征信息和带标注声学特征的向量表征信息之间的映射关系训练无标注文本模型和无标注语音模型,生成语音合成模型,采用大量无标签的语音数据或文本数据获得预训练模型,仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建。

进一步的,参照图3,图3为本发明语音合成模型的训练方法的第二实施例,基于上述图2所示的实施例,步骤S20包括:

步骤S21,在读取到无标注文本信息和无标注语音信息时,获取预置编码-解码器模型;

步骤S22,基于无标注文本信息训练预置编码器模型,获取无标注文字特征的向量表征信息,构建无标注文本模型;

步骤S23,基于无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建无标注语音模型。

终端在读取到无标注文本信息和无标注语音信息时,获取预置编码解码器模型的编码规则和解码规则,预置编码器模型的编码规则包括字词粒度、字词性、词长等词法分析,预置解码器模型的解码规则包括韵律停顿,谱参数、时长以及基频等句法分析。终端根据预置编码器模型中的字词粒度、字词性、词长等词法分析,对获取到的无标注文本信息进行编码,获取到无标文本信息中的文字特征,终端根据无标文本信息中的文字特征和无标文本信息构建无标注文本模型。根据预置解码器模型中的韵律停顿,谱参数、时长以及基频等句法分析,对获取到的无标注语音信息进行解码,获取到无标语音信息中的声学特征,终端根据无标语音信息中的声学特征和无标语音信息构建无标注语音模型。终端根据编码器模型中的注意力机制,获取到注意力机制关注的无标注文字特征的向量表征信息,具体为,编码器模型中的注意力机制在编码器模型对无标注文本信息进行编码时,编码器模型输出的无标注文字特征,在获取到无标注文字特征的权重矩阵时,注意力机制关注无标注文字特征在权重矩阵的上下层信息的向量表征信息。

在本实施例中,终端在获取到标注文本信息和无标注语音信息时,获取预置编码解码器模型的编码规则和解码规则,启动预置编码解对无标注文本信息进行编码生成无标注文本模型,启动预置解码器模型对无标注语音信息进行解码,生成无标注语音模型,根据编码解码器模型,快速的生成无标注文本模型和无标注声学模型。

参照图4,图4为上述图3中S22的步骤细化流程图,步骤S22包括:

步骤S221,检测到无标注文本信息作为输入值训练预置编码器模型时,获取预置词法分析;

步骤S222,基于预置词法分析,获取预置编码器模型输出的无标注文字特征的向量表征信息;

步骤S223,基于无标注文字特征的向量表征信息和无标注文本信息,构建无标注文本模型。

终端检测到无标注文本信息作为输入值训练预置编码器模型时,获取预置编码器模型的词法分析,词法分析也为预置编码器模型的编码规则。预置编码器模型根据预置编码规则对无标注文本信息进行编码,获取编码后的无标注文字特征向量表征信息。在获取到无标注文字特征向量表征信息时,终端根据无标注文本信息以及无标注文字特征的向量表征信息,对编码器模型中的权重参数进行调整,构建无标注文本模型。当预置的编码规则是根据无标注文本信息中的字词进行编码时,生成无标注文字特征的字词向量权重矩阵,当预置的编码规则是根据无标注文本信息中字词的笔画进行编码时,生成无标注文字特征的笔画向量权重矩阵。终端根据无标注文字特征的字词向量权重矩阵或无标注文字特征的笔画向量权重矩阵,获取无标注文字特征向量表征信息。终端根据解码器模型中的注意力机制,获取到注意力机制关注的无标注声学特征的向量表征信息,具体为,解码器模型中的注意力机制在解码器模型对无标注语音信息进行解码时,关注解码器模型输入的无标注声学特征,在获取到无标注声学特征的权重矩阵时,注意力机制关注无标注声学特征在权重矩阵的上下层信息的向量表征信息的向量表征信息。

在本实施例中,终端在检测到无标注文本信息作为输入值训练预置编码器模型时,获取预置编码器模型的词法分析,预置编码器模型根据预置编码规则对无标注文本信息进行编码,获取编码后的无标注文字特征向量表征信息。在获取到无标注文字特征向量表征信息时,终端根据无标注文本信息以及无标注文字特征的向量表征信息,对编码器模型中的权重参数进行调整,构建无标注文本模型。通过编码器模型的编码规则,快速的训练数据,构建模型。

参照图5,图5为图3中S23的步骤细化流程图,步骤S23包括:

步骤S231,若检测到无标注语音信息作为输入值训练预置解码器模型时,获取预置句法分析;

步骤S232,基于预置句法分析,获取预置解码器模型输出的无标注声学特征的向量表征信息;

步骤S233,基于声学特征的向量表征信息和无标注文本信息,构建无标注语音模型。

终端检测到无标注语音信息作为输入值训练预置解码器模型时,获取预置解码器模型的句法分析,词法分析也为预置解码器模型的解码规则。预置解码器模型根据预置解码规则对无标注语音信息进行编码,获取解码后的无标注声学特征向量表征信息。在获取到无标注声学特征向量表征信息时,终端根据无标注语音信息以及无标注声学特征的向量表征信息,对解码器模型中的权重参数进行调整,构建无标注语音模型。当预置的解码规则是根据无标注声学特征的基频进行编解码时,生成无标注声学特征的基频向量权重矩阵,当预置的解码规则是根据无标注声学特征的时长进行解码时,生成无标注声学特征的时长向量权重矩阵。终端根据无标注声学特征的字基频向量权重矩阵或无标注声学特征的时长向量权重矩阵,获取无标注声学特征的向量表征信息。通过解码器模型的解码规则,快速的训练数据,构建模型。

参照图6,图6为图2中S30的步骤细化流程图,步骤S30包括:

步骤S31,在读取到带标注文本信息和带标注语音信息时,获取无标注文本模型和无标注语音模型;

步骤S32,若检测到将带标注文本信息作为无标注文本模型的输入值,获取预置词法分析;

步骤S33,基于预置词法分析,获取无标注文本模型输出的带标注文字特征的向量表征信息;

步骤S34,若检测到将待标注语音信息作为无标注语音模型的输入值,获取所述预置句法分析;

步骤S35,基于预置句法分析,获取无标注语音模型输出的带标注声学特征的向量表征信息。

终端在读取到第二待训练数据中带标注文本信息和带标注语音信息时,获取无标注文本模型和无标注语音模型。当终端检测到将带标注文本信息作为无标注文本模型的输入值,获取预置词法分析,基于预置词法分析,获取无标注文本模型输出的带标注文字特征的向量表征信息。当终端检测到将所述待标注语音信息作为所述无标注语音模型的输入值,获取所述预置句法分析,基于所述预置句法分析,获取所述无标注语音模型输出的带标注声学特征的向量表征信息。具体为,当终端检测到无标注文本模型中的预置编码规则是根据带标注文字特征的字词进行编码时,生成带标注文字特征的字词向量权重矩阵,当预置的编码规则是根据带标注文字特征的笔画进行编码时,生成带标注文字特征的笔画向量权重矩阵。终端根据带标注文字特征的字词向量权重矩阵或带标注文字特征的笔画向量权重矩阵,获取带标注文字特征的向量表征信息。当终端检测到无标注语音模型中的预置解码规则是根据带标注声学特征的基频进行解码时,生成带标注文字特征的基频向量权重矩阵,当预置的解码规则是根据带标注文字特征的时长进行解码时,生成带标注文字特征的时长向量权重矩阵。终端根据带标注声学特征的基频向量权重矩阵或带标注文字特征的时长向量权重矩阵,获取带标注声学特征的向量保证信息。

在本实施例中,终端在读取到第二待训练数据中带标注文本信息和带标注语音信息时,获取无标注文本模型和无标注语音模型。当终端检测到将带标注文本信息作为无标注文本模型的输入值,获取预置词法分析,基于预置词法分析,获取无标注文本模型输出的带标注文字特征的向量表征信息。当终端检测到将所述待标注语音信息作为所述无标注语音模型的输入值,获取所述预置句法分析,基于所述预置句法分析,获取所述无标注语音模型输出的带标注声学特征的向量表征信息。通过构建的模型,快速的获取带标注声学特征的向量表征信息以及带标注文字特征的向量表征信息。

参照图7,图7为本发明语音合成模型的训练方法的第三实施例,基于上述图2所示的实施例,步骤S40包括:

步骤S41,若检测到编码器模型的注意力机制关注的无标注文字特征的向量表征信息与带标注文字特征的向量表征信息相同时,基于带标注文字特征的向量表征信息与带标注声学特征的向量表征信息之间的映射关系,训练无标注文本模型;

步骤S42,若检测到解码器模型的注意力机制关注的无标注声学特征的向量表征信息与带标注声学特征的向量表征信息相同时,基于带标注文字特征的向量表征信息与带标注声学特征的向量表征信息之间的映射关系,训练无标注声学模型;

步骤S43,基于训练后的无标注文本模型与无标注声学模型,修改无标注文本模型与无标注声学模型之间的权重参数,生成语音合成模型。

当终端检测到关注的无标注文字特征向量表征信息时,根据编码器模型的注意力机制获取与无标注文字特征向量表征信息相同的带标注文本特征向量表征信息。在获取带标注文本特征向量表征信息与带标注声学特征向量表征信息并建立无标注文字特征向量表征信息与带标注声学特征向量表征信息之间的映射关系。或者,当终端关注无标注声学特征向量表征信息时,终端根据解码器模型的注意力机制,获取与无标注声学特征向量表征信息相同的带标注声学特征向量表征信息。在获取到带标注声学特征向量表征信息与带标注文字特征向量表征信息的映射关系,建立无标注声学特征向量表征信息与带标注文本特征向量表征信息之间的映射关系。

终端根据无标注声学特征向量表征信息与带标注文本特征向量表征信息之间建立的映射关系,或者,无标注文字特征向量表征信息与带标注声学特征向量表征信息之间建立的映射关系,训练无标注文本模型与无标注声学模型,修改后微调无标注文本模型与无标注声学模型之间的权重参数,从而生成语音合成模型。

在本实施例中,终端检测到编码器模型的注意力机制关注的无标注文字特征的向量表征信息与带标注文字特征的向量表征信息相同时,基于带标注文字特征的向量表征信息与带标注声学特征的向量表征信息之间的映射关系,训练无标注文本模型。若检测到解码器模型的注意力机制关注的无标注声学特征的向量表征信息与带标注声学特征的向量表征信息相同时,基于带标注文字特征的向量表征信息与带标注声学特征的向量表征信息之间的映射关系,训练无标注声学模型。基于训练无标注文本模型与无标注声学模型,修改无标注文本模型与无标注声学模型之间的权重参数,生成语音合成模型,采用大量无标签的语音数据或文本数据获得预训练模型,仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建,不需要构建复杂而庞大的搜索网络,能有效提升语音合成训练语料中文本音频的一致性,对训练的模型使用迁移学习和微调方法可获得语音的韵律风格迁移。

此外,本发明实施例还提出一种计算机设备,计算机设备包括:存储器、处理器及存储在所述存储器上并可在处理器上运行的语音合成模型的训练程序,语音合成模型的训练程序被所述处理器执行时实现如上实施例的语音合成模型的训练方法的步骤。

此外,本发明实施例还提出一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有语音合成模型的训练程序,语音合成模型的训练程序被处理器执行时实现如如上实施例的语音合成模型的训练方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:

1.一种语音合成模型的训练方法,其特征在于,所述语音合成模型的训练方法包括:

在检测到第一待训练数据和第二待训练数据时,读取所述第一待训练数据中无标注文本信息和无标注语音信息,以及所述第二待训练数据中带标注文本信息和带标注语音信息,其中,所述第一待训练数据的数量大于所述第二待训练数据的数量;

基于预置编码解码器模型,构建所述无标注文本模型和所述无标注语音模型;

基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;

根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,根据所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型。

2.如权利要求1所述的语音合成模型的训练方法,其特征在于,所述基于预置编码解码器模型,构建所述无标注文本模型和所述无标注语音模型,包括:

在读取到所述无标注文本信息和所述无标注语音信息时,获取预置编码-解码器模型,其中,所述预置编码-解码器模型包括预置编码器模型和预置解码器模型;

基于所述无标注文本信息训练预置编码器模型,获取无标注文字特征的向量表征信息,构建所述无标注文本模型;

基于所述无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建所述无标注语音模型。

3.如权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述无标注文本信息训练预置编码器模型,获取无标注文字特征的向量表征信息,构建所述无标注文本模型,包括:

检测到所述无标注文本信息作为输入值训练所述预置编码器模型时,获取预置词法分析,其中,所述预置词法分析为所述预置编码器模型的编码规则;

基于所述预置词法分析,获取所述预置编码器模型输出的所述无标注文字特征的向量表征信息;

基于所述无标注文字特征的向量表征信息和所述无标注文本信息,构建所述无标注文本模型。

4.如权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建所述无标注语音模型,包括:

若检测到所述无标注语音信息作为输入值训练所述预置解码器模型时,获取预置句法分析,其中,所述预置句法分析为所述预置解码器模型的解码规则;

基于所述预置句法分析,获取所述预置解码器模型输出的所述无标注声学特征的向量表征信息;

基于所述声学特征的向量表征信息和所述无标注文本信息,构建所述无标注语音模型。

5.如权利要求1所述的语音合成模型的训练方法,其特征在于,所述基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息,包括:

在读取到所述带标注文本信息和所述带标注语音信息时,获取所述无标注文本模型和所述无标注语音模型;

若检测到将所述带标注文本信息作为所述无标注文本模型的输入值,获取所述预置词法分析;

基于所述预置词法分析,获取所述无标注文本模型输出的带标注文字特征的向量表征信息;

若检测到将所述待标注语音信息作为所述无标注语音模型的输入值,获取所述预置句法分析;

基于所述预置句法分析,获取所述无标注语音模型输出的带标注声学特征的向量表征信息。

6.如权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述无标注语音信息训练预置解码器模型,获取无标注声学特征的向量表征信息,构建所述无标注语音模型之后,还包括:

基于所述编码器模型的注意力机制,获取所述注意力机制关注的所述无标注文字特征的向量表征信息;

基于所述解码器模型的注意力机制,获取所述注意力机制关注的所述无标注声学特征的向量表征信息。

7.如权利要求6所述的语音合成模型的训练方法,其特征在于,所述根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,根据所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型,包括:

若检测到所述编码器模型的注意力机制关注的所述无标注文字特征的向量表征信息与所述带标注文字特征的向量表征信息相同时,基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系,训练所述无标注文本模型;

若检测到所述解码器模型的注意力机制关注的所述无标注声学特征的向量表征信息与所述带标注声学特征的向量表征信息相同时,基于所述带标注文字特征的向量表征信息与所述带标注声学特征的向量表征信息之间的映射关系,训练所述无标注声学模型;

基于训练后的所述无标注文本模型与所述无标注声学模型,修改所述无标注文本模型与所述无标注声学模型之间的权重参数,生成所述语音合成模型。

8.一种语音合成模型的训练装置,其特征在于,所述语音合成模型的训练装置包括:

读取单元,用于在检测到第一待训练数据和第二待训练数据时,读取所述第一待训练数据中无标注文本信息和无标注语音信息,以及所述第二待训练数据中带标注文本信息和带标注语音信息,其中,所述第一待训练数据的数量大于所述第二待训练数据的数量;

构建单元,用于基于预置编码解码器模型,构建所述无标注文本模型和所述无标注语音模型;

获取单元,用于基于所述带标注文本信息和所述带标注语音信息,获取带标注文字特征的向量表征信息和带标注声学特征的向量表征信息;

生成单元,用于根据所述带标注文字特征的向量表征信息训练所述无标注语音模型,根据所述带标注声学特征的向量表征信息训练所述无标注文本模型,生成语音合成模型。

9.一种计算机设备,其特征在于,所述计算机设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音合成模型的训练程序,所述语音合成模型的训练程序被所述处理器执行时实现如权利要求1至7中任一项所述语音合成模型的训练方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音合成模型的训练程序,所述语音合成模型的训练程序被处理器执行时实现如权利要求1至7中任一项所述的语音合成模型的训练方法的步骤。

技术总结

本发明设计人工智能领域并公开了一种语音合成模型的训练方法,该方法包括:在检测到第一待训练数据和第二待训练数据时,读取第一待训练数据中无标注文本信息和无标注语音信息,以及第二待训练数据中带标注文本信息和带标注语音信息;基于预置编码解码器模型,构建无标注文本模型和无标注语音模型;基于带标注文本信息和带标注语音信息,获取带标注文字特征的向量表征信息训练无标注语音模型,获取带标注声学特征的向量表征信息训练无标注文本模型,生成语音合成模型。本发明还公开了一种装置、计算机设备及存储介质。本发明采用大量无标签的语音数据或文本数据获得预训练模型,仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建。

技术研发人员:陈闽川;马骏;王少军

受保护的技术使用者:平安科技(深圳)有限公司

技术研发日:.05.16

技术公布日:.08.20

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。