1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 语言韵律边界预测方法 装置 系统和存储介质与流程

语言韵律边界预测方法 装置 系统和存储介质与流程

时间:2020-04-23 06:36:03

相关推荐

语言韵律边界预测方法 装置 系统和存储介质与流程

本发明涉及语音分析和处理领域,更具体地涉及一种语言韵律边界预测方法、装置、系统和存储介质。

背景技术:

近年来,随着语音技术的发展,韵律结构分析预测在语音合成、分析和处理的自然度和可懂度方面扮演着越来越重要的角色,因此改善语言韵律边界的预测效果具有重要意义。

目前,语言韵律边界预测通常被分解成不同粒度的任务,并且针对所述不同粒度的任务各自独立地建立组件模型。利用这样的组件模型进行语言韵律边界预测的准确性待提高。

技术实现要素:

考虑到上述问题而提出了本发明。

根据本发明一个方面,提供了一种语言韵律边界预测方法。所述方法包括:

提取文本的嵌入式特征;

分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;以及

至少基于除所述至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。

示例性地,对于除了用于实现最小粒度的韵律边界预测任务的组件模型外的每个组件模型,该组件模型预测文本的对应粒度的任务韵律边界是基于嵌入式特征和所有比该对应粒度更小粒度的任务韵律边界。

示例性地,对于至少一个组件模型中的每个组件模型,利用该组件模型基于嵌入式特征预测对应粒度的任务韵律边界包括:

基于所述嵌入式特征和所述至少一个其他组件模型所预测的任务韵律边界提取该对应粒度的融合特征;

基于该对应粒度的融合特征,利用该组件模型确定所述文本的对应粒度的任务韵律边界。

示例性地,基于嵌入式特征和至少一个其他组件模型所预测的任务韵律边界提取该对应粒度的融合特征包括:

连接所述嵌入式特征和所述至少一个其他组件模型所预测的任务韵律边界,以获取该对应粒度的关联特征;

基于该对应粒度的关联特征提取该对应粒度的融合特征。

示例性地,至少基于至少一个组件模型所预测的对应粒度的任务韵律边界确定最终韵律边界包括:

合并文本的所有粒度的任务韵律边界,以确定所述文本的最终韵律边界。

示例性地,分别利用至少两个组件模型中的每个组件模型基于嵌入式特征预测对应粒度的任务韵律边界包括:

利用第一组件模型基于所述嵌入式特征预测所述文本的第一粒度的任务韵律边界;

利用第二组件模型基于所述嵌入式特征和所述第一粒度的任务韵律边界预测所述文本的第二粒度的任务韵律边界;以及

利用第三组件模型基于所述嵌入式特征、所述第一粒度的任务韵律边界和所述第二粒度的任务韵律边界预测所述文本的第三粒度的任务韵律边界。

示例性地,第一粒度是韵律词粒度,第二粒度是韵律短语粒度,第三粒度是语调短语粒度。

示例性地,在提取文本的嵌入式特征之前,方法还包括:

利用样本数据根据损失函数对所述组件模型进行训练。

示例性地,损失函数基于每个组件模型所预测的文本的对应粒度的任务韵律边界确定。

示例性地,组件模型是神经网络组件模型。

示例性地,神经网络组件模型包括双向长短期记忆网络和条件随机场模型。

示例性地,提取文本的嵌入式特征包括:

对所述文本进行分词,以获得字符级特征;

将所述字符级特征进行特征嵌入化处理;

连接所有经特征嵌入化处理的字符级特征,以获得连接特征;以及

基于所述连接特征提取所述文本的嵌入式特征。

根据本发明另一方面,还提供了一种语言韵律边界预测装置,包括:

提取模块,用于提取文本的嵌入式特征;

预测模块,分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;

确定模块,至少基于除所述至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。

根据本发明再一方面,还提供了一种语言韵律边界预测系统,包括:处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述的语言韵律边界预测方法。

根据本发明又一方面,还提供了一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述的语言韵律边界预测方法。

根据本发明实施例的技术方案,将至少两个分别用于预测不同粒度的任务韵律边界的组件模型统一在一个框架下进行语言韵律边界预测,改善了预测效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1示出了现有技术的语言韵律边界预测模型的示意性框图;

图2示出了根据本发明一个实施例的语言韵律边界预测方法的示意性流程图;

图3a示出了根据本发明一个实施例的语言韵律边界预测模型的任务层的示意性框图;

图3b示出了根据本发明另一个实施例的语言韵律边界预测模型的任务层的示意性框图;

图3c示出了根据本发明再一个实施例的语言韵律边界预测模型的任务层的示意性框图;

图4示出了根据本发明一个实施例的语言韵律边界预测模型的特征提取层的示意性框图;

图5示出了根据本发明一个实施例的语言韵律边界预测模型的示意性框图;

图6示出了根据本发明一个实施例的用于语言韵律边界预测装置的示意性框图;

图7示出了根据本发明一个实施例的用于语言韵律边界预测系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本文描述的语言韵律边界预测方案基于文本内容预测出用语音播放文本内容时的语言韵律边界的位置。该方案可以用于语音合成、视频生成等应用场景的前端文本处理中。根据不同粒度的韵律边界位置可以给出相应的语音停顿等信息,使语音能正确表达语义,提高语音播放的自然流畅度,以输出高质量的语音。

韵律是一个听觉感知的概念,它是语言交际的必要手段,能帮助听者更好地理解语音所携带的信息。韵律边界预测与文本的内容有紧密的联系,为了提高语音播放的自然度,需要从文本中获取更多韵律相关的信息,比如,不同粒度的韵律边界位置。

以汉语语言为例,通常汉语的韵律边界以韵律层级划分。汉语的韵律层级一般主要分为三个基本单元:韵律词(Prosodic Word,PW)、韵律短语(Prosodic Phrase,PPH)和语调短语(Intonational Phrase,IPH),并且它们之间的关系在韵律上是按照树状的层级结构、有序地排列。这三个基本单元也分别代表着韵律边界划分的相应粒度。一个语调短语可以包含一个或多个韵律短语,一个韵律短语可以包含一个或多个韵律词。因此,语调短语的粒度最大,韵律词的粒度最小,韵律短语的粒度介于语调短语和韵律词之间。也就是说,这三个基本单元的粒度由小到大依次为韵律词、韵律短语和语调短语。

具体地,以文本“本文主要研究韵律结构的预测”为例,其本身可以作为一个语调短语。该文本可以由韵律边界划分为两个韵律短语:“本文主要研究”和“韵律结构的预测”。更进一步地,该文本可以由韵律边界划分为6个韵律词:“本文”、“主要”、“研究”、“韵律”、“结构的”和“预测”。可以明显看出,语调短语的粒度大于韵律短语的粒度,韵律短语的粒度又大于韵律词的粒度。

下面,本发明以汉语为例来说明语言韵律边界预测方法,应理解这仅是示例而非对本发明的限制。语言韵律边界预测方法还可以用于其他语言,例如英语、日语和德语等。

目前,韵律边界预测通常将汉语韵律边界预测粒度的任务分解成PW、PPH和IPH三个不同粒度的独立任务,分别建模进行处理。图1示出了现有技术的语言韵律边界预测模型的示意性框图。如图1所示,现有技术的语言韵律边界预测模型包括特征提取层110、任务层120和结果输出层130三部分。特征提取层110用于提取文本的嵌入式特征。任务层120用于基于特征提取层110提取的嵌入式特征通过多个组件模型分别预测不同粒度的任务韵律边界。结果输出层130基于所预测的不同粒度的任务韵律边界输出最终韵律边界预测结果。

任务层120可以包括多个组件模型,不同组件模型分别用于预测不同粒度的任务韵律边界。如图1所示,任务层120可以包括第一组件模型121、第二组件模型122、第三组件模型123,以此类推,以及可以包括第N组件模型,其中N为整数,例如可以等于4。可以理解,虽然在图1所示的任务层120中包括多于3个组件模型,但是其中也可以只包括2个或3个组件模型。这些组件模型分别用于预测不同粒度的韵律边界,由此完成不同粒度的预测任务。为了与最终韵律边界进行区分,将每个组件模型所预测的韵律边界称为任务韵律边界。每个组件模型独立地完成对应粒度的预测任务,组件模型之间没有依赖关系。比如,任务层120的多个组件模型可以分别完成PW、PPH、IPH三个粒度之中的任一个预测任务,第一组件模型121可以完成PW预测任务,第二组件模型122可以完成PPH预测任务,第三组件模型123可以完成IPH任务。

基于多个组件模型所预测的任务韵律边界,可以输出文本的最终韵律边界。

在上述语言韵律边界预测模型100中,用于预测不同粒度的任务韵律边界的组件模型彼此都是相互独立的。它们各自分别接收文本的特征,然后仅基于所接收的特征完成自己的预测任务。这种方式忽略了各个粒度的任务韵律边界之间的依赖关系,使语言韵律边界预测的效果大打折扣。

为了至少部分地解决上述问题,本发明实施例提供一种语言韵律边界预测方法。该语言韵律边界预测方法中,利用多任务学习架构将不同粒度的预测任务统一在一个框架下。各个预测任务的相同输入数据进行统一表征并在任务间共享。除此之外,用于预测不同粒度的任务韵律边界的组件模型之间可以建立依赖关系。特别地,用于预测较高粒度的任务韵律边界的组件模型还基于用于预测较低粒度的任务韵律边界的组件模型所预测的任务韵律边界来完成自己的预测任务。图2示出了根据本发明一个实施例的语言韵律边界预测方法200的示意性流程图。如图2所示,所述方法包括以下步骤。

步骤S210,提取文本的嵌入式特征。

文本中包括要进行语言韵律边界预测的所有文字内容。下面以文本“本文主要研究韵律结构的预测”为例来说明该语言韵律边界预测方法200。

嵌入式方法是用连续向量表示离散变量的方法。嵌入式特征是利用嵌入式方法将原有的离散对象转换为连续向量而输出的一种向量表示方式。嵌入式特征捕获了原来对象的内置属性,以根据向量空间中的相似性来衡量对象的相似性。可以理解,提取文本的嵌入式特征可以更好的用于机器学习的输入,比如,用于前馈神经网络(Feed forward Neural Network,FNN)和/或多层前馈神经网络(Multilayer Feed forward Neural Network,MFNN)的输入。

在一个示例中,可以先提取文本的字符级特征。比如,可以首先提取文本的汉字、分词、词性、词长、距离等多种特征信息。可以理解,不同的字符级特征可以根据需要进行灵活的调整,例如增加或删除等。然后基于所述字符级特征利用嵌入式方法提取得到文本的嵌入式特征。

步骤S220,分别利用至少两个组件模型中的每个组件模型基于嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大。

所述组件模型可以是任何现有的或未来研发的用于预测韵律边界的模型,本申请对此不做限制。比如,所述组件模型可以是以双向长短时记忆-条件随机场(Bidirectional Long Short-Term Memory-Conditional Random Field,BLSTM-CRF)作为基础进行建模而获得的。

可以理解,所述组件模型至少有2个,不同组件模型用于预测不同粒度的任务韵律边界。不同组件模型可以基于相同或不同的数学模型。所有的组件模型共享步骤S210所提取的嵌入式特征。

在所有组件模型中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界。换言之,这两个组件模型不是各自独立的,相反地,二者之间建立了一定的依赖或关联关系。这样从整体上针对任务韵律边界预测进行建模,避免了因忽略了不同粒度的任务之间的依赖或关联关系导致语言韵律边界预测整体效果下降的问题。总之,在该实施例的技术方案中,一部分组件模型仅基于文本的嵌入式特征预测对应粒度的任务韵律边界。该部分组件模型包括用于预测最小粒度的任务韵律边界的组件模型。另一部分组件模型不仅基于文本的嵌入式特征还基于其他组件模型所预测的任务韵律边界预测对应粒度的任务韵律边界,并且对于所述另一部分组件模型中的每一个,该组件模型所预测的任务韵律边界比其所基于的任务韵律边界的粒度大。一般地,大粒度的任务韵律边界一定是小粒度的任务韵律边界。仍以文本“本文主要研究韵律结构的预测”为例,较大粒度的韵律单元的韵律边界在两个韵律短语:“本文主要研究”和“韵律结构的预测”之间。而该位置也是较小粒度的韵律词的韵律边界,即韵律词:“研究”和“韵律”之间的边界。所以基于较小粒度的任务韵律边界来预测较大粒度的任务韵律边界,能够提高较大粒度的任务韵律边界的准确性。

图3a示出了根据本发明一个实施例的语言韵律边界预测模型300a的任务层320a的示意性框图。任务层320a用于基于文本的嵌入式特征通过N个组件模型分别预测不同粒度的任务韵律边界。N个组件模型包括第一组件模型321a、第二组件模型322a、第三组件模型323a、……第N组件模型。其中N为大于1的整数。这些组件模型共享文本的嵌入式特征。

按照图3a中从左到右的顺序的组件模型所预测的任务韵律边界的粒度逐渐增大。即第二组件模型322a预测的任务韵律边界的粒度大于第一组件模型321a预测的任务韵律边界的粒度,以此类推,第N组件模型预测的任务韵律边界的粒度大于第(N-1)组件模型预测的任务韵律边界的粒度。

语言韵律边界预测模型300a中的任务层320a与语言韵律边界预测模型100中的任务层120存在以下区别。任务层120中的第一组件模型121、第二组件模型122、第三组件模型123以及第N组件模型是相互独立的。任务层320a中的第二组件模型322a、第三组件模型323a和第N组件模型等是可以依赖其左边的组件模型的。

具体地,语言韵律边界预测模型100的任务层120中,每个组件模型的输入都只包括特征提取层110输出的文本的特征。

不同的是,语言韵律边界预测模型300a的任务层320a中,第二组件模型322a的输入除了包括文本的嵌入式特征,还可以包括第一组件模型321a预测的任务韵律边界。如图3a所示,第N组件模型的输入除了包括文本的嵌入式特征,还可以包括第N组件模型左边的所有组件模型预测的任务韵律边界,比如第(N-1)组件模型预测的任务韵律边界、第(N-2)组件模型预测的任务韵律边界,……第一组件模型321a预测的任务韵律边界。可以理解,第N组件模型的输入除了包括文本的嵌入式特征,还可以包括第N组件模型左边的任一个或多个组件模型预测的任务韵律边界。这样,第二组件模型、第三组件模型……和第N组件模型与其他组件模型建立了依赖或关联关系。

可以理解,虽然上述示例中示出了第二组件模型、第三组件模型……和第N组件模型都与其各自左边的所有组件模型建立了依赖或关联关系,但这并非必须的。例如,第二组件模型、第三组件模型……和第N组件模型中的每一个组件模型,其可以与其各自左边的一个或少数几个组件模型之间存在依赖关系。换言之,该组件模型的输入包括文本的嵌入式特征和其左边的部分组件模型预测的任务韵律边界,而不是其左边的全部组件模型预测的任务韵律边界。

图3b示出了根据本发明另一个实施例的语言韵律边界预测模型300b的任务层320b的示意性框图。在语言韵律边界预测模型300b的任务层320b中的组件模型中,并非组件模型都与其各自左边的所有组件模型之间存在依赖关系。比如第三组件模型323b的输入包括文本的嵌入式特征和第二组件模型322b预测的任务韵律边界,但是第三组件模型323b的输入不包括第一组件模型321b预测的任务韵律边界。

可以理解,虽然上述示例中示出了第二组件模型、第三组件模型……和第N组件模型都与其他组件模型建立了依赖或关联关系,但这也并非必须的。例如,可以在第二组件模型、第三组件模型……和第N组件模型之中存在少数几个组件模型,该少数几个组件模型中的每一个与其各自左边的至少一个组件模型之间存在依赖关系。换言之,该少数几个组件模型的输入包括文本的嵌入式特征和其各自左边的至少一个组件模型预测的任务韵律边界。

图3c示出了根据本发明再一个实施例的语言韵律边界预测模型300c的任务层320c的示意性框图。语言韵律边界预测模型300a的任务层320a与语言韵律边界预测模型300c的任务层320c的实现的功能和位置类似,在此不再赘述。不同的是,语言韵律边界预测模型300c的任务层320c中的组件模型中,并非所有的组件模型都与其左边的组件模型之间存在依赖关系。比如第二组件模型322c的输入仅包括文本的嵌入式特征而不包括第一组件模型321c预测的任务韵律边界。但是第三组件模型323c的输入除了包括文本的嵌入式特征,还包括第二组件模型322c预测的任务韵律边界。

步骤S230,至少基于除至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。可以理解,在此步骤中,基于至少一个依赖于其他组件模型的组件模型所预测的任务韵律边界确定最终韵律边界。

在一个示例中,所述最终韵律边界可以通过合并多个不同粒度的任务韵律边界获得。比如,再以图3c为例,最终韵律边界可以是第一组件模型321c、第三组件模型323c……和第N组件模型所预测的任务韵律边界合并所得的。

可选地,可以合并文本的所有粒度的任务韵律边界,以确定文本的最终韵律边界。比如,再以图3a为例,最终韵律边界可以是第一组件模型321a、第二组件模型322a、第三组件模型323a……和第N组件模型所分别预测的对应粒度的任务韵律边界合并所得的。

可以理解,每个组件模型都可以得到对应粒度的任务韵律边界。从某个角度来说,不同粒度的任务韵律边界都可以独立地表示文本的韵律边界。对于同一个文本,粒度大的任务韵律边界的位置会较少,相对来说,粒度小的任务韵律边界的位置会较多。仍以前述文本“本文主要研究韵律结构的预测”为例,根据韵律短语粒度的边界的位置是一个,在韵律短语“本文主要研究”和“韵律结构的预测”之间。根据韵律词粒度的边界位置是5个,分别在韵律词“本文”、“主要”、“研究”、“韵律”、“结构的”和“预测”之间。合并所有粒度的任务韵律边界可以包括更多的韵律边界信息,由此所确定的最终韵律边界更理想。

替代地,最终结果可以是任一个较高粒度的任务韵律边界或者基于该较高粒度的任务韵律边界确定的,预测该任务韵律边界不仅基于文本的嵌入式特征还基于较低粒度的任务韵律边界。比如,再以图3b为例,最终韵律边界可以是第N组件模型所预测的任务韵律边界,其中第N组件模型基于较低粒度的第(N-1)组件模型所预测的任务韵律边界来预测对应的任务韵律边界。

可以理解,最终韵律边界可以用于语音合成等应用。

上述技术方案将至少两个分别用于预测不同粒度的任务韵律边界的组件模型统一在一个框架下进行语言韵律边界预测,改善了预测效果。

在一个示例中,上述步骤S210提取文本的嵌入式特征包括以下子步骤。

子步骤S211,对文本进行分词,以获得字符级特征。

对文本进行分词可以获得汉字、分词、词性、词长和距离等多种字符级特征。这些字符级特征可以根据需要进行灵活调整,例如增加或删除其中的一个或多个。

为了处理方便,可以将各种字符级特征各自表达为独热(one-hot)型特征,即采用one-hot编码。所述one-hot编码是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效编码,该编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

子步骤S212,将字符级特征进行特征嵌入化处理。

特征嵌入化处理能够对字符级特征进行降维。比如,对于字面字典,常用汉字大概在5000至10000规模,因此汉字的one-hot向量的维度也大概是5000至10000。可以利用嵌入化处理将one-hot型字符级特征转换为低纬度的特征。

现以根据本发明一个实施例的将汉字的one-hot型字符级特征的特征嵌入化处理为例来详细说明子步骤S212。比如,可以根据如下公式确定汉字的特征嵌入化处理结果:

EMBcc=X1×Ncc×WNcc×Dcc+Bcc,

其中,EMBcc为经特征嵌入化处理的汉字的字符级特征,X1×Ncc为汉字的one-hot型字符级特征,Ncc为字典大小,Dcc为嵌入维度,W、B为模型参数。模型参数可以根据相关情况进行调整。比如,在模型训练之前进行随机初始化,在训练过程中根据损失函数进行模型参数调整。

在一个示例中,用于实现步骤S212的模型可以是前馈神经网络。

类似地,可以获得分词、词性、词长和距离等其他字符级特征的特征嵌入化处理结果,在此不再赘述。

子步骤S213,连接所有经特征嵌入化处理的字符级特征,以获得连接特征。

可以对通过连接子步骤S212获得的汉字、分词、词性、词长和距离的特征嵌入化处理结果获得连接特征。该连接特征包括文本的所有特征的信息。

子步骤S214,基于所述连接特征提取所述文本的嵌入式特征。

基于子步骤S213获得的连接特征,可以通过一个多层全连接神经网络来加强特征提取,以获得所述文本的嵌入式特征。可选地,可以采用多层前馈神经网络(Multilayer Feedforward Neural Network,MFNN)来完成子步骤S214。MFNN可以采用tanh函数作为激活函数。替代地,还可以采用卷积神经网络(Convolutional Neural Network,CNN)或双向循环神经网络(Bidirectional Recurrent Neural Network,B-RNN)等其他神经网络实现。

图4示出了根据本发明一个实施例的语言韵律边界预测模型400的特征提取层410的示意性框图。如图4所示,在特征提取层中,首先获得文本的字符级特征,例如汉字、分词、词性、词长和距离等。这些字符级特征分别输入到前馈神经网络中,以进行特征嵌入化处理。经特征嵌入化处理的字符级特征经连接器连接,由此获得连接特征。最后,利用MFNN基于连接特征提取文本的嵌入式特征。

上述提取文本的嵌入式特征的方式能够获得更利于机器学习的输入,有效提高了语言韵律边界预测的准确性并降低了计算开销。

示例性地,对于除了用于实现最小粒度的韵律边界预测任务的组件模型外的每个组件模型,该组件模型预测文本的对应粒度的任务韵律边界是基于嵌入式特征和所有比该对应粒度更小粒度的任务韵律边界。

再以图3a为例,任务层320a中的第二组件模型322a、第三组件模型323a……以及第N组件模型中的每个组件模型预测文本的对应粒度的任务韵律边界都是基于嵌入式特征和其各自左边的所有组件模型预测的任务韵律边界。具体例如,第二组件模型322a预测任务韵律边界基于嵌入式特征和第一组件模型321a预测的任务韵律边界;第三组件模型323a预测任务韵律边界基于嵌入式特征、第一组件模型321a和第二组件模型322a预测的任务韵律边界;第N组件模型预测任务韵律边界基于嵌入式特征、第一组件模型321a、第二组件模型322a、第三组件模型323a……和第(N-1)组件模型预测的任务韵律边界。

由于不同粒度的任务韵律边界在一定程度上有一定的依赖或关联关系,为了提高整体韵律边界预测的效果,组件模型在预测文本的对应粒度的任务韵律边界是基于嵌入式特征和所有比该对应粒度更小粒度的任务韵律边界。由此,最大程度地建立了一个组件模型与其他预测较小粒度的任务韵律边界的组件模型的依赖关系,充分利用了较小粒度的任务韵律边界的信息,有助于提升韵律边界预测的准确性。

示例性地,对于基于其他组件模型所预测的任务韵律边界预测任务韵律边界的组件模型中的每个组件模型,利用该组件模型基于文本的嵌入式特征预测文本的对应粒度的任务韵律边界包括如下步骤。

步骤S221,基于文本的嵌入式特征和所有其所依赖的其他组件模型所预测的任务韵律边界提取该对应粒度的融合特征。换言之,对于依赖于其他组件模型预测任务韵律边界的组件模型中的每个组件模型,基于文本的嵌入式特征和其他组件模型预测的任务韵律边界来提取该组件模型对应粒度的融合特征。再次参考图3c所示的任务层320c,其中,第三组件模型323c基于文本的嵌入式特征和第二组件模型322c所预测的任务韵律边界来提取对应粒度的融合特征。

某粒度的融合特征是基于嵌入式特征和对应的组件模型所依赖的组件模型所预测的任务韵律边界提取的相应特征。可以利用非线性转换算法来提取该融合特征,比如基于FNNtanh函数等来提取融合特征。示例性地,某特定粒度的融合特征可以融合嵌入式特征和所有比该特定粒度更小粒度的任务韵律边界的信息,其更利于当前粒度的韵律边界预测。

示例性地,对于基于其他组件模型所预测的任务韵律边界预测任务韵律边界的组件模型中的每个组件模型,该步骤S221具体包括如下步骤。

首先,连接嵌入式特征和所有该组件模型所依赖的其他组件模型所预测的任务韵律边界,以获取该对应粒度的关联特征。该关联特征关联了文本的嵌入式特征和所有该组件模型所接收的任务韵律边界,包括了这二者的信息。

然后,基于该对应粒度的关联特征提取该对应粒度的融合特征。因为关联特征包括文本的嵌入式特征和所有该组件模型所接收的任务韵律边界这二者的信息,所以可以从关联特征提取该对应粒度的融合特征。该融合特征的提取算法可以利用非线性转换方法,比如FNNtanh函数等。

该技术方案通过连接的方式获取关联特征,不仅保证了预测的任务韵律边界的准确性,进而保证了最终韵律边界的准确性,而且容易实现。

步骤S222,基于该对应粒度的融合特征,利用该组件模型确定文本的对应粒度的任务韵律边界。

如前所述,该对应粒度的融合特征融合了嵌入式特征和所有该组件模型所依赖的其他组件模型所预测的任务韵律边界的信息,基于所述融合特征利用该组件模型可以更准确地确定文本的对应粒度的任务韵律边界。

示例性地,上述组件模型是神经网络组件模型。

可以理解,基于神经网络组件模型预测文本的韵律边界,可以利用神经网络的自学习能力,由此能够获得更准确的韵律边界结果。

示例性地,上述神经网络组件模型包括双向长短期记忆网络(BLSTM)和条件随机场(CRF)模型。BLSTM-CRF模型属于端到端的韵律预测框架,其不仅能够更准确地预测韵律边界,而且与语言无关,即能够预测各个语言的文本的韵律边界。

替代地,上述神经网络组件模型可以是卷积神经网络、循环神经网络(Recurrent Neural Network,RNN)、门控循环单元(Gated Recurrent Unit,GRU)和长短期记忆网络(Long Short-Term Memory,LSTM)等神经网络中的任一个。在一个示例中,从另外一个角度,分别利用至少两个组件模型中的每个组件模型基于文本的嵌入式特征预测文本的对应粒度的任务韵律边界包括如下步骤。

步骤S221’,利用第一组件模型基于嵌入式特征预测所述文本的第一粒度的任务韵律边界。

可以理解,第一粒度的任务韵律边界的粒度最小。第一组件模型不依赖于其他组件模型,其仅基于嵌入式特征预测文本的第一粒度的任务韵律边界。

可选地,基于嵌入式特征预测所述文本的第一粒度的任务韵律边界包括利用BLSTM-CRF模型执行第一粒度的预测任务。

根据以下公式基于嵌入式特征确定第一粒度的任务韵律边界:

Firstpred=BLSTM-CRFfirst(FEATembed),

其中,Firstpred表示第一粒度的任务韵律边界,FEATembed表示嵌入式特征,BLSTM-CRFfirst表示第一粒度的BLSTM-CRF模型。

步骤S222’,利用第二组件模型基于嵌入式特征和所述第一粒度的任务韵律边界预测所述文本的第二粒度的任务韵律边界。该步骤可以包括以下子步骤。

子步骤1,连接所述嵌入式特征和所述第一粒度的任务韵律边界,以获取第二粒度的关联特征。

可以根据以下公式确定第二粒度的关联特征:

Cancatsecond=FEATembed;Firstpred,

其中,Cancatsecond表示第二粒度的任务韵律边界,Firstpred表示第一粒度的任务韵律边界,FEATembed表示嵌入式特征。

子步骤2,基于第二粒度的关联特征提取第二粒度的融合特征。

可以根据以下公式确定第二粒度的融合特征:

Secondin=FNNtanh(Cancatsecond),

其中,Secondin表示第二粒度的融合特征,Cancatsecond表示第二粒度的关联特征,FNNtanh表示以tanh为激活函数的前馈神经网络。

子步骤3,基于第二粒度的融合特征,利用第二组件模型确定所述文本的第二粒度的任务韵律边界。

与子步骤1中的确定第一粒度的任务韵律边界的公式类似,根据以下公式确定第二粒度的任务韵律边界:

Secondpred=BLSTM-CRFsecond(Secondin),

其中,Secondpred表示第二粒度的任务韵律边界,Secondin为第二粒度的融合特征,BLSTM-CRFsecond表示第二粒度的BLSTM-CRF模型。

步骤S223’,利用第三组件模型基于嵌入式特征、所述第一粒度的任务韵律边界和所述第二粒度的任务韵律边界预测所述文本的第三粒度的任务韵律边界。

第三粒度的任务韵律边界预测步骤与第二粒度的任务韵律边界预测步骤类似,具体计算过程如下:

Cancatthird=FEATembed;Secondpred;Firstpred,

Thirdin=FNNtanh(Cancatthird),

Thirdpred=BLSTM-CRFthird(Thirdin),

其中,Cancatthird为第三粒度的关联特征,Thirdin为第三粒度的融合特征,Thirdpred为第三粒度的任务韵律边界,BLSTM-CRFthird表示第三粒度的BLSTM-CRF模型。

示例性地,上述第一粒度是韵律词粒度,第二粒度是韵律短语粒度,第三粒度是语调短语粒度。

可以理解,基于上述韵律词、韵律短语和语调短语三个粒度进行韵律边界预测,可以合理的划分文本的韵律边界,满足语音合成的需要。

为了更清楚地说明本发明,图5示出了根据本发明又一个实施例的语言韵律边界预测模型的示意性框图。如图5所示,语言韵律边界预测模型包括特征提取层510、任务层520和结果输出层530三部分。其中特征提取层510的功能、位置与结构与以上语言韵律边界预测模型400中的特征提取层410类似,在此不再赘述。

任务层520包括第一组件模型521、第二组件模型522和第三组件模型523。

第一组件模型521用于执行上述步骤S221’,基于文本的嵌入式特征预测第一粒度的任务韵律边界。所述第一粒度可以是韵律词粒度,该粒度最小。

第二组件模型522用于执行上述步骤S222’,基于文本的嵌入式特征和第一组件模型521预测的第一粒度的任务韵律边界预测第二粒度的任务韵律边界。第二粒度比第一粒度大。第二粒度可以为韵律短语粒度。

第三组件模型523为用于执行上述步骤S223’,基于嵌入式特征、第一粒度的任务韵律边界和第二粒度的任务韵律边界预测文本的第三粒度的任务韵律边界。第三粒度比第一粒度和第二粒度都大。第三粒度可以为语调短语粒度。

结果输出层530用于合并第一组件模型521、第二组件模型522和第三组件模型523这三个组件模型预测的任务韵律边界以输出文本的最终韵律边界。

上述技术方案基于语言预测模型500预测文本的最终韵律边界,其能够获得更准确的预测结果。此外,该技术方案非常适用于汉语文本的预测。

根据本发明另一方面,还提供了一种用于语言韵律边界预测装置。图6示出了根据本发明一个实施例的用于语言韵律边界预测装置的示意性框图。

如图6所示,装置600包括提取模块610、预测模块620和确定模块630。

所述各个模块可分别执行上文中所述的用于语言韵律边界预测方法的各个步骤/功能。以下仅对该装置600的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。

提取模块610,用于提取文本的嵌入式特征。

预测模块620,分别利用至少两个组件模型中的每个组件模型基于提取模块610提取的嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大。

确定模块630,至少基于除至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。

根据本发明再一方面,还提供了一种语言韵律边界预测系统,包括:处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述的语言韵律边界预测方法。

图7示出了根据本发明一个实施例的用于语言韵律边界预测系统700的示意性框图。如图7所示,系统700包括输入装置710、存储装置720、处理器730以及输出装置740。

所述输入装置710用于接收用户所输入的操作指令以及采集数据。输入装置710可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

所述存储装置720存储用于实现根据本发明实施例的语言韵律边界预测方法中的相应步骤的计算机程序指令。

所述处理器730用于运行所述存储装置720中存储的计算机程序指令,以执行根据本发明实施例的语言韵律边界预测方法的相应步骤,并且用于实现根据本发明实施例的用于语言韵律边界预测装置中的提取模块610、预测模块620和确定模块630。

所述输出装置740用于向外部(例如用户)输出各种信息(例如图像和/或声音),并且可以包括显示器、扬声器等中的一个或多个。

在一个实施例中,在所述计算机程序指令被所述处理器730运行时使所述系统700执行以下步骤:

提取文本的嵌入式特征;

分别利用至少两个组件模型中的每个组件模型基于嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;

至少基于除至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。

此外,根据本发明又一方面,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的上述语言韵律边界预测方法的相应步骤,并且用于实现根据本发明实施例的上述语言韵律边界预测装置中的相应模块或上述用于语言韵律边界预测系统中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中,所述计算机程序指令被计算机或处理器运行时,使得所述计算机或处理器执行以下步骤:

提取文本的嵌入式特征;

分别利用至少两个组件模型中的每个组件模型基于嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;

至少基于除至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。

上述语言韵律边界预测方案,将至少两个分别用于预测不同粒度的任务韵律边界的组件模型统一在一个框架下进行语言韵律边界预测,改善了预测效果。

尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于语言韵律边界预测装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

技术特征:

1.一种语言韵律边界预测方法,包括:

提取文本的嵌入式特征;

分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;以及

至少基于除所述至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。

2.如权利要求1所述的方法,其中,对于除了用于实现最小粒度的韵律边界预测任务的组件模型外的每个组件模型,该组件模型预测所述文本的对应粒度的任务韵律边界是基于所述嵌入式特征和所有比该对应粒度更小粒度的任务韵律边界。

3.如权利要求1或2所述的方法,其中,对于所述至少一个组件模型中的每个组件模型,利用该组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界包括:

基于所述嵌入式特征和所述至少一个其他组件模型所预测的任务韵律边界提取该对应粒度的融合特征;

基于该对应粒度的融合特征,利用该组件模型确定所述文本的对应粒度的任务韵律边界。

4.如权利要求3所述的方法,其中,所述基于所述嵌入式特征和所述至少一个其他组件模型所预测的任务韵律边界提取该对应粒度的融合特征包括:

连接所述嵌入式特征和所述至少一个其他组件模型所预测的任务韵律边界,以获取该对应粒度的关联特征;

基于该对应粒度的关联特征提取该对应粒度的融合特征。

5.如权利要求1或2所述的方法,其中,所述至少基于所述至少一个组件模型所预测的对应粒度的任务韵律边界确定最终韵律边界包括:

合并所述文本的所有粒度的任务韵律边界,以确定所述文本的最终韵律边界。

6.如权利要求1或2所述的方法,其中,所述分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界包括:

利用第一组件模型基于所述嵌入式特征预测所述文本的第一粒度的任务韵律边界;

利用第二组件模型基于所述嵌入式特征和所述第一粒度的任务韵律边界预测所述文本的第二粒度的任务韵律边界;以及

利用第三组件模型基于所述嵌入式特征、所述第一粒度的任务韵律边界和所述第二粒度的任务韵律边界预测所述文本的第三粒度的任务韵律边界。

7.如权利要求6所述的方法,其中,所述第一粒度是韵律词粒度,所述第二粒度是韵律短语粒度,所述第三粒度是语调短语粒度。

8.一种语言韵律边界预测装置,包括:

提取模块,用于提取文本的嵌入式特征;

预测模块,分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;

确定模块,至少基于除所述至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。

9.一种语言韵律边界预测系统,包括:处理器和存储器,其中,所述存储器中存储有计算机程序指令,其特征在于,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的语言韵律边界预测方法。

10.一种存储介质,在所述存储介质上存储了程序指令,其特征在于,所述程序指令在运行时用于执行如权利要求1至7任一项所述的语言韵律边界预测方法。

技术总结

本发明实施例提供了语言韵律边界预测方法、装置、系统和存储介质。语言韵律边界预测方法包括提取文本的嵌入式特征;分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;以及至少基于除所述至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界。上述技术方案将至少两个分别用于预测不同粒度的任务韵律边界的组件模型统一在一个框架下进行语言韵律边界预测,改善了预测效果。

技术研发人员:潘华山;李秀林

受保护的技术使用者:标贝(深圳)科技有限公司

技术研发日:.06.06

技术公布日:.09.10

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。