1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 语音合成处理方法 装置 设备和存储介质与流程

语音合成处理方法 装置 设备和存储介质与流程

时间:2022-04-29 08:05:15

相关推荐

语音合成处理方法 装置 设备和存储介质与流程

本申请涉及语音合成领域,尤其涉及一种语音合成处理方法、装置、设备和存储介质。

背景技术:

随着计算机技术的迅速发展,语音合成得到了广泛的推广和应用。语音合成(又称文语转换技术),通过将文字信息转换为可听的声音信息,实现利用计算机进行流利通畅的口语输出。

常规的语音合成忠实于原始文本信息,除部分数字、符号的读法有所改变之外,文本内容在语音合成过程中保持不变,最终的语音合成效果依赖于文本内容质量。

然而,语音合成过程采用的声音来源的发音人的音色和语言表达习惯,如果与文本内容不匹配的话,会造成文本播报效果与文本内容不匹配,违和感强,进行影响语音合成效果。

技术实现要素:

本申请提供一种语音合成处理方法、装置、设备和存储介质,用以解决发音人与待播报文本内容不匹配,影响语音合成效果的问题。

第一方面,本申请提供一种语音合成处理方法,包括:

根据目标文本的文本标签,确定与所述目标文本匹配的发音人设;

根据预设的与所述发音人设匹配的语音规则,对所述目标文本进行改写处理,得到合成文本;

根据与所述发音人设匹配的初始语料,对所述合成文本进行语音合成处理,得到合成语音。

进一步地,根据预设的与所述发音人设匹配的语音规则,对所述目标文本进行改写处理,得到合成文本,包括:

提取所述目标文本的文本特征;

根据所述语音规则和所述文本特征,对所述目标文本进行改写处理,得到合成文本;

其中,所述文本特征包括以下至少一种:词性特征、实体词特征、拼音特征、分词边界特征。

进一步地,提取所述目标文本的文本特征,包括:

对所述目标文本进行语句分割处理,得到所述目标文本的离散语句;

对所述离散语句进行注音处理和词法分析处理,得到所述目标文本的文本特征。

进一步地,根据所述语音规则和所述文本特征,对所述目标文本进行改写处理,包括:

根据所述语音规则的分类,确定与所述语音规则类别对应的所述文本特征,作为目标文本特征;

根据所述语音规则,对所述目标文本特征的内容和/或排序进行更改处理。

进一步地,所述语音规则的分类包括与所述发音人设匹配的语法规则;和/或包括适用的语言类别的词汇规则;其中,所述语言类别包括普通话和方言。

进一步地,与所述发音人设匹配的语法规则,包括以下至少一种:

与所述发音人设匹配的音变规则、填充规则和表达规则,其中,

所述音变规则包括音调变更规则和/或音重变更规则;

所述填充规则包括关键字填充规则和/或语句填充规则;

所述表达规则包括句式结构更改规则和/或断句规则。

进一步地,所述语音规则还包括适用的技术指标的内容规则,根据与所述发音人设匹配的初始语料,对所述合成文本进行语音合成处理,得到合成语音,包括:

根据所述语音规则,确定所述合成文本的语音合成效果;

根据所述语音合成效果,对所述合成文本进行语音合成处理,得到合成语音。

进一步地,根据目标文本的文本标签,确定与所述目标文本匹配的发音人设,包括:

根据所述目标文本的所述文本标签,确定所述目标文本的适用场景;

根据预设的发音人设与适用场景的对应关系,确定与所述目标文本匹配的发音人设。

第二方面,本申请提供一种语音合成处理装置,包括:

第一处理单元,用于根据目标文本的文本标签,确定与所述目标文本匹配的发音人设;

第二处理单元,用于根据预设的与所述发音人设匹配的语音规则,对所述目标文本进行改写处理,得到合成文本;

第三处理单元,用于根据与所述发音人设匹配的初始语料,对所述合成文本进行语音合成处理,得到合成语音。

进一步地,第二处理单元,包括:

第一处理子单元,用于提取所述目标文本的文本特征;

第二处理子单元,用于根据所述语音规则和所述文本特征,对所述目标文本进行改写处理;

其中,所述文本特征包括以下至少一种:词性特征、实体词特征、拼音特征、分词边界特征。

进一步地,第一处理子单元,包括:

第一处理模块,用于对所述目标文本进行语句分割处理,得到所述目标文本的离散语句;

第二处理模块,用于对所述离散语句进行注音处理和词法分析处理,得到所述目标文本的文本特征。

进一步地,第二处理子单元,包括:

第一处理模块,用于根据所述语音规则的分类,确定与所述语音规则类别对应的所述文本特征,作为目标文本特征;

第二处理模块,用于根据所述语音规则,对所述目标文本特征进行改写处理。

进一步地,所述语音规则的分类包括与所述发音人设匹配的语法规则;和/或包括适用的语言类别的词汇规则;其中,所述语言类别包括普通话和方言。

进一步地,与所述发音人设匹配的语法规则,包括以下至少一种:

与所述发音人设匹配的音变规则、填充规则和表达规则,其中,

所述音变规则包括音调变更规则和/或音重变更规则;

所述填充规则包括关键字填充规则和/或语句填充规则;

所述表达规则包括句式结构更改规则和/或断句规则。

进一步地,所述语音规则还包括适用的技术指标的内容规则,第三处理单元,包括:

第一处理子单元,用于根据所述语音规则,确定所述合成文本的语音合成效果;

第二处理子单元,用于根据所述语音合成效果,对所述合成文本进行语音合成处理,得到合成语音。

进一步地,第一处理单元,包括:

第一处理子单元,用于根据所述目标文本的所述文本标签,确定所述目标文本的适用场景;

第二处理子单元,用于根据预设的发音人设与适用场景的对应关系,确定与所述目标文本匹配的发音人设。

第三方面,本申请提供一种语音合成处理设备,包括:处理器、存储器以及计算机程序;

其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如上任一项的方法。

第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现如上任一项的方法。

本申请提供的语音合成处理方法、装置、设备和存储介质,通过根据目标文本的文本标签,确定与所述目标文本匹配的发音人设;根据预设的与所述发音人设匹配的语音规则,对所述目标文本进行改写处理,得到合成文本;根据与发音人设匹配的初始语料,对合成文本进行语音合成处理,得到合成语音。实现了根据待播报的文本内容,确定与文本内容相适应的发音人设,根据与发音人设匹配的语音规则,对待播报的文本内容进行改写处理,改写处理得到的合成文本内容与发音人设对应的语音规则相匹配。对合成文本进行语音合成处理得到的合成语音,其播报风格与文本内容匹配度高,播报效果自然,表达方式多样化,可以有效提升语音合成效率,有利于提升用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的一种语音合成处理方法的流程示意图;

图2为本申请实施例提供的又一种语音合成处理方法的流程示意图;

图3为本申请实施例提供的一种语音合成处理装置的结构示意图;

图4为本申请实施例提供的又一种语音合成处理装置的结构示意图;

图5为本申请实施例提供的一种语音合成处理设备的结构示意图。

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释:

语音合成:通过机械的、电子的方法产生人造语音的技术,其中,文语转换技术隶属于语音合成,是一种将计算机产生的或外部输入的文字信息转变为口语输出的技术。

本申请具体的应用场景为:随着计算机技术的迅速发展,语音合成得到了广泛的推广和应用。语音合成(又称文语转换技术),通过将文字信息转换为可听的声音信息,实现利用计算机进行流利通畅的口语输出。常规的语音合成忠实于原始文本信息,除部分数字、符号的读法有所改变之外,文本内容在语音合成过程中保持不变,最终的语音合成效果依赖于文本内容质量。

然而,语音合成过程采用的声音来源的发音人的音色和语言表达习惯,如果与文本内容不匹配的话,会造成文本播报效果与文本内容不匹配,违和感强,进行影响语音合成效果。

本申请提供的语音合成处理方法、装置、设备和存储介质,旨在解决现有技术中的如上技术问题。

图1为本申请实施例提供的一种语音合成处理方法的流程示意图,如图1所示,该方法包括:

步骤101、根据目标文本的文本标签,确定与目标文本匹配的发音人设。

在本实施例中,具体的,本实施例的执行主体为终端、或者控制器、或者其他可以执行本实施例的装置或设备。本实施例以执行主体为终端进行说明,可以在终端中设置应用软件,然后,终端控制应用软件执行本实施例提供的方法。

文本设置有文本标签,用于描述文本的属性信息。示例性地,文本设置有<head></head>标签,用于定义文档的头部,文档的头部描述了文本的多种属性信息,<head></head>标签包括标题标签<title>、内嵌标签<script>、样式标签<style>、文件关联标签<link>等。可根据文本标签描述的属性信息,确定出文本的应用场景。

语音合成过程包括从原始语音库中选择合适的初始语料,在选择的初始语料中提取相应的语音单元,利用语音合成技术,对语音单元进行韵律特征修改和调整,得到合成语音。初始语料中的声音来源即为发音人,发音人的人物设定构成发音人设,示例性地,发音人设为35岁左右的北京青年人。不同发音人设具有不同的音色特点和语言表达特点,因此,不同发音人设的语音播报效果适用于不同的应用场景,示例性地,发音人设为京味儿风趣、声音活泼饱满的35岁北京男性青年,其语音播报效果适用的应用场景包括读书、娱乐新闻、脱口秀等。每一个发音人设对应多种标签,其中,包括与每一个发音人设的播报效果匹配的应用场景标签。确定待播报的文本为目标文本,根据目标文本的文本标签,确定出目标文本的应用场景,确定与应用场景匹配的发音人设为与目标文本匹配的发音人设。

步骤102、根据预设的与发音人设匹配的语音规则,对目标文本进行改写处理,得到合成文本。

在本实施例中,具体的,不同发音人设具有不同的音色特点和语言表达特点,示例性地,发音人设为京味儿风趣、声音活泼饱满的35岁北京男性青年,其在儿化音、音变、方言词汇、语气词方面具有特定的语言表达特点。不同发音人设对应不同的语音规则,根据与发音人设匹配的语音规则,对目标文本进行改写处理,得到合成文本。合成文本的文本内容与发音人设对应的语音规则相匹配,利用合成文本得到的合成语音,播报效果与文本内容相适应,语音播报效果良好。

步骤103、根据与发音人设匹配的初始语料,对合成文本进行语音合成处理,得到合成语音。

在本实施例中,具体的,语料库中包含不同发音人设的初始语料,根据与发音人设匹配的初始语料,对合成文本进行语音合成处理。具体的,根据合成文本内容,对初始语料进行韵律特性修改和调整,得到合成语音。语音合成过程可采用现有方法实现,在此不做赘述。

本实施例通过根据目标文本的文本标签,确定与目标文本匹配的发音人设;根据预设的与发音人设匹配的语音规则,对目标文本进行改写处理,得到合成文本;根据与发音人设匹配的初始语料,对合成文本进行语音合成处理,得到合成语音。实现了根据待播报的文本内容,确定与文本内容相适应的发音人设,根据与发音人设匹配的语音规则,对待播报的文本内容进行改写处理,改写处理得到的合成文本内容与发音人设对应的语音规则相匹配。对合成文本进行语音合成处理得到的合成语音,其播报风格与文本内容匹配度高,播报效果自然,表达方式多样化,可以有效提升语音合成效率,有利于提升用户体验。

图2为本申请实施例提供的又一种语音合成处理方法的流程示意图,如图2所示,该方法包括:

步骤201、根据目标文本的文本标签,确定与目标文本匹配的发音人设。

在本实施例中,具体的,步骤201可以参见图1的步骤101不再赘述。

步骤202、对目标文本进行语句分割处理,得到目标文本的离散语句。

在本实施例中,具体的,对于大段的文本内容,其通常由多个句子构成,把文本内容当做一个语句进行处理,会导致数据处理过程中的一条数据过长,因此,需要对文本内容进行分割处理,在保持句子意思完整性的基础上,将大段文本内容分割成离散的语句。作为一种可选方式,根据目标文本中的“。?!.”等中文或者英文常用的句子结束符号,对目标文本进行语句分割处理,得到目标文本的离散语句。

步骤203、对离散语句进行注音处理和词法分析处理,得到目标文本的文本特征。

在本实施例中,具体的,对离散语句进行注音处理,得到离散语句每个组成字的注音和音调。举例来说,对离散语句“北京建成八百多年了”进行注音处理,得到“bei3 jing1 jian4 cheng2 ba1 bai3 duo1 nian2 le5”。对离散语句进行词法分析处理,包括进行文本规整、词的切分、语法分析和语义分析处理。对离散语句进行文本规整处理,包括明显错别字修改、明显错误语序调整等;对离散语句进行词的切分处理,包括根据组成字/或词的语义内容和语法特点,将离散语句切分成离散的字和/或词,举例来说,将语句“北京建成八百多年了”切分成“北京建成八百多年了”的离散的字和/或词。得到的文本特征包括以下至少一种:词性特征、实体词特征、拼音特征、分词边界特征。词性特征描述了构成离散语句的组成字和/或词的词性,实体词特征描述了离散语句中的名词或代词,拼音特征描述了离散语句的组成字的注音和音调,分词边界特征描述了对离散语句进行词语切分时的切分标记。

步骤204、根据预设的与发音人设匹配的语音规则的分类,确定与语音规则类别对应的文本特征,作为目标文本特征。

在本实施例中,具体的,语音规则的分类包括与发音人设匹配的语法规则;和/或包括适用的语言类别的词汇规则;其中,语言类别包括普通话和方言。与发音人设匹配的语法规则,包括以下至少一种:与发音人设匹配的音变规则、填充规则和表达规则,其中,音变规则包括音调变更规则和/或音重变更规则;填充规则包括关键字填充规则和/或语句填充规则;表达规则包括句式结构更改规则和/或断句规则。根据语音规则的分类,将与语言规则类别对应的文本特征,确定为目标文本特征。示例性地,语音规则的类别为音变规则时,确定文本特征中的拼音特征为目标文本特征。

举例来说,发音人设为京味儿风趣、声音活泼饱满的35岁北京男性青年。与发音人设匹配的音变规则,包括与发音人设表达习惯匹配的音调变更规则和音重变更规则,音调变更规则包括特殊发音,例如,那(nei4)、哪(nei3)、这(zhei4);音重变更规则包括轻音规则和重音规则,例如,轻音规则:天津(jin5)、人家(jie5),重音规则:语句末尾四字成语重读、副词重读,“这故事大家都是耳熟能详(/emphasis)”“好多人都觉得特(/emphasis)神”。

填充规则包括关键字填充规则和/或语句填充规则。关键字填充包括方言词填充和语气词填充,方言词填充为在文本特征中填充方言词汇,例如,将“宝贝”填充为“宝贝儿”“有一个”填充为“有这么一个”,语气词填充包括在连词、副词、介词、主语、时间或地点做状语、人称代词后面填充语气词,例如,将“首先得吃顿海鲜”填充为:“首先呢,得吃顿海鲜”。语句填充规则为在离散语句中填充特殊的句式结构,例如,在定中短语中的中心语前增加“这么一个”,“也应了老百姓啊,人丁兴旺的这么一个诉求”,在动宾短语中的宾语前增加“这么”,“尤其这个时候呢,这个也丰收了,要庆贺这么一个节日”。

表达规则包括句式结构更改规则和/或断句规则。句式结构更改规则包括更改离散语句的句式结构,例如,将强调的实体词提到句首构成倒装句,“这地方呢,大家也知道,就在东郊民巷”,在叙述引导句前加入反问句,“这是怎么回事呢,事情是这样的,当年啊,这个”。断句规则包括因逻辑、情感等原因在没有标点的位置进行的短暂停顿,例如“咱们先从北京的近郊<breakstrengh=medium/>天津说起”。

适用的语言类别的词汇规则,描述了与发音人设匹配的语言类别的词汇特点,具体包括方言词汇的替换,例如,将“自己”替换为“自个儿”,“两个”替换为“俩”。

步骤205、根据预设的与发音人设匹配的语音规则,对目标文本特征的内容和/或排序进行更改处理,得到合成文本。

在本实施例中,具体的,根据与发音人设匹配的语音规则内容,对目标文本特征的内容和/或排序进行更改处理。对目标文本特征的内容进行更改处理,包括对目标文本特征进行替换、填充、修改处理,具体更改处理参照步骤204中的描述。对目标文本特征的顺序进行更改处理,包括对离散语句的句式结构进行更改处理,具体参照步骤204中的描述,例如,将强调的实体词提到句首构成倒装句,“这地方呢,大家也知道,就在东郊民巷”。

确定与发音人设匹配的语音规则方法包括:对音色库内的初始语料进行特征分析,特征分析的维度包括初始语料来源分析、初始语料应用场景分析、发音人音色特点分析和发音人语言类型分析,其中,语言类型包括方言和普通话。利用发音人设来表征初始语料中的相似类型发音人,根据初始语料的特征分析结果,确定初始语料中的发音人的音色特点和语言表达特点,构成发音人设的语音规则。

步骤206、根据与发音人设匹配的初始语料,对合成文本进行语音合成处理,得到合成语音。

在本实施例中,具体的,步骤206可以参见图1的步骤103,不再赘述。

本实施例通过根据目标文本的文本标签,确定与目标文本匹配的发音人设;对目标文本进行语句分割处理,得到目标文本的离散语句;对离散语句进行注音处理和词法分析处理,得到目标文本的文本特征;根据语音规则的分类,确定与语音规则类别对应的文本特征,作为目标文本特征;根据预设的与发音人设匹配的语音规则,对目标文本特征的内容和/或排序进行更改处理,得到合成文本;根据与发音人设匹配的初始语料,对合成文本进行语音合成处理,得到合成语音。根据待播报的文本内容,确定与文本内容相适应的发音人设,根据与发音人设匹配的语音规则,对目标文本的文本特征进行更改处理,更改处理得到的合成文本,在保留目标文本完整意思的基础上,其内容与形式与发音人设对应的语音规则相匹配。同时,还可以根据与发音人设对应的语音规则,确定合成文本的语音合成效果。利用初始语料对合成文本进行语音合成处理,处理得到的合成语音的播报风格,与文本内容匹配度高,播报效果自然,表达方式多样,可以有效提升语音合成的成功率,有利于提升用户体验。

图3为本申请实施例提供的一种语音合成处理装置的结构示意图,如图3所示,该装置包括:

第一处理单元1,用于根据目标文本的文本标签,确定与目标文本匹配的发音人设;

第二处理单元2,用于根据预设的与发音人设匹配的语音规则,对目标文本进行改写处理,得到合成文本;

第三处理单元3,用于根据与发音人设匹配的初始语料,对合成文本进行语音合成处理,得到合成语音。

本实施例通过根据目标文本的文本标签,确定与目标文本匹配的发音人设;根据预设的与发音人设匹配的语音规则,对目标文本进行改写处理,得到合成文本。实现了根据待播报的文本内容,确定与文本内容相适应的发音人设,根据与发音人设匹配的语音规则,对待播报的文本内容进行改写处理,改写处理得到的合成文本内容与发音人设对应的语音规则相匹配。对合成文本进行语音合成处理得到的合成语音,其播报风格与文本内容匹配度高,播报效果自然,表达方式多样化,可以有效提升语音合成效率,有利于提升用户体验。

图4为本申请实施例提供的又一种语音合成处理装置的结构示意图,在图3所示实施例的基础上,如图4所示,

第二处理单元2,包括:

第一处理子单元21,用于提取目标文本的文本特征;

第二处理子单元22,用于根据语音规则和文本特征,对目标文本进行改写处理;

其中,文本特征包括以下至少一种:词性特征、实体词特征、拼音特征、分词边界特征。

第一处理子单元21,包括:

第一处理模块211,用于对目标文本进行语句分割处理,得到目标文本的离散语句;

第二处理模块212,用于对离散语句进行注音处理和词法分析处理,得到目标文本的文本特征。

第二处理子单元22,包括:

第一处理模块221,用于根据语音规则的分类,确定与语音规则类别对应的文本特征,作为目标文本特征;

第二处理模块222,用于根据语音规则,对目标文本特征进行改写处理。

语音规则的分类包括与发音人设匹配的语法规则;和/或包括适用的语言类别的词汇规则;其中,语言类别包括普通话和方言。与发音人设匹配的语法规则,包括以下至少一种:

与发音人设匹配的音变规则、填充规则和表达规则,其中,

音变规则包括音调变更规则和/或音重变更规则;

填充规则包括关键字填充规则和/或语句填充规则;

表达规则包括句式结构更改规则和/或断句规则。

语音规则还包括适用的技术指标的内容规则,第三处理单元,包括:

第一处理子单元,用于根据语音规则,确定合成文本的语音合成效果;

第二处理子单元,用于根据语音合成效果,对合成文本进行语音合成处理,得到合成语音。

第一处理单元1,包括:

第一处理子单元11,用于根据目标文本的文本标签,确定目标文本的适用场景;

第二处理子单元12,用于根据预设的发音人设与适用场景的对应关系,确定与目标文本匹配的发音人设。

本实施例通过根据目标文本的文本标签,确定与目标文本匹配的发音人设;对目标文本进行语句分割处理,得到目标文本的离散语句;对离散语句进行注音处理和词法分析处理,得到目标文本的文本特征;根据语音规则的分类,确定与语音规则类别对应的文本特征,作为目标文本特征;根据预设的与发音人设匹配的语音规则,对目标文本特征的内容和/或排序进行更改处理,得到合成文本。根据待播报的文本内容,确定与文本内容相适应的发音人设,根据与发音人设匹配的语音规则,对目标文本的文本特征进行更改处理,更改处理得到的合成文本,在保留目标文本完整意思的基础上,其内容与形式与发音人设对应的语音规则相匹配。同时,还可以根据与发音人设对应的语音规则,确定合成文本的语音合成效果。利用初始语料对合成文本进行语音合成处理,处理得到的合成语音的播报风格,与文本内容匹配度高,播报效果自然,表达方式多样,可以有效提升语音合成的成功率,有利于提升用户体验。

图5为本申请实施例提供的一种语音合成处理设备的结构示意图,如图5所示,本申请实施例提供了一种语音合成处理设备,可以用于执行图1-图2所示实施例中语音合成处理设备动作或步骤,具体包括:处理器501,存储器502和通信接口503。

存储器502,用于存储计算机程序。

处理器501,用于执行存储器502中存储的计算机程序,以实现图1-图4所示实施例中语音合成处理设备的动作,不再赘述。

可选的,语音合成处理设备还可以包括总线504。其中,处理器501、存储器502以及通信接口503可以通过总线504相互连接;总线504可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。上述总线504可以分为地址总线、数据总线和控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中,上述各实施例之间可以相互参考和借鉴,相同或相似的步骤以及名词均不再一一赘述。

或者,以上各个模块的部分或全部也可以通过集成电路的形式内嵌于该语音合成处理设备的某一个芯片上来实现。且它们可以单独实现,也可以集成在一起。即以上这些模块可以被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)

一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述处理方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、语音合成处理设备或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、语音合成处理设备或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的语音合成处理设备、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

技术特征:

1.一种语音合成处理方法,其特征在于,包括:

根据目标文本的文本标签,确定与所述目标文本匹配的发音人设;

根据预设的与所述发音人设匹配的语音规则,对所述目标文本进行改写处理,得到合成文本;

根据与所述发音人设匹配的初始语料,对所述合成文本进行语音合成处理,得到合成语音。

2.根据权利要求1所述的方法,其特征在于,根据预设的与所述发音人设匹配的语音规则,对所述目标文本进行改写处理,得到合成文本,包括:

提取所述目标文本的文本特征;

根据所述语音规则和所述文本特征,对所述目标文本进行改写处理,得到合成文本;

其中,所述文本特征包括以下至少一种:词性特征、实体词特征、拼音特征、分词边界特征。

3.根据权利要求2所述的方法,其特征在于,提取所述目标文本的文本特征,包括:

对所述目标文本进行语句分割处理,得到所述目标文本的离散语句;

对所述离散语句进行注音处理和词法分析处理,得到所述目标文本的文本特征。

4.根据权利要求2所述的方法,其特征在于,根据所述语音规则和所述文本特征,对所述目标文本进行改写处理,包括:

根据所述语音规则的分类,确定与所述语音规则类别对应的所述文本特征,作为目标文本特征;

根据所述语音规则,对所述目标文本特征的内容和/或排序进行更改处理。

5.根据权利要求1-4任一项所述的方法,其特征在于,所述语音规则的分类包括与所述发音人设匹配的语法规则;和/或包括适用的语言类别的词汇规则;其中,所述语言类别包括普通话和方言。

6.根据权利要求5所述的方法,其特征在于,与所述发音人设匹配的语法规则,包括以下至少一种:

与所述发音人设匹配的音变规则、填充规则和表达规则,其中,

所述音变规则包括音调变更规则和/或音重变更规则;

所述填充规则包括关键字填充规则和/或语句填充规则;

所述表达规则包括句式结构更改规则和/或断句规则。

7.根据权利要求1所述的方法,其特征在于,所述语音规则还包括适用的技术指标的内容规则,根据与所述发音人设匹配的初始语料,对所述合成文本进行语音合成处理,得到合成语音,包括:

根据所述语音规则,确定所述合成文本的语音合成效果;

根据所述语音合成效果,对所述合成文本进行语音合成处理,得到合成语音。

8.根据权利要求1-7任一项所述的方法,其特征在于,根据目标文本的文本标签,确定与所述目标文本匹配的发音人设,包括:

根据所述目标文本的所述文本标签,确定所述目标文本的适用场景;

根据预设的发音人设与适用场景的对应关系,确定与所述目标文本匹配的发音人设。

9.一种语音合成处理装置,其特征在于,包括:

第一处理单元,用于根据目标文本的文本标签,确定与所述目标文本匹配的发音人设;

第二处理单元,用于根据预设的与所述发音人设匹配的语音规则,对所述目标文本进行改写处理,得到合成文本;

第三处理单元,用于根据与所述发音人设匹配的初始语料,对所述合成文本进行语音合成处理,得到合成语音。

10.根据权利要求9所述的装置,其特征在于,第二处理单元,包括:

第一处理子单元,用于提取所述目标文本的文本特征;

第二处理子单元,用于根据所述语音规则和所述文本特征,对所述目标文本进行改写处理;

其中,所述文本特征包括以下至少一种:词性特征、实体词特征、拼音特征、分词边界特征。

11.根据权利要求10所述的装置,其特征在于,第一处理子单元,包括:

第一处理模块,用于对所述目标文本进行语句分割处理,得到所述目标文本的离散语句;

第二处理模块,用于对所述离散语句进行注音处理和词法分析处理,得到所述目标文本的文本特征。

12.根据权利要求10所述的装置,其特征在于,第二处理子单元,包括:

第一处理模块,用于根据所述语音规则的分类,确定与所述语音规则类别对应的所述文本特征,作为目标文本特征;

第二处理模块,用于根据所述语音规则,对所述目标文本特征进行改写处理。

13.根据权利要求9-12任一项所述的装置,其特征在于,所述语音规则的分类包括与所述发音人设匹配的语法规则;和/或包括适用的语言类别的词汇规则;其中,所述语言类别包括普通话和方言。

14.根据权利要求13所述的装置,其特征在于,与所述发音人设匹配的语法规则,包括以下至少一种:

与所述发音人设匹配的音变规则、填充规则和表达规则,其中,

所述音变规则包括音调变更规则和/或音重变更规则;

所述填充规则包括关键字填充规则和/或语句填充规则;

所述表达规则包括句式结构更改规则和/或断句规则。

15.根据权利要求9所述的装置,其特征在于,所述语音规则还包括适用的技术指标的内容规则,第三处理单元,包括:

第一处理子单元,用于根据所述语音规则,确定所述合成文本的语音合成效果;

第二处理子单元,用于根据所述语音合成效果,对所述合成文本进行语音合成处理,得到合成语音。

16.根据权利要求9-15任一项所述的装置,其特征在于,第一处理单元,包括:

第一处理子单元,用于根据所述目标文本的所述文本标签,确定所述目标文本的适用场景;

第二处理子单元,用于根据预设的发音人设与适用场景的对应关系,确定与所述目标文本匹配的发音人设。

17.一种语音合成处理设备,其特征在于,包括:处理器、存储器以及计算机程序;

其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如权利要求1-8任一项的方法。

18.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,计算机程序被处理器执行以实现如权利要求1-8任一项的方法。

技术总结

本申请提供一种语音合成处理方法、装置、设备和存储介质,其中,方法包括:根据目标文本的文本标签,确定与目标文本匹配的发音人设;根据预设的与发音人设匹配的语音规则,对目标文本进行改写处理,得到合成文本;根据与发音人设匹配的初始语料,对合成文本进行语音合成处理,得到合成语音。实现了根据待播报的文本内容,确定与文本内容相适应的发音人设,根据与发音人设匹配的语音规则,对待播报的文本内容进行改写处理,改写处理得到的合成文本内容与发音人设对应的语音规则相匹配。对合成文本进行语音合成处理得到的合成语音,其播报风格与文本内容匹配度高,播报效果自然,表达方式多样化,可以有效提升语音合成效率,有利于提升用户体验。

技术研发人员:康骥臻;吴玉芳;瞿琴

受保护的技术使用者:百度在线网络技术(北京)有限公司

技术研发日:.06.11

技术公布日:.09.20

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。