1200字范文 > 一种语音识别方法装置存储介质及语音设备与流程

一种语音识别方法装置存储介质及语音设备与流程

时间：2022-02-01 08:55:38

本发明涉及语音控制领域，尤其涉及一种语音识别方法、装置、存储介质及语音设备。

背景技术：

语音设备在进行语音识别过程中，需要时刻处于工作状态，保证持续的拾音，这样才能够不错过用户的有效命令。同时，持续的对用户的语音指令进行采集识别，会导致语音的误识别动作增加，例如，语音的技能越多，误识别越多；例如，语音设备持续采集用户的语音信息，当有周围的噪音或其他与命令词有关的指令混入(如相似相近)，就有可能被识别成动作指令导致误触发，同时，有可能此时用户正在聊天或者讲电话，而并不想自己的谈话内容被上传到云端识别，语音设备持续采集用户的语音信息，导致用户的隐私数据得不到保障。

技术实现要素：

本发明的主要目的在于克服上述现有技术的缺陷，提供一种语音识别方法、装置、存储介质及语音设备，以解决现有技术中语音设备持续对语音指令进行采集识别，会导致语音的误识别增加的问题。

本发明一方面提供了一种语音识别方法，包括：当语音设备被唤醒后，在预设时间内接收语音指令；若在预设时间内接收到有效语音指令，则根据所述有效语音指令判断当前是否需要进行多轮交互对话；若判断当前需要进行多轮交互对话，则执行多轮交互对话模式。

可选地，还包括：当语音设备被唤醒后，若在预设时间内未接收到有效语音指令，则退出语音识别状态；和/或，若判断当前不需要进行多轮交互对话，则执行所述有效语音指令对应的控制操作，并退出语音识别状态。

可选地，根据所述有效语音指令判断当前是否需要进行多轮交互对话，包括：识别所述有效语音指令对应的控制意图；根据所述控制意图判断当前是否需要进行多轮交互对话。

可选地，执行多轮交互对话模式，包括：根据预先设置的所述有效语音指令对应的控制意图所对应的交互对话逻辑与用户进行多轮交互对话。

本发明另一方面提供了一种语音识别装置，包括：接收单元，用于当语音设备被唤醒后，在预设时间内接收语音指令；判断单元，用于若在预设时间内接收到有效语音指令，则根据所述有效语音指令判断当前是否需要进行多轮交互对话；执行单元，用于若判断当前需要进行多轮交互对话，则执行多轮交互对话模式。

可选地，所述执行单元，还用于：当语音设备被唤醒后，若在预设时间内未接收到有效语音指令，则退出语音识别状态；和/或，若判断当前不需要进行多轮交互对话，则执行所述有效语音指令对应的控制操作，并退出语音识别状态。

可选地，所述判断单元，根据所述有效语音指令判断当前是否需要进行多轮交互对话，包括：识别所述有效语音指令对应的控制意图；根据所述控制意图判断当前是否需要进行多轮交互对话。

可选地，所述执行单元，执行多轮交互对话模式，包括：根据预先设置的所述有效语音指令对应的控制意图所对应的交互对话逻辑与用户进行多轮交互对话。

本发明又一方面提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现前述任一所述方法的步骤。

本发明再一方面提供了一种语音设备，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述任一所述方法的步骤。

本发明再一方面提供了一种语音设备，包括前述任一所述的语音识别装置。

根据本发明的技术方案，可以实现在用户有多轮交互对话需要时，用户对语音设备进行一次唤醒后，语音设备就可以连续多次采集用户的语音指令(多轮对话)，而在用户没有多轮交互对话交互需要时，用户对语音设备进行一次唤醒后，语音设备采集到一次用户语音指令后，即刻退出语音识别，既满足用户某些场景下的多轮交互对话的需求，同时，还可以保证用户的隐私、降低了误识别率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明提供的语音识别方法的一实施例的方法示意图；

图2是根据所述有效语音指令判断当前是否需要进行多轮交互对话的步骤的一具体实施方式的流程示意图；

图3是本发明提供的语音识别方法的另一实施例的方法示意图；

图4是本发明提供的语音识别方法的一具体实施例的方法示意图；

图5是本发明提供的语音识别装置的一实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，现有的语音设备的语音识别主要包括：方式一：唤醒后，预设时间内接收不到用户的有效指令，则语音设备退出语音识别状态。方式二：唤醒后，预设时间内接收到用户的有效语音指令，语音设备即时退出语音识别状态，并且执行接收到的有效语音指令的控制意图。以上两种进入和退出语音识别的方式的优点是：1、可以大幅度降低语音误识别。2、保证用户的隐私，在用户有需要的时候才采集用户的语音(用户有需要的时候通过对语音设备进行唤醒操作，来告知语音设备用户有语音识别需求)。缺点是：用户每次唤醒语音设备后，语音设备只能执行用户的一条有效语音指令。

本发明提供一种语音识别方法。所述语音识别方法可以用于具有语音识别交互功能的语音设备中，例如包括具有语音识别交互功能的电器，例如，语音空调。

图1是本发明提供的语音识别方法的一实施例的方法示意图。

如图1所示，根据本发明的一个实施例，所述语音识别方法至少包括步骤s110、步骤s120和步骤s130。

步骤s110，当语音设备被唤醒后，在预设时间内接收语音指令。

具体地，用户通过说出预设唤醒词唤醒语音设备，当语音设备接收到预设唤醒词时，进入语音识别状态，并在预设时间内接收语音指令。可选地，当语音设备被唤醒后，若在预设时间内未接收到有效语音指令，则退出语音识别状态。例如，语音设备被唤醒后，在10秒内没有接收到用户的有效语音指令，则退出语音识别状态，此时需要再次唤醒后才能进入语音识别状态。

步骤s120，若在预设时间内接收到有效语音指令，则根据所述有效语音指令判断当前是否需要进行多轮交互对话。所述有效语音指令包括预设的语音命令词，例如控制空调命令词或者查询天气、播放音乐等命令词。

图2是根据所述有效语音指令判断当前是否需要进行多轮交互对话的步骤的一具体实施方式的流程示意图。如图2所示，在一种具体实施方式中，步骤s120包括步骤s121和步骤s122。

步骤s121，识别所述有效语音指令对应的控制意图。

在一种具体实施方式中，提取所述有效语音指令中包含的预设关键词，根据所述预设关键词确定所述有效语音指令对应的控制意图。例如，预先配置不同的控制意图对应的关键词，从而根据提取的所述有效语音指令中包含的预设关键词确定所述有效语音指令所对应的控制意图。在另一种具体实施方式中，对所述有效语音指令进行语义识别，根据所述有效语音指令对应的语义，确定所述有效语音指令对应的控制意图。例如，用户的语音指令为“请帮我打开空调”，通过语义识别确定用户的控制意图是开启空调。

步骤s122，根据所述控制意图判断当前是否需要进行多轮交互对话。

具体地，预先设置需要进行多轮交互对话的控制场景，判断所述有效语音指令对应的控制意图是否为预先设置的需要进行多轮对话识别的控制场景。例如，接收到用户的语音指令为“设定闹钟”，此时，解析得到用户的控制意图为设定闹钟，判定设定闹钟为需要进行多轮交互对话的控制意图。

步骤s130，若判断当前需要进行多轮交互对话，则执行多轮交互对话模式。

具体地，根据预先设置的所述有效语音指令对应的控制意图所对应的交互对话逻辑与用户进行多轮交互对话。也就是说，根据预设的交互对话逻辑，连续多次与用户进行对话并采集用户基于对话发出的语音指令。

例如，语音设备接收到用户的语音指令为“设定闹钟”，此时解析到用户的控制意图为设定闹钟后，与用户进行交互对话，询问用户“请问您要设定哪个时间的闹钟？”，此时语音设备继续处于语音识别状态，用户可以继续对着语音设备说出闹钟时间，例如，用户说出“早上8点”，识别出用户想设定的闹钟时间为早上八点，则再询问“是否重复闹钟”，用户说出“每天重复”，则将为用户设置一个每天早上8点起闹的闹钟。

图3是本发明提供的语音识别方法的另一实施例的方法示意图。如图3所示，根据本发明的一个实施例，所述语音识别方法还包括步骤s140。

步骤s140，若判断当前不需要进行多轮交互对话，则执行所述有效语音指令对应的控制操作，并退出语音识别状态。

具体地，若判断当前不需要进行多轮交互对话，则识别所述有效语音指令对应的控制意图，并执行对应的控制操作。例如，语音设备接收到用户的语音指令为“播报新闻”，判定不需要进入多轮对话识别模式，则此时语音设备请求云端新闻资源，并进行新闻播报，同时退出语音识别状态，需要再次唤醒后才能进入语音识别状态。

为清楚说明本发明技术方案，下面再以一个具体实施例对本发明提供的语音识别方法的执行流程进行描述。

图4是本发明提供的语音识别方法的一具体实施例的方法示意图。如图4所示实施例中包括步骤s201～步骤s208。

步骤s201，用户唤醒语音设备。

步骤s202，当语音设备被唤醒后，语音设备处于语音识别状态。

步骤s203，在预设时间内接收语音指令，若未接收到有效语音指令，则执行步骤s204，若接收到有效语音指令，则执行步骤s205。

步骤s204，若预设时间内未接收到有效语音指令，则语音设备退出语音识别状态。

步骤s205，若预设时间内接收到有效语音指令，则解析接收到的语音指令的用户控制意图。

步骤s206，根据解析的用户控制意图判断当前是否需要进入多轮对话，若是，则执行步骤s207，若否，则执行步骤s208。

步骤s207，若判断当前需要进入多轮对话，则语音设备进入多轮对话模式。

步骤s208，若判断当前不需要进行多轮对话，则语音设备执行用户控制意图，同时退出语音识别状态。

下面以语音空调的语音控制场景为例说明本发明的语音识别方法。

场景1：用户对语音空调进行唤醒操作后，语音空调处于语音识别状态，在预设时间内(例如，10秒)，语音空调没有接收到用户的有效语音指令，则语音空调退出语音识别状态，此时，需要再次唤醒后才能进入语音识别状态。

场景2：用户对语音空调进行唤醒操作后，语音空调处于语音识别模式，在预设时间内(例如，10秒)，语音空调接收到用户的语音指令为“播报新闻”，不需要进入多轮对话识别模式，则此时语音空调请求云端新闻资源，并进行新闻播报，同时退出语音识别状态，需要再次唤醒后才能进入语音识别状态。

场景3：用户对语音空调进行唤醒操作后，语音空调处于语音识别模式，在预设时间内(例如，10秒)，语音空调接收到用户的语音指令为“打开空调”，需要进入多轮对话识别模式，则此时语音空调执行用户打开空调的指令后，继续处于识别状态，用户可以继续对着空调发出其他语音指令，例如，“制冷模式”、“25度”等。此时无需再次唤醒语音空调。

场景4：用户对语音空调进行唤醒操作后，语音空调处于语音识别模式，在预设时间内(例如，10秒)，语音空调接收到用户的语音指令为“设定闹钟”，此时语音空调解析到用户的意图为设定闹钟后，可以通过语音引导用户继续说出具体的闹钟设定时间。例如，通过语音“请问您要设定哪个时间的闹钟呢？”，此时语音空调继续处于语音识别状态，用户可以继续对着空调说出具体的闹钟设定需求。例如“每天早上8点”，语音空调在得到用户完整的意图后，进行相应的操作和答复，同时即刻退出语音识别状态。此时需要再次唤醒后才能进入语音识别状态。

本发明还提供一种语音识别装置。所述语音识别装置可以用于具有语音识别交互功能的语音设备中，例如包括具有语音识别交互功能的电器，例如，语音空调。

图5是本发明提供的语音识别装置的一实施例的结构示意图。如图5所示，所述语音识别装置100包括接收单元110、判断单元120和执行单元130。

接收单元110用于当语音设备被唤醒后，在预设时间内接收语音指令；判断单元120用于若在预设时间内接收到有效语音指令，则根据所述有效语音指令判断当前是否需要进行多轮交互对话；执行单元130用于若判断当前需要进行多轮交互对话，则执行多轮交互对话模式。

当语音设备被唤醒后，接收单元110在预设时间内接收语音指令。

具体地，用户通过说出预设唤醒词唤醒语音设备，当语音设备接收到预设唤醒词时，进入语音识别状态，接收单元110在预设时间内接收语音指令。

可选地，执行单元130还用于：当语音设备被唤醒后，若在预设时间内未接收到有效语音指令，则退出语音识别状态。例如，语音设备被唤醒后，在10秒内没有接收到用户的有效语音指令，则执行单元130执行退出语音识别状态，此时需要再次唤醒后才能进入语音识别状态。

若接收单元110在预设时间内接收到有效语音指令，则判断单元120根据所述有效语音指令判断当前是否需要进行多轮交互对话。所述有效语音指令包括预设的语音命令词，例如控制空调命令词或者查询天气、播放音乐等命令词。

具体地，判断单元120识别所述有效语音指令对应的控制意图，根据所述控制意图判断当前是否需要进行多轮交互对话。

预先设置需要进行多轮交互对话的控制场景，判断所述有效语音指令对应的控制意图是否为预先设置的需要进行多轮对话识别的控制场景。例如，接收到用户的语音指令为“设定闹钟”，此时，解析得到用户的控制意图为设定闹钟，判定设定闹钟为需要进行多轮交互对话的控制意图。

若判断单元120判断当前需要进行多轮交互对话，则执行单元130执行多轮交互对话模式。具体地，执行单元130根据预先设置的所述有效语音指令对应的控制意图所对应的交互对话逻辑与用户进行多轮交互对话。也就是说，根据预设的交互对话逻辑，连续多次与用户进行对话并采集用户基于对话发出的语音指令。

可选地，若所述判断单元120判断当前不需要进行多轮交互对话，则执行单元120执行所述有效语音指令对应的控制操作，并退出语音识别状态。

具体地，若判断单元120判断当前不需要进行多轮交互对话，则执行单元120识别所述有效语音指令对应的控制意图，并执行对应的控制操作。例如，语音设备接收到用户的语音指令为“播报新闻”，判定不需要进入多轮对话识别模式，则此时语音设备请求云端新闻资源，并进行新闻播报，同时退出语音识别状态，需要再次唤醒后才能进入语音识别状态。

本发明还提供对应于所述语音识别方法的一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现前述任一所述方法的步骤。

本发明还提供对应于所述语音识别方法的一种语音设备，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述任一所述方法的步骤。

本发明还提供对应于所述语音识别装置的一种语音设备，包括前述任一所述的语音识别装置。

据此，本发明提供的方案，可以实现在用户有多轮交互对话需要时，用户对语音设备进行一次唤醒后，语音设备就可以连续多次采集用户的语音指令(多轮对话)，而在用户没有多轮交互对话交互需要时，用户对语音设备进行一次唤醒后，语音设备采集到一次用户语音指令后，即刻退出语音识别，既满足用户某些场景下的多轮交互对话的需求，同时，还可以保证用户的隐私、降低了误识别率。。

本文中所描述的功能可在硬件、由处理器执行的软件、固件或其任何组合中实施。如果在由处理器执行的软件中实施，那么可将功能作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体予以传输。其它实例及实施方案在本发明及所附权利要求书的范围及精神内。举例来说，归因于软件的性质，上文所描述的功能可使用由处理器、硬件、固件、硬连线或这些中的任何者的组合执行的软件实施。此外，各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为控制装置的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

技术特征：

1.一种语音识别方法，其特征在于，包括：

当语音设备被唤醒后，在预设时间内接收语音指令；

若在预设时间内接收到有效语音指令，则根据所述有效语音指令判断当前是否需要进行多轮交互对话；

若判断当前需要进行多轮交互对话，则执行多轮交互对话模式。

2.根据权利要求1所述的方法，其特征在于，还包括：

当语音设备被唤醒后，若在预设时间内未接收到有效语音指令，则退出语音识别状态；

和/或，

若判断当前不需要进行多轮交互对话，则执行所述有效语音指令对应的控制操作，并退出语音识别状态。

3.根据权利要求1或2所述的方法，其特征在于，根据所述有效语音指令判断当前是否需要进行多轮交互对话，包括：

识别所述有效语音指令对应的控制意图；

根据所述控制意图判断当前是否需要进行多轮交互对话。

4.根据权利要求1-3任一项所述的方法，其特征在于，执行多轮交互对话模式，包括：

根据预先设置的所述有效语音指令对应的控制意图所对应的交互对话逻辑与用户进行多轮交互对话。

5.一种语音识别装置，其特征在于，包括：

接收单元，用于当语音设备被唤醒后，在预设时间内接收语音指令；

判断单元，用于若在预设时间内接收到有效语音指令，则根据所述有效语音指令判断当前是否需要进行多轮交互对话；

执行单元，用于若判断当前需要进行多轮交互对话，则执行多轮交互对话模式。

6.根据权利要求5所述的装置，其特征在于，所述执行单元，还用于：

当语音设备被唤醒后，若在预设时间内未接收到有效语音指令，则退出语音识别状态；

和/或，

若判断当前不需要进行多轮交互对话，则执行所述有效语音指令对应的控制操作，并退出语音识别状态。

7.根据权利要求5或6所述的装置，其特征在于，所述判断单元，根据所述有效语音指令判断当前是否需要进行多轮交互对话，包括：

识别所述有效语音指令对应的控制意图；

根据所述控制意图判断当前是否需要进行多轮交互对话。

8.根据权利要求5-7任一项所述的装置，其特征在于，所述执行单元，执行多轮交互对话模式，包括：

根据预先设置的所述有效语音指令对应的控制意图所对应的交互对话逻辑与用户进行多轮交互对话。

9.一种存储介质，其特征在于，其上存储有计算机程序，所述程序被处理器执行时实现权利要求1-4任一所述方法的步骤。

10.一种语音设备，其特征在于，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-4任一所述方法的步骤，或者包括如权利要求5-8任一所述的语音识别装置。

技术总结

本发明提供一种语音识别方法、装置、存储介质及语音设备，所述方法包括：当语音设备被唤醒后，在预设时间内接收语音指令；若在预设时间内接收到有效语音指令，则根据所述有效语音指令判断当前是否需要进行多轮交互对话；若判断当前需要进行多轮交互对话，则执行多轮交互对话模式。本发明提供的方案能够实现在有多轮交互对话需要时，只需进行一次唤醒，语音设备就可以连续多次采集语音指令。

技术研发人员：毛跃辉;文皓;汪进;王慧君;梁博;陶梦春

受保护的技术使用者：珠海格力电器股份有限公司

技术研发日：.10.18

技术公布日：.02.04

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。