600字范文 > 基于语音识别的交互方法装置存储介质和电子设备与流程

基于语音识别的交互方法装置存储介质和电子设备与流程

时间：2020-08-24 04:12:25

本发明公开涉及数据处理领域，具体涉及一种基于语音识别的交互方法、装置、存储介质和电子设备。

背景技术：

随着科技的不断发展，语音识别技术逐渐应用于工业、家电、通信、医疗、家庭服务、消费电子产品等越来越多的行业。现有的语音识别技术能够有效降低人力成本，但有时也可能存在准确率较低的情况。因此如何提升人机交互过程中语音识别的准确率是亟需解决的问题。

技术实现要素：

有鉴于此，本发明实施例目的在于提供一种基于语音识别的交互方法、装置、存储介质和电子设备，用于提升语音识别的准确率，同时提升语音识别的灵活性。

第一方面，本发明实施例提供了一种基于语音识别的交互方法，所述方法包括：

获取目标用户的待识别语音序列；

确定所述待识别语音序列对应的第一类型；

将所述待识别语音序列输入第一模型，获取对应的第一识别结果，所述第一模型为根据第一样本集合训练获得的模型，所述第一样本集合包括多个所述第一类型的语音序列；

将所述待识别语音序列输入第二模型，获取对应的第二识别结果，所述第二模型为根据第二样本集合训练获得的模型，所述第二样本集合包括多个类型的语音序列，所述多个类型包括所述第一类型；

根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。

优选地，所述第一样本集合还包括各所述第一类型的语音序列对应的标签序列；

所述第二样本集合还包括各所述多个类型的语音序列对应的标签序列。

优选地，所述根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果包括：

获取所述目标用户的用户信息；

根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果。

优选地，所述根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果包括：

将所述用户信息中的预定信息与所述第一识别结果进行匹配；

响应于所述预定信息与所述第一识别结果匹配，将所述第一识别结果确定为所述语音识别结果；

响应于所述预定信息与所述第一识别结果不匹配，将所述第二识别结果确定为所述语音识别结果。

优选地，所述获取目标用户的待识别语音序列包括：

向所述目标用户发送第一消息，所述第一消息用于提示所述目标用户发送所述第一类型的语音序列；

接收所述目标用户发送的所述待识别语音序列。

优选地，所述方法还包括：

根据所述语音识别结果向所述目标用户进行反馈。

优选地，所述根据所述语音识别结果向所述目标用户进行反馈包括：

响应于所述语音识别结果为所述第一识别结果，向所述目标用户发送第二消息，所述第二消息用于提示所述目标用户发送第二类型的语音序列；

响应于所述语音识别结果为所述第二识别结果且与预定规则匹配，向所述目标用户发送第三信息，所述第三信息用于提示所述目标用户的信息验证失败；

响应于所述语音识别结果为所述第二识别结果且与所述预定规则不匹配，向所述目标用户发送第一信息，所述第一信息用于提示所述目标用户发送所述第一类型的语音序列。

第二方面，本发明实施例提供了一种基于语音识别的交互装置，所述装置包括：

第一获取单元，用于获取目标用户的待识别语音序列；

第一确定单元，用于确定所述待识别语音序列对应的第一类型；

第二获取单元，用于将所述待识别语音序列输入第一模型，获取对应的第一识别结果，所述第一模型为根据所述第一类型的语音序列构成的第一样本集合训练获得的模型；

第三获取单元，用于将所述待识别语音序列输入第二模型，获取对应的第二识别结果，所述第二模型为根据多个类型的语音序列构成的第二样本集合训练获得的模型，所述多个类型包括所述第一类型；

第二确定单元，用于根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果，并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中，第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的第一模型的输出结果，因此在用于识别特定类型的语音序列时，第一模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的第二模型的输出结果，因此在用于识别多个类型的语音序列时，第二模型具有较高的灵活性。由此，可以提升交互方法的准确性和灵活性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的基于语音识别的交互方法的流程图；

图2是本发明第一实施例的一个可选的实现方式中确定语音识别结果的流程图；

图3是本发明第一实施例的基于语音识别的交互方法的数据流程图；

图4是本发明第二实施例的基于语音识别的交互装置的示意图；

图5是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

现有的语音识别技术能够有效降低人力成本，但在特定情况下，可能存在准确率较低的情况。以中文和英文、法文等非中文语种的语音识别为例，语音识别系统通常能够识别发音规则差别较大的词汇，但对于发音规则相近的词汇而言，语音识别系统识别的准确率通常较低。例如，用户发出的语音为“should”，而语音识别系统可能会将“should”错误地识别为“熟悉”，影响后续的交互，从而对用户的使用体验造成影响。因此，如何提升人机交互过程中语音识别的准确率是亟需解决的问题。

图1是本发明第一实施例的基于语音识别的交互方法的流程图。如图1所示，本实施例的方法包括如下步骤：

步骤S100，获取目标用户的待识别语音序列。

在人机交互的过程中，服务器需要根据当前用户在登录时使用的用户标识，或者致电过程中的电话号码等信息初步确认当前用户的用户身份，并将当前用户确定为目标用户。由此，可以以预定周期采集目标用户发出的语音，并将采集到的语音确定为待识别语音序列。具体地，可以根据实际需求设定预定周期的周期长度，例如0.1s等。

可选地，根据语音识别系统的应用场景不同，服务器可以向当前用户发送不同的第一消息，提示当前用户发送第一类型的语音序列(也即，提示当前用户做出第一类型的语音应答)，并获取目标用户的待识别语音序列。例如，服务器可以通过身份证号等数字类型的信息判断是否有人冒用目标用户的用户身份，在再次确认当前用户的用户身份时，可以通过第一消息提示当前用户报出身份证号等数字类型的信息，并获取当前用户报出的语音序列作为待识别语音序列。

在本实施例中，根据实际需求的不同，第一类型可以为数字、中文、英文、普通话、方言等多个类型，本实施例不做具体限定。

步骤S200，确定待识别语音序列对应的第一类型。

可选地，服务器可以在向当前用户发送第一消息的同时，根据第一消息确定待识别语音序列对应的第一类型。由此，可以在后续根据第一类型对待识别语音序列进行识别，获取对应的识别结果。

步骤S300，将待识别语音序列输入第一模型，获取对应的第一识别结果。

可选地，第一模型可以为神经网络、隐马尔科夫模型(Hidden Markov Model，HMM)、高斯混合模型(Gaussian Mixture Model)、LSTM-CTC(Long Short-Term Memory-Connectionist temporal classification，长短期记忆网络-联结时间分类模型)等，第一识别结果可以为待识别语音序列中每个声学特征向量对应的特定类型的标签构成的序列。其中，标签可以用于表征音素、字符、数字等。

以神经网络为例，神经网络全称人工神经网络(Artificial Neural Network，ANN)，是由大量处理单元互联形成的信息处理模型。常见的ANN包括卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)等。ANN具有非线性(适于处理非线性信息)、非局限性(也即，一个系统的整体行为取决于处理单元间的相互作用)、非常定性(也即，具有自适应、自组织、自学习能力，能够在处理信息的过程中不断进行自我学习)和非凸性(模型的激活函数具有多个极值，这使得模型具有多个较为稳定的平衡态，从而使得模型的变化是多样的)的特点，因此能够广泛地应用于各种领域，进行较为准确的数据(在本实施例中，也即，标签)预测。

在本实施例中，第一模型由第一样本集合训练获得。第一样本集合包括多个第一类型的语音序列以及各第一类型的语音序列对应的标签序列。例如，第一类型为数字类型，则第一类型的语音序列可以为发音为“123”的语音序列及标签序列“123”；第一类型为英文类型，则第一类型的语音序列可以为发音为“good”的语音序列及标签序列“good”。容易理解，也可以将单一数字发音、单一音素发音的语音片段看作一个语音序列，将对应的单一数字、单一因素看作一个标签序列。

在第一模型的训练过程中，输入为多个第一类型的语音序列，输出为对应的标签序列。由此，第一模型能够在后续对于第一类型的语音序列具有准确性较高的识别能力，从而提升了基于语音识别的交互方法的准确性。

容易理解，在本实施例中，第一类型也可以为符合特定规则的数字与英文结合、数字与中文结合、英文与中文结合等复合类型，例如，身份证号、地址等。由此使得第一模型能够对如“462X”(也即，身份证号后四位)、“xx省xx市xx县xx街道xxx号”(也即，家庭住址、公司地址等)等符合特定规则的语音序列进行识别。

步骤S400，将待识别语音序列输入第二模型，获取对应的第二识别结果。

可选地，第二模型可以为神经网络、隐马尔科夫模型(Hidden Markov Model，HMM)、高斯混合模型(Gaussian Mixture Model)、LSTM-CTC(Long Short-Term Memory-Connectionist temporal classification，长短期记忆网络-联结时间分类模型)等，第二识别结果可以为待识别语音序列中每个声学特征向量对应的标签构成的序列。其中，标签可以用于表征音素、字符等。

以隐马尔科夫模型为例，HMM是一种统计模型，用于描述一个含有隐含未知参数的马尔科夫过程。HMM是MC(马尔科夫链，Markov Chain)(具有不可约性、重现性、周期性和遍历性)的一种，它的状态无法被直接观察到，但是能够通过观测向量序列(在本实施例中，也即，语音序列)观察到。每个观测向量都是通过某些概率密度分布呈现出各种状态，并由具有相应概率密度分布的状态序列产生。因此，HMM是一个双重随机过程，也即，具有一定状态数的隐MC和显示随机函数集，并被广泛地应用于语音识别。

在本实施例中，第二模型由第二样本集合训练获得。第二样本集合包括多个不同类型的语音序列以及各语音序列对应的标签序列。其中，多个类型可以包括第一类型。在第二模型的训练过程中，输入为多个不同类型的语音序列，输出为各语音序列对应的标签序列。由此使得第二模型能够对包括第一类型在内的多种不同类型的语音序列进行识别，具有较高的普适性。

容易理解，步骤S300和步骤S400可以同时执行，也可以先后执行，不必区分执行顺序。

步骤S500，根据第一识别结果和第二识别结果确定待识别语音序列的语音识别结果。

可选地，服务器可以根据当前用户在登录时使用的用户标识，或者致电过程中的电话号码等信息获取目标用户的用户信息，从而根据目标用户的用户信息、第一识别结果和第二识别结果确定待识别语音序列的语音识别结果。在本实施例中，目标用户的用户信息可以包括身份证号、年龄、生日、家庭住址、公司地址等信息，本实施例不做限定。

图2是本发明第一实施例的一个可选的实现方式中确定语音识别结果的流程图。如图2所示，在本实施例的一个可选的实现方式中，步骤S500可以包括如下步骤：

步骤S510，将用户信息中的预定信息与第一识别结果进行匹配。

在本实施例中，可以将预定信息与第一识别结果进行匹配。第一识别结果根据由特定类型(也即，第一类型)的语音序列训练获得的第一模型获得，因此在用来识别特定类型的待识别语音序列时能够获准确率较高的第一识别结果。因此，将预定信息与第一识别结果进行匹配可以提高基于语音识别的交互方法的准确性。

例如，第一模型用于识别序列长度为4位且类型为英文数字的语音序列，第二模型用于识别多个类型的语音序列。若当前用户发出的语音为“one one two eight(1128)”的语音序列，第一模型给出的第一识别结果可能为1128，第二模型给出的第二识别结果可能为“汪汪队”。因此，在用户发出的待识别语音序列为第一类型的语音序列时，第一模型的准确率通常高于第二模型。

步骤S520，将第一识别结果确定为语音识别结果。

具体地，若预定信息与第一识别结果匹配，则将第一识别结果确定为待识别语音序列的语音识别结果。例如，目标用户的生日(也即，预定信息)为0409，第一识别结果为0409，与目标用户的生日匹配，则将第一识别结果确定为待识别语音的语音识别结果。

步骤S530，将第二识别结果确定为语音识别结果。

具体地，若预定信息与第一识别结果不匹配，则将第二识别结果确定为待识别语音序列的语音识别结果。当前用户可能由于没有听清第一消息等原因无法做出第一类型的回答(也即，发出第一类型的语音序列)，在这种情况下第二模型的准确率会高于第一模型，因此在预定信息与第一识别结果不匹配时，将第二识别结果确定为待识别语音的语音识别结果可以提高基于语音识别的交互方法的灵活性。

例如，第一模型用于识别序列长度为4位且类型为数字的语音序列，第二模型用于识别多个类型的语音序列。若当前用户发出的语音为“我没有听清楚”的语音序列，第一模型给出的第一识别结果可能为“5017”，第二模型给出的第二识别结果可能为“我没有听清楚”。因此，在用户发出的待识别语音序列为非第一类型的语音序列时，第二模型的准确率通常高于第一模型。

可选地，服务器还可以根据待识别语音序列的语音识别结果与目标用户进行进一步交互。在本实施例的另一种可选的实现方式中，本实施例的方法还可以包括如下步骤：

步骤S600，根据语音识别结果向目标用户进行反馈。

在一种可能的情况中，语音识别结果为第一识别结果，表示当前用户通过了信息认证，可以认为当前用户为目标用户，因此可以向目标用户发送第二消息，提示目标用户发送第二类型的语音序列(也即，提示目标用户做出第二类型的语音应答)。其中，第二类型可以为数字、中文、英文、普通话、方言等多个类型，本实施例不做具体限定。容易理解，第一类型和第二类型可以相同，也可以不同。

在另一种可能的情况中，语音识别结果为第二识别结果，可以进一步判断语音识别结果是否符合预定规则。若符合预定规则，有较大的可能表示当前用户冒用了目标用户的身份，或者当前用户报错了信息，可以向当前用户发送第三消息，提示目标用户的信息验证失败。

若不符合预定规则，可能表示当前用户没有听清服务器发送的第一消息，因此可以向当前用户再次发送第一消息，提示目标用户做出第二类型的语音应答。

容易理解，服务器还可以根据语音识别结果与目标用户进行其他方式的交互，例如，向目标用户发送预定内容的语音通知等，在此不做限定。同时，当服务器需要根据第二类型的待识别语音序列与目标用户再次进行交互时，可以将步骤S100中的第一类型更新为第二类型，将步骤S600中的第二类型更新为第三类型，并重复执行步骤S100-步骤S600。

图3是本发明第一实施例的基于语音识别的交互方法的数据流程图。如图3所示，结合图1及图2，本实施例的数据流向如下：

步骤S100，获取目标用户的待识别语音序列。

可选地，服务器可以向当前用户发送不同的第一消息，提示当前用户发送第一类型的语音序列，并获取目标用户的待识别语音序列31。

步骤S200，确定待识别语音序列对应的第一类型。

可选地，服务器可以在向当前用户发送第一消息的同时，根据第一消息确定待识别语音序列对应的第一类型32。

步骤S300，将待识别语音序列输入第一模型，获取对应的第一识别结果。

可选地，第一模型33可以为神经网络、隐马尔科夫模型、LSTM-CTC等，第一识别结果34可以为待识别语音序列中每个声学特征向量对应的特定类型的标签构成的序列。第一模型33的训练方式在此不再赘述。

步骤S400，将待识别语音序列输入第二模型，获取对应的第二识别结果。

可选地，第二模型35可以为神经网络、隐马尔科夫模型、高斯混合模型、LSTM-CTC等，第二识别结果36可以为待识别语音序列中每个声学特征向量对应的标签构成的序列。第二模型35的训练方式在此不再赘述。

步骤S500，根据第一识别结果和第二识别结果确定待识别语音序列的语音识别结果。

可选地，服务器可以获取目标用户的用户信息37，从而根据目标用户的用户信息37、第一识别结果34和第二识别结果36确定待识别语音序列31的语音识别结果38。

具体地，可以将用户信息37中的预定信息371与第一识别结果34进行匹配。若预定信息371与第一识别结果34匹配，则将第一识别结果34确定为语音识别结果38；若预定信息371与第一识别结果34不匹配，则将第二识别结果36确定为语音识别结果38。

步骤S600，根据语音识别结果向目标用户进行反馈。

本实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果，并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中，第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的第一模型的输出结果，因此在用于识别特定类型的语音序列时，第一模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的第二模型的输出结果，因此在用于识别多个类型的语音序列时，第二模型具有较高的灵活性。由此，可以提升交互方法的准确性和灵活性。

图4是本发明第二实施例的基于语音识别的交互装置的示意图。如图4所示，本实施例的装置包括第一获取单元41、第一确定单元42、第二获取单元43、第三获取单元44和第二确定单元45。

其中，第一获取单元41用于获取目标用户的待识别语音序列。第一确定单元42用于确定所述待识别语音序列对应的第一类型。第二获取单元43用于将所述待识别语音序列输入第一模型，获取对应的第一识别结果，所述第一模型为根据所述第一类型的语音序列构成的第一样本集合训练获得的模型。第三获取单元44用于将所述待识别语音序列输入第二模型，获取对应的第二识别结果，所述第二模型为根据多个类型的语音序列构成的第二样本集合训练获得的模型，所述多个类型包括所述第一类型。第二确定单元45用于根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。

进一步地，所述第一样本集合还包括各所述第一类型的语音序列对应的标签序列；

所述第二样本集合还包括各所述多个类型的语音序列对应的标签序列。

进一步地，所述第二确定单元45包括第一获取子单元451和第一确定子单元452。

其中，第一获取子单元451用于获取所述目标用户的用户信息。第一确定子单元452用于根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果。

进一步地，所述第一确定子单元452包括第一匹配模块、第一确定模块和第二确定模块。

其中，第一匹配模块用于将所述用户信息中的预定信息与所述第一识别结果进行匹配。第一确定模块用于响应于所述预定信息与所述第一识别结果匹配，将所述第一识别结果确定为所述语音识别结果。第二确定模块用于响应于所述预定信息与所述第一识别结果不匹配，将所述第二识别结果确定为所述语音识别结果。

进一步地，所述第一获取单元41包括第一发送子单元411和接收子单元412。

其中，第一发送子单元411用于向所述目标用户发送第一消息，所述第一消息用于提示所述目标用户发送所述第一类型的语音序列。接收子单元412用于接收所述目标用户发送的所述待识别语音序列。

进一步地，所述装置还包括反馈单元46。

其中，反馈单元46用于根据所述语音识别结果向所述目标用户进行反馈。

进一步地，所述反馈单元46包括第二发送子单元461、第三发送子单元462和第四发送子单元463。

其中，第二发送子单元461用于响应于所述语音识别结果为所述第一识别结果，向所述目标用户发送第二消息，所述第二消息用于提示所述目标用户发送第二类型的语音序列。第三发送子单元462用于响应于所述语音识别结果为所述第二识别结果且与预定规则匹配，向所述目标用户发送第三信息，所述第三信息用于提示所述目标用户的信息验证失败。第四发送子单元463用于响应于所述语音识别结果为所述第二识别结果且与所述预定规则不匹配，向所述目标用户发送第一信息，所述第一信息用于提示所述目标用户发送所述第一类型的语音序列。

图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器51通过执行存储器52所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起，同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置55通过输入/输出(I/O)控制器56与系统相连。

其中，存储器52可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种基于语音识别的交互方法，其特征在于，所述方法包括：

获取目标用户的待识别语音序列；

确定所述待识别语音序列对应的第一类型；

根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述第一样本集合还包括各所述第一类型的语音序列对应的标签序列；

所述第二样本集合还包括各所述多个类型的语音序列对应的标签序列。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果包括：

获取所述目标用户的用户信息；

根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果。

4.根据权利要求3所述的方法，其特征在于，所述根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果包括：

将所述用户信息中的预定信息与所述第一识别结果进行匹配；

响应于所述预定信息与所述第一识别结果匹配，将所述第一识别结果确定为所述语音识别结果；

响应于所述预定信息与所述第一识别结果不匹配，将所述第二识别结果确定为所述语音识别结果。

5.根据权利要求1所述的方法，其特征在于，所述获取目标用户的待识别语音序列包括：

向所述目标用户发送第一消息，所述第一消息用于提示所述目标用户发送所述第一类型的语音序列；

接收所述目标用户发送的所述待识别语音序列。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述语音识别结果向所述目标用户进行反馈。

7.根据权利要求6所述的方法，其特征在于，所述根据所述语音识别结果向所述目标用户进行反馈包括：

响应于所述语音识别结果为所述第一识别结果，向所述目标用户发送第二消息，所述第二消息用于提示所述目标用户发送第二类型的语音序列；

8.一种基于语音识别的交互装置，其特征在于，所述装置包括：

第一获取单元，用于获取目标用户的待识别语音序列；

第一确定单元，用于确定所述待识别语音序列对应的第一类型；

第二获取单元，用于将所述待识别语音序列输入第一模型，获取对应的第一识别结果，所述第一模型为根据第一样本集合训练获得的模型，所述第一样本集合包括多个所述第一类型的语音序列；

第三获取单元，用于将所述待识别语音序列输入第二模型，获取对应的第二识别结果，所述第二模型为根据第二样本集合训练获得的模型，所述第二样本集合包括多个类型的语音序列，所述多个类型包括所述第一类型；

第二确定单元，用于根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。

技术总结

本发明实施例公开了一种基于语音识别的交互方法、装置、存储介质和电子设备。本发明实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果，并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中，第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的第一模型的输出结果，因此在用于识别特定类型的语音序列时，第一模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的第二模型的输出结果，因此在用于识别多个类型的语音序列时，第二模型具有较高的灵活性。由此，可以提升交互方法的准确性和灵活性。

技术研发人员：张彬彬

受保护的技术使用者：出门问问（苏州）信息科技有限公司

技术研发日：.07.19

技术公布日：.09.27

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。