600字范文 > 自动行走设备及其控制方法控制装置及计算机设备与流程

自动行走设备及其控制方法控制装置及计算机设备与流程

时间：2022-07-14 17:46:57

本发明涉及园林工艺领域，特别是涉及一种自动行走设备、其控制方法、控制装置及计算机设备。

背景技术：

随着科技的发展，自动行走设备通常具备自主行走的能力，在执行工作时，无须人为直接控制和操作。以智能割草机为例，现有的智能割草机通常能够自主完成修剪草坪的工作，大幅度降低人工操作，是一种适合家庭庭院、公共绿地等场所进行草坪修剪维护的工具。

在传统技术中，用户通过启动键、停止键等按键方式或者语音指令方式控制自动行走设备。因为按键方式需要用户近距离接触自动行走设备，且语音指令存在语种、方言的交流障碍以及声源过远噪声大的问题，所以现有的自动行走设备与用户之间的人机交互存在便利程度不高的技术问题。

技术实现要素：

基于此，有必要针对传统技术中现有的自动行走设备人机交互存在便利程度不高的技术问题，提供一种自动行走设备、其控制方法、控制装置及计算机设备。

一种自动行走设备的控制方法，所述方法包括：采集用户当前动作对应的多张图像，并提取所述多张图像分别对应的多个第一特征向量，所述多张图像的数量为n，所述多张图像包括当前的第n张图像和之前的n-1张图像；将所述第n张图像对应的第一特征向量与所述之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量；根据所述第二特征向量控制所述自动行走设备的状态。

在其中一个实施例中，在所述采集用户当前动作对应的多张图像之前，还包括：根据当前场景的语音信息中的预设语音而进入激活状态。

在其中一个实施例中，所述自动行走设备处于激活状态之后，还包括：检测所述当前场景的图像信息中是否包括人脸图像信息；若是，则执行人脸识别及认证用户的控制权限；若否，根据所述语音信号进行声源定位并确定所述声源的位置信息；根据所述声源的位置信息，控制所述自动行走设备向所述声源移动，以检测所述声源处的人脸图像信息并执行人脸识别及认证用户的控制权限。

在其中一个实施例中，所述执行人脸识别及认证用户的控制权限，包括：根据所述人脸图像信息对所述用户的控制权限进行认证；

所述采集用户当前动作对应的多张图像，包括：认证通过则采集用户当前动作对应的多张图像。

在其中一个实施例中，所述人脸图像信息包括多张人脸图像信息；所述根据所述人脸图像信息对所述用户的控制权限进行认证，包括：根据所述多张人脸图像信息，对所述多张人脸图像信息分别对应的多名用户的控制权限进行认证；确定与所述多名用户对应的控制优先级；根据所述多名用户对应的控制优先级，确定最高控制优先级对应的用户；

所述认证通过则每隔预设时间采集所述用户当前动作对应的一张图像，包括：每隔预设时间采集所述最高控制优先级对应的用户当前动作对应的一张图像。

在其中一个实施例中，所述根据所述第二特征向量控制所述自动行走设备的状态，包括：根据所述第二特征向量，获取对应的指令；根据所述指令，控制所述自动行走设备的状态。

在其中一个实施例中，在所述采集用户当前动作对应的多张图像之前，所述方法还包括：采集预设动作对应的图像序列样本；根据所述图像序列样本，通过数据增广方式训练相应的机器学习模型，所述机器学习模型为深度卷积神经网络模型。

一种自动行走设备的控制装置，所述装置包括：图像采集模块，用于采集用户当前动作对应的多张图像；提取模块，用于提取所述多张图像分别对应的多个第一特征向量；所述多张图像的数量为n，所述多张图像包括当前的第n张图像和之前的n-1张图像；合并模块，用于将所述第n张图像对应的第一特征向量与所述之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量；控制模块，用于根据所述第二特征向量控制所述自动行走设备的状态。

在其中一个实施例中，所述装置还包括：激活模块，用于根据当前场景的语音信息中的预设语音以使所述自动行走设备进入激活状态。

在其中一个实施例中，所述装置还包括图像处理模块、声源定位模块和人脸识别模块：所述图像处理模块，用于检测所述当前场景的图像信息中是否包括人脸图像信息；所述人脸识别模块，用于当所述当前场景的图像信息中包括人脸图像信息时，执行人脸识别以认证用户的控制权限；所述声源定位模块，用于当所述当前场景的图像信息中不包括人脸图像信息时，根据所述语音信号进行声源定位并确定所述声源的位置信息；所述控制模块，还用于根据所述声源的位置信息，控制所述自动行走设备向所述声源移动，以检测所述声源处的人脸图像信息，并执行人脸识别及认证用户的控制权限。

一种自动行走设备，包括驱动部件、图像采集部件、语音采集部件和控制器；所述驱动部件，用于驱动所述自动行走设备移动；所述语音采集部件，设置在所述自动行走设备上，用于采集当前场景中的语音信号；所述图像采集部件，设置在所述自动行走设备上，用于采集用户当前动作对应的多张图像；控制器，用于提取所述多张图像分别对应的多个第一特征向量，所述多张图像的数量为n，所述多张图像包括当前的第n张图像和之前的n-1张图像；将所述第n张图像对应的第一特征向量与所述之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量；根据所述第二特征向量控制所述自动行走设备的状态。

在其中一个实施例中，所述控制器还用于检测所述当前场景的图像信息中是否包括人脸图像信息；若是，则执行人脸识别以认证用户的控制权限；若否，根据所述语音信号进行声源定位并确定所述声源的位置信息；根据所述声源的位置信息，控制所述自动行走设备向所述声源移动，以使所述图像采集部件采集所述声源处的人脸图像信息，则检测所述人脸图像信息并执行人脸识别以认证用户的控制权限。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法步骤。

上述自动行走设备、其控制方法、控制装置及计算机设备，该自动行走设备通过采集用户当前动作对应的多张图像，识别用户发出的当前动作以控制自动行走设备的状态，用户发出的当前动作包括手势变化或者其他身体部位的姿态变化，解决了现有技术中按键方式或者语音指令方式导致的便利程度不高的技术问题。进一步地，通过采集用户当前动作对应的多张图像，并分别提取对应的第一特征向量，以获取所述当前动作对应的n张图像和对应的n个第一特征向量，将所述第n张图像对应的第一特征向量与所述之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量，根据所述第二特征向量控制所述自动行走设备的状态，减少了在手势识别或者其他身体姿态变化识别的过程中的计算量。

附图说明

图1a为一个实施例中自动行走设备的控制方法的流程示意图；

图1b为一个实施例中提取第一特征向量的示意图；

图2a为一个实施例中激活状态之后自动行走设备的控制方法的流程示意图；

图2b为一个实施例中自动行走设备进行声源定位的示意图；

图3为一个实施例中s220步骤的流程示意图；

图4为一个实施例中s130步骤的流程示意图；

图5a至图5b为一个实施例中模型训练步骤的流程示意图；

图6a至图6d为一个实施例中自动行走设备的控制方法的流程示意图；

图7为一个实施例中自动行走设备的控制装置的结构框图；

图8为一个实施例中自动行走设备的控制装置的结构框图；

图9为一个实施例中自动行走设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

在一个实施例中，请参见图1a，本申请提供一种自动行走设备的控制方法，该方法包括以下步骤：

s110、采集用户当前动作对应的多张图像，并提取多张图像分别对应的多个第一特征向量，多张图像的数量为n，多张图像包括当前的第n张图像和之前的n-1张图像。

s120、将第n张图像对应的第一特征向量与之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量。

s130、根据第二特征向量控制自动行走设备的状态。

其中，自动行走设备可以是智能割草机、智能扫雪机、智能扫地车、智能洗地车等类似的具有自动行走功能的智能设备。当前动作可以是手势动作，也可以是身体发出的运动姿势。

自动行走设备每隔预设时间通过图像采集装置采集用户当前动作对应的一张图像，并随即提取该张图像对应的第一特征向量，以获取所述当前动作对应的多张图像和该多张图像对应的多个第一特征向量。请参见图1b，rgb代表每张图像的三个色道。假设当前动作对应的多张图像的数量为n，则多张图像包括当前的第n张图像和之前的n-1张图像。多张图像对应的多个第一特征向量记为x(i)。将第n张图像对应的第一特征向量x(n)与之前的n-1张图像分别对应的n-1个第一特征向量x(1)、x(2)...x(n-1)进行合并以生成第二特征向量。将第二特征向量发送至分类器中，分类器根据第二特征向量而输出对应的指令，从而控制自动行走设备的状态。在机器学习中，分类器作用是在已经标记类别的训练数据基础上判断一个新的观察样本所属的类别。在本实施例中，将生成的第二特征向量发送至分类器中，从而分类器判断第二特征向量所对应的指令，进而输出对应的指令。

本实施例中，该自动行走设备通过采集用户当前动作对应的多张图像，识别用户发出的当前动作以控制自动行走设备的状态，用户发出的当前动作包括手势变化或者其他身体部位的姿态变化，解决了现有技术中按键方式或者语音指令方式导致的便利程度不高的技术问题。进一步地，通过采集用户当前动作对应的多张图像，并分别提取对应的第一特征向量，以获取当前动作对应的n张图像和对应的n个第一特征向量，将第n张图像对应的第一特征向量与之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量，根据第二特征向量控制自动行走设备的状态，实现了通过单张图片的计算量完成当前动作的识别，减少了在手势识别或者其他身体姿态变化识别的过程中的计算量。

在一个实施例中，在采集用户当前动作对应的多张图像之前，该方法还包括：根据当前场景的语音信息中的预设语音而进入激活状态。

其中，预设语音指的是为了激活自动行走设备而提前设置的语音信息。在自动行走设备处于休眠状态时，若当前场景的语音信息包括预设语音，则自动行走设备进入激活状态。比如，预设语音可以是自动行走设备的名称。自动行走设备根据收集到的声音进行波形识别，并判断当前场景中的语音信息包括自己的名称时，则自动行走设备进入激活状态。

在一个实施例中，请参见图2a，自动行走设备处于激活状态之后，该方法还包括以下步骤：

s210、检测当前场景的图像信息中是否包括人脸图像信息。

s220、若是，则执行人脸识别及认证用户的控制权限。

s230、若否，根据语音信号进行声源定位并确定声源的位置信息。

s240、根据声源的位置信息，控制自动行走设备向声源移动，以检测声源处的人脸图像信息并执行人脸识别及认证用户的控制权限。

具体地，自动行走设备进入激活状态后，自动行走设备开始检测当前场景的图像信息，并判断当前场景的图像信息是否包括人脸图像信息。若当前场景的图像信息包括人脸图像信息时，自动行走设备开始执行人脸识别，对用户的控制权限进行认证。

若当前场景的图像信息不包括人脸图像信息时，则根据语音信号进行声源定位并确定声源的位置信息。请参见图2b，自动行走设备安装有图像采集装置和语音采集装置，图像采集装置可以是摄像头210，语音采集装置可以是麦克风阵列，麦克风阵列包括麦克风221、麦克风222、麦克风223。用户发出预设语音呼唤自动行走设备，自动行走设备通过麦克风阵列收集声音波形，并进行匹配以计算出当前声源传至麦克风阵列中各麦克风的时间差为△t12、△t13和△t23。通过时间差△t12、△t13和△t23计算麦克风221、麦克风222、麦克风223距声源的距离d1、d2和d3。

其中，c是当前工况下的声速。

根据上述公式可以确定声源的位置信息即声源坐标。自动行走设备根据声源坐标向声源位置完成转向动作，并控制自动行走设备向声源移动，以使摄像头对准用户，进而检测声源处的人脸图像信息并执行人脸识别及认证用户的控制权限。

进一步地，执行人脸识别及认证用户的控制权限，包括：根据检测到的人脸图像信息对用户的控制权限进行认证。采集用户当前动作对应的多张图像，包括：若对用户的控制权限认证通过后，则自动行走设备采集用户当前动作对应的多张图像。

具体地，图像采集装置的视角中出现人脸图像信息后，自动行走设备根据检测到的人脸图像信息对该人脸图像对应的用户的控制权限进行认证，若认证通过，则图像采集装置开始采集该人脸图像对应的用户发动的当前动作对应的多张图像。可以理解的是，若人脸图像信息对应的用户没有通过权限认证，则对该用户发出的当前动作不进行识别，然后，自动行走设备可以开始检测当前场景中的语音信息是否包括预设语音，若当前场景中的语音信息包括预设语音，则自动行走设备开始进行声源定位。或者，若人脸图像信息对应的用户没有通过权限认证，自动行走设备也可以进入休眠状态，以减少电量的使用。

本实施例中，自动行走设备通过语音识别、定位，以特定姿态找到声源位置，方便用户原地不动即可对自动行走设备进行控制。

在一个实施例中，人脸图像信息包括多张人脸图像信息。请参见图3，根据人脸图像信息对用户的控制权限进行认证，包括以下步骤：

s310、根据多张人脸图像信息，对多张人脸图像信息分别对应的多名用户的控制权限进行认证。

s320、确定与多名用户对应的控制优先级。

s330、根据多名用户对应的控制优先级，确定最高控制优先级对应的用户。

认证通过则采集用户当前动作对应的多张图像，包括：

s340、认证通过采集最高控制优先级对应的用户当前动作对应的多张图像。

其中，自动行走设备安装有图像采集装置，图像采集装置可以是摄像头。当多名用户出现在摄像头的视角中时，则人脸图像信息包括多张人脸图像信息。自动行走设备根据多张人脸图像信息，对多张人脸图像信息分别对应的多名用户的控制权限进行认证，确定与多名用户对应的控制优先级。从而根据多名用户对应的控制优先级，确定最高控制优先级对应的用户，则对最高控制优先级对应的用户发出的动作进行识别，即开始采集最高控制优先级对应的用户当前动作对应的多张图像。

比如，当用户甲、用户乙出现在摄像头视角中时，则根据用户甲、用户乙的人脸图像信息进行人脸识别并确定用户甲、用户乙分别对应的控制优先级。若用户甲的控制优先级高于用户乙的控制优先级，通过摄像头同时获取用户甲的人脸图像信息和当前动作对应的多张图像。

本实施例中，通过人脸识别判别用户的控制权限。且当自动行走设备识别出多名用户，自动行走设备可以对多名用户对应的控制优先级进行确定，从而根据用户控制优先级读取手势指令。提高了自动行走设备的智能性，扩大了自动行走设备的应用范围。

在一个实施例中，请参见图4，根据第二特征向量控制自动行走设备的状态，包括：

s410、根据第二特征向量，获取对应的指令。

s420、根据获取到的指令，控制自动行走设备的状态。

其中，将第n张图像对应的第一特征向量与之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量。自动行走设备可以将生成的第二特征向量送入分类器完成动作识别，即可获取对应的指令。自动行走设备根据获取到的指令控制自动行走设备的状态。由于各个动作指令之间是互斥的，且softmax被用于互斥的分类问题具有良好的效果。所以，在本实施例，分类器可以采用softmax，其公式为：

其中：x(i)为第i个特征向量；k为指令集总数，θ为模型参数(调试部分的结果)，p(y(i)＝k|x(i)；θ)为当前指令是动作k的概率。

在本实施例中，可以规定特定指令,比如，手掌正面对准摄像头为停止指令，可以中断自动行走设备正在执行的命令。五指指尖并拢为取消指令，自动行走设备能够返回到指令前的位置与状态。

在一个实施例中，请参见图5a，在采集用户当前动作对应的多张图像之前，该方法还包括以下模型训练的步骤：

s510、采集预设动作对应的图像序列样本。

s520、根据图像序列样本，通过数据增广方式训练相应的机器学习模型，机器学习模型为深度卷积神经网络模型。

其中，请参见图5b，通过图像采集装置采集预设动作对应的图像序列样本i，图像序列样本i0包括n张图像，将图像序列样本i发送至卷积池conv&pool中，通过卷积操作得到图像序列样本i对应的特征向量，将分类器与图像序列样本i对应的特征向量进行点对点的全连接，经过计算输出对应的实际指令。实际指令与预测指令之间存在一定的误差，根据该误差调整图像序列样本i对应的特征向量。在对每个图像序列样本i重复上述过程时，直到对整个图像序列样本集来说，误差不超过规定范围。

具体地，根据图像序列样本调试动作识别指令的模型参数，使用的模型是深度卷积神经网络，深度卷积神经网络模型对图片提取特征向量具有一定的优势。比如对自动行走设备行进中采集到的图像拖尾情况以及图像畸变和动作姿势拍摄角度均有较好的鲁棒性。在模型调试阶段，通过数据增广模块和训练模型模块，依次完成对图像的畸变和模型的训练。具体地，模型可以包括特征提取器和分类器两部分，训练方式如图5b所示，最终将训练好的模型进行存储。

在一个实施例中，请参见图6a，本申请提供一种自动行走设备的控制方法，该方法包括以下步骤：

s610、根据当前场景的语音信息中的预设语音而进入激活状态。

请参见图6b，在自动行走设备处于休眠状态时，若当前场景的语音信息包括预设语音，比如，预设语音是自行行走设备的名称，自动行走设备检测到当前场景的语音信息包括名称。则自动行走设备进入激活状态。

s620、检测当前场景的图像信息中是否包括人脸图像信息。

自动行走设备进入激活状态后，自动行走设备开始检测当前场景的图像信息，并判断当前场景的图像信息是否包括人脸图像信息。

s630、若否，根据语音信号进行声源定位并确定声源的位置信息。

若当前场景的图像信息不包括人脸图像信息时，根据语音信号进行声源定位并确定声源的位置信息。

请参见图6b，用户发出预设语音呼唤自动行走设备，自动行走设备通过麦克风阵列收集声音波形，麦克风阵列包括3个麦克风，并进行匹配以计算出当前声源传至麦克风阵列中各麦克风的时间差为△t12、△t13和△t23。通过时间差△t12、△t13和△t23计算各个麦克风距声源的距离d1、d2和d3。

其中，c是当前工况下的声速。根据上述公式可以声源的位置信息即声源坐标。

s640、根据声源的位置信息，控制自动行走设备向声源移动，以检测声源处的人脸图像信息。

请参见图6c,自动行走设备根据声源坐标向声源位置完成转向动作，控制自动行走设备向声源移动，以使摄像头210对准用户，进而检测声源处的人脸图像信息。

s650、根据多张人脸图像信息，对多张人脸图像信息分别对应的多名用户的控制权限进行认证。

当多名用户出现在摄像头210的视角中时，则人脸图像信息包括多张人脸图像信息。自动行走设备根据多张人脸图像信息，对多张人脸图像信息分别对应的多名用户的控制权限进行认证，

s660、确定与多名用户对应的控制优先级。

对多张人脸图像信息分别对应的多名用户的控制权限进行认证后，确定与多名用户对应的控制优先级。

s670、根据多名用户对应的控制优先级，确定最高控制优先级对应的用户。

s680、采集最高控制优先级对应的用户当前动作对应的多张图像。

请参见图6c和6d，根据多名用户610对应的控制优先级，确定最高控制优先级对应的用户。自动行走设备将通过摄像头210开始采集最高控制优先级对应的用户当前动作对应的多张图像620，对最高控制优先级对应的用户发出的动作进行识别。

s681、提取多张图像分别对应的多个第一特征向量，多张图像的数量为n，多张图像包括当前的第n张图像和之前的n-1张图像。

多张图像的数量记为n，则多张图像包括当前的第n张图像和之前的n-1张图像。多张图像对应的多个第一特征向量记为x(i)。

s682、将第n张图像对应的第一特征向量与之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量。

将第n张图像对应的第一特征向量x(n)与之前的n-1张图像分别对应的n-1个第一特征向量x(1)、x(2)...x(n-1)进行合并以生成第二特征向量。

s683、根据生成的第二特征向量，获取对应的指令。

自动行走设备可以将生成的第二特征向量送入分类器完成动作识别，即可获取对应的指令。

s684、根据获取到的指令，控制自动行走设备的状态。

自动行走设备根据获取到的指令控制自动行走设备的状态。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，本申请提供一种自动行走设备的控制装置，请参见图7，该控制装置700包括：

图像采集模块710，用于采集用户当前动作对应的多张图像。

提取模块720，用于提取多张图像分别对应的多个第一特征向量；多张图像的数量为n，多张图像包括当前的第n张图像和之前的n-1张图像。

合并模块730，用于将第n张图像对应的第一特征向量与之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量。

控制模块740，用于根据第二特征向量控制自动行走设备的状态。

在一个实施例中，该控制装置包括：激活模块，用于根据当前场景的语音信息中的预设语音以使自动行走设备进入激活状态。

在一个实施例中，请参见图8，该控制装置还包括图像处理模块810、声源定位模块820和人脸识别模块830。

图像处理模块810，用于检测当前场景的图像信息中是否包括人脸图像信息。

人脸识别模块820，用于当当前场景的图像信息中包括人脸图像信息时，执行人脸识别以认证用户的控制权限。

声源定位模块830，用于当当前场景的图像信息中不包括人脸图像信息时，根据语音信号进行声源定位并确定声源的位置信息。

控制模块730，还用于根据声源的位置信息，控制自动行走设备向声源移动，以检测声源处的人脸图像信息，并执行人脸识别及认证用户的控制权限。

关于控制装置的具体限定可以参见上文中对于控制方法的限定，在此不再赘述。上述控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于显示屏中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，请参见图9，本申请提供一种自动行走设备900，包括驱动部件910、图像采集部件920、语音采集部件930和控制器940。

驱动部件910，用于驱动自动行走设备移动。

语音采集部件930，设置在自动行走设备上，用于采集当前场景中的语音信号。

图像采集部件920，设置在自动行走设备上，用于采集用户当前动作对应的多张图像。

控制器940，用于提取多张图像分别对应的多个第一特征向量，多张图像的数量为n，多张图像包括当前的第n张图像和之前的n-1张图像；将第n张图像对应的第一特征向量与之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量；根据第二特征向量控制自动行走设备的状态。

在一个实施例中，控制器还用于检测当前场景的图像信息中是否包括人脸图像信息；若是，则执行人脸识别以认证用户的控制权限；若否，根据语音信号进行声源定位并确定声源的位置信息；根据声源的位置信息，控制自动行走设备向声源移动，以使图像采集部件采集声源处的人脸图像信息，则检测人脸图像信息并执行人脸识别以认证用户的控制权限。

关于自动行走设备的具体限定可以参见上文中对于控制方法的限定，在此不再赘述。上述控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于显示屏中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法步骤。需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

另外，本申请实施例中所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请范围的情况下，可以将第一显示区称为第二特征向量，且类似地，可将第二特征向量称为第一特征向量。第一特征向量和第二特征向量两者都是特征向量，但其不是同一特征向量。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

技术特征：

1.一种自动行走设备的控制方法，其特征在于，所述方法包括：

采集用户当前动作对应的多张图像，并提取所述多张图像分别对应的多个第一特征向量，所述多张图像的数量为n，所述多张图像包括当前的第n张图像和之前的n-1张图像；

将所述第n张图像对应的第一特征向量与所述之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量；

根据所述第二特征向量控制所述自动行走设备的状态。

2.根据权利要求1所述的方法，其特征在于，在采集用户当前动作对应的多张图像所述采集用户当前动作对应的多张图像之前，还包括：

根据当前场景的语音信息中的预设语音而进入激活状态。

3.根据权利要求2所述的方法，其特征在于，所述自动行走设备处于激活状态之后，还包括：

检测所述当前场景的图像信息中是否包括人脸图像信息；

若是，则执行人脸识别及认证用户的控制权限；

若否，根据所述语音信号进行声源定位并确定所述声源的位置信息；

根据所述声源的位置信息，控制所述自动行走设备向所述声源移动，以检测所述声源处的人脸图像信息并执行人脸识别及认证用户的控制权限。

4.根据权利要求3所述的方法，其特征在于，所述执行人脸识别及认证用户的控制权限，包括：

根据所述人脸图像信息对所述用户的控制权限进行认证；

所述采集用户当前动作对应的多张图像，包括：

认证通过则采集用户当前动作对应的多张图像。

5.根据权利要求4所述的方法，其特征在于，所述人脸图像信息包括多张人脸图像信息；所述根据所述人脸图像信息对所述用户的控制权限进行认证，包括：

根据所述多张人脸图像信息，对所述多张人脸图像信息分别对应的多名用户的控制权限进行认证；

确定与所述多名用户对应的控制优先级；

根据所述多名用户对应的控制优先级，确定最高控制优先级对应的用户；

所述认证通过则采集用户当前动作对应的多张图像，包括：

认证通过采集所述最高控制优先级对应的用户当前动作对应的多张图像。

6.根据权利要求1至5所述的方法，其特征在于，所述根据所述第二特征向量控制所述自动行走设备的状态，包括：

根据所述第二特征向量，获取对应的指令；

根据所述指令，控制所述自动行走设备的状态。

7.根据权利要求1至5任一所述的方法，其特征在于，在所述采集用户当前动作对应的多张图像之前，所述方法还包括：

采集预设动作对应的图像序列样本；

根据所述图像序列样本，通过数据增广方式训练相应的机器学习模型，所述机器学习模型为深度卷积神经网络模型。

8.一种自动行走设备的控制装置，其特征在于，所述装置包括：

图像采集模块，用于采集用户当前动作对应的多张图像；

提取模块，用于提取所述多张图像分别对应的多个第一特征向量；所述多张图像的数量为n，所述多张图像包括当前的第n张图像和之前的n-1张图像；

合并模块，用于将所述第n张图像对应的第一特征向量与所述之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量；

控制模块，用于根据所述第二特征向量控制所述自动行走设备的状态或输出对应的交互内容。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

激活模块，用于根据当前场景的语音信息中的预设语音以使所述自动行走设备进入激活状态。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括图像处理模块、声源定位模块和人脸识别模块：

所述图像处理模块，用于检测所述当前场景的图像信息中是否包括人脸图像信息；

所述人脸识别模块，用于当所述当前场景的图像信息中包括人脸图像信息时，执行人脸识别以认证用户的控制权限；

所述声源定位模块，用于当所述当前场景的图像信息中不包括人脸图像信息时，根据所述语音信号进行声源定位并确定所述声源的位置信息；

所述控制模块，还用于根据所述声源的位置信息，控制所述自动行走设备向所述声源移动，以检测所述声源处的人脸图像信息，并执行人脸识别及认证用户的控制权限。

11.一种自动行走设备，其特征在于，包括驱动部件、图像采集部件、语音采集部件和控制器；

所述驱动部件，用于驱动所述自动行走设备移动；

所述语音采集部件，设置在所述自动行走设备上，用于采集当前场景中的语音信号；

所述图像采集部件，设置在所述自动行走设备上，用于采集用户当前动作对应的多张图像；

控制器，用于提取所述多张图像分别对应的多个第一特征向量，所述多张图像的数量为n，所述多张图像包括当前的第n张图像和之前的n-1张图像；将所述第n张图像对应的第一特征向量与所述之前的n-1张图像分别对应的n-1个第一特征向量合并以生成第二特征向量；根据所述第二特征向量控制所述自动行走设备的状态。

12.根据权利要求11所述的自动行走设备，其特征在于，所述控制器还用于检测所述当前场景的图像信息中是否包括人脸图像信息；若是，则执行人脸识别以认证用户的控制权限；若否，根据所述语音信号进行声源定位并确定所述声源的位置信息；根据所述声源的位置信息，控制所述自动行走设备向所述声源移动，以使所述图像采集部件采集所述声源处的人脸图像信息，则检测所述人脸图像信息并执行人脸识别以认证用户的控制权限。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

技术总结

本发明涉及一种自动行走设备、其控制方法、控制装置及计算机设备，该自动行走设备通过采集用户当前动作对应的多张图像，并分别提取对应的第一特征向量，以获取所述当前动作对应的N张图像和对应的N个第一特征向量，将所述第N张图像对应的第一特征向量与所述之前的N‑1张图像分别对应的N‑1个第一特征向量合并以生成第二特征向量，根据所述第二特征向量控制所述自动行走设备的状态，解决了现有技术中按键方式或者语音指令方式导致的便利程度不高的技术问题，并且减少了在手势识别或者其他身体姿态变化识别的过程中的计算量。

技术研发人员：王家达

受保护的技术使用者：宝时得科技(中国)有限公司

技术研发日：.07.27

技术公布日：.02.28

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。