(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910340257.4(22)申请日2019.04.25(71)申请人西安工业大学地址710032陕西省西安市未央区学府中路2号(72)发明人肖秦琨 秦敏莹 (74)专利代理机构西安弘理专利事务所61214代理人燕肇琪(51)Int.Cl.G06K9/00(2006.01)G06K9/34(2006.01)G06K9/62(2006.01)G06F16/50(2019.01)G06N3/04(2006.01)(54)发明名称一种基于卷积神经网络的手语识别方法(57)摘要本发明公开一种基于卷积神经网络的手语识别方法,具体的步骤为:步骤1,采集若干含有手语的深度图像;步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;构建一个卷积神经网络模型;步骤3,利用所述训练样本对卷积神经网络模型对进行训练;步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。本发明的能够提供一种基于卷积神经网络的手语识别方法,避免了传统手语识别方法对于数据量较大的任务效率较低的问题。权利要求书2页说明书8页附图1页CN110096991A2019.08.06CN110096991A1.一种基于卷积神经网络的手语识别方法,其特征在于,具体的步骤如下:步骤1,采集若干含有手语的深度图像;步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;构建一个卷积神经网络模型;步骤3,利用所述训练样本对卷积神经网络模型对进行训练;步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。2.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤一中采用Kinect深度摄像头进行图像采集。3.如权利要求2所述的一种基于卷积神经网络的手语识别方法,其特征在于,采集数据时,所述Kinect深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为30FPS。4.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2中所述预处理步骤具体如下:步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪声,得到较为平滑的图像集;步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的像素点为前景部分,将它们置0,最后得到分割后的手型图像集;步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去噪声;步骤2.4:除去步骤2.3得到的手型图像集的小连通区域最终得到完整的手型图像。5.如权利要求4所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤2.4的具体方法为:标记图像的连通区域并计算连通区域的像素个数,设置阈值,当连通域的像素个数小于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1。6.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型为16层卷积神经网络模型,按照信息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层;其中每一层的输出即为下一层的输入。7.如权利要求6所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型中的参数设置为:卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为8;池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为16;池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为32;权 利 要 求 书1/2页2CN110096991A2Softmax层中,MaxIter设置为280,epoch设置为4。权 利 要 求 书2/2页3CN110096991A3一种基于卷积神经网络的手语识别方法技术领域[0001]本发明属于手语识别技术领域,涉及一种基于卷积神经网络的手语识别 方法。背景技术[0002]手语是听障人群与正常人群互相交流的唯一途径。正是有手语识别系统 的存在,聋哑人群的生活和工作空间才没有因此被限制。另一方面,随着人 工智能技术的发展,手语作为新型的、更加便捷的人机交互方式也已经成为 当今各行业交互方式的新趋势。[0003]传统的手语识别方法主要涉及特征提取以及学习识别两个步骤。人工设 计特征主要包括有梯度方向直方图(HOG)和光流方向直方图(HOF),用于时序 建模的传统模型和方法主要有隐马尔科夫模型(HMM)动态时间规整(DTW)和 条件随机场(CRF)等。迄今为止,对这两个问题进行了大量的研究工作。但由 于人工设计的特征较为单一,且建模过程较为繁琐,在处理数据量较大的任 务时效率较低。发明内容[0004]本发明的目的是提供一种基于卷积神经网络的手语识别方法,避免了传 统手语识别方法对于数据量较大的任务效率较低的问题。[0005]本发明所采用的技术方案是,[0006]一种基于卷积神经网络的手语识别方法,具体的步骤如下:[0007]步骤1,采集若干含有手语的深度图像;[0008]步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割 出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据 库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样 本;[0009]构建一个卷积神经网络模型;[0010]步骤3:用训练样本对卷积神经网络模型进行训练。[0011]步骤4:用已经训练好的卷积神经网络模型对测试样本进行识别,并输 出分类识别的结果。[0012]本发明的特点还在于,[0013]其中步骤一中采用Kinect深度摄像头采集图像,采集数据时,Kinect 深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为 30FPS;[0014]其中步骤二中图像预处理步骤具体如下:[0015]步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;[0016]步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;说 明 书1/8页4CN110096991A4[0017]步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;[0018]步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域的像素个数,设置阈值,当像素个数小 于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1;最终 得到完整的手型部分。[0019]其中步骤2中的卷积神经网络模型为16层卷积神经网络模型,按照信 息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、池化 层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、 归一化层3、全连接层1、全连接层2、softmax层和图像输出层;其中每一 层的输出即为下一层的输入。其中参数设置为:[0020]卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为8;[0021]池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;[0022]卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为16;[0023]池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;[0024]卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为32;[0025]Softmax层中,MaxIter设置为280,epoch设置为4。[0026]本发明的有益效果是,[0027]本发明提出的一种基于卷积神经网络的手语识别方法,克服了传统手语 识别过程人工设计特征较为复杂,且时序建模过程较为繁琐,对于数据量较 大的任务效率较低的问题。可以避免光照比较敏感,对环境要求高,鲁棒性 不强等因素的影响,能够自动识别手势动作。附图说明[0028]图1是本发明一种基于卷积神经网络的手语识别方法的流程图;[0029]图2是本发明一种基于卷积神经网络的手语识别方法所用的卷积神经网 络模型的示意图。具体实施方式[0030]下面结合附图和具体实施方式对本发明进行详细说明。[0031]一种基于卷积神经网络的手语识别方法,如图1所示,具体的步骤如下:[0032]步骤1:采用Kinect深度摄像头采集若干含有手语的深度图像;[0033]采集数据时,Kinect深度摄像头距离打手语者约0.8~1.2米,距离地面 约1.0~1.4米,帧率为30FPS;[0034]步骤2:对手语图像数据库中深度图像进行图像预处理,得到完整无噪 声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为 为两部分,一部分作为训练样本,另一部分作为测试样本;[0035]构建一个的卷积神经网络模型。[0036]其中预处理的具体步骤如下:[0037]步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;[0038]步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法说 明 书2/8页5CN110096991A5为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;[0039]步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;[0040]步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域的像素个数,设置阈值,当连通域的像 素个数小于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为 1;最终得到完整的手型部分。[0041]其中卷积神经网络模型为16层卷积神经网络模型,包括1个图像输入 层(Image Input Layer)、3个卷积层(Convolution Layer)、3个ReLU(ReLU Layer)层、3个归一化层((Batch Normalization Layer))、2个池化层 (MaxPooling Layer)、2个全连接层(Fully-connected layers)、一个softmax 层和一个图像输出层。按照信息处理顺序依次为:图像输入层、卷积层1、 ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池 化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax 层和图像输出层。每层的[0042]卷积层:对输入图像采用卷积模板在三个通道上,对图像进行卷积操作。 得到特征图向量。假定卷积层有L个输出通道和K个输入通道,于是需要 KL个卷积核实现通道数目的转换,则卷积运算公式为:[0043][0044]其中,X*表示第k个输入通道的二维特征图,Yl表示第l个输出通道的 二维特征图,Hkl表示第k行、第l列二维卷积核。假定卷积核大小是I*J, 每个输出