人体行为识别概述(测试数据库和顶级会议)

ttyy365
1 ℃
2020-02-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

人体行为识别概述机器视觉团队：欧阳寒Page2行为识别现状VSAM(VisualSurveillanceandMonitoring)1997IVPL实验室(TheImageandVideoProcessingLaboratory)AIRVL实验室(ArtificialIntelligence，Robotics，andVisionLaboratory)LPAC实验室(LaboratoryforPerception，ActionandCognition)KNIGHT系统ISCAPs(IntegratedSurveillanceofCrowdedAreasforPublicSecurity)REASON(RobustMethodsforMonitoringandUnderstandingPeopleinPublicspaces)CANTATA(ContentAwareNetworkedsystemsTowardsAdvancedandTailoredAssistance)中国科学院自动化所的生物识别与安全技术研究中心CBSR微软亚洲研究院参考文献：监控视频中的人体异常行为检测研究Page3行为识别前景high-levelvideoindexingandretrieval“smart”videosurveillancesystems自动检测异常行为，辅助检索一个特定的事件。Theanalysisofsportvideos帮助教练进行战略分析。识别不同的游泳风格。Handgesturerecognition虚拟现实Human-ComputerInteraction(HCI)systemskidsRoom、Smartroom、Facialaction用于分析精神病病人的情感行为。roboticsmedicalarea辅助诊断病人的运动问题。另一个是对老年人提供远程协助。参考文献：ActionRecognitioninVideos:fromMotionCaptureLabstotheWebPage4行为识别的流程参考文献：运动人体行为分析视频中的人体运动分析及其应用研究目标的运动特征，可以用于运动表述，是行为理解等高层部分的基础。常见的运动表述方法有：运动轨迹、时空图表述和光流。Page5行为识别的流程。Page6目录目标检测目标分类特征提取行为理解目标跟踪Page7运动目标检测参考文献：视频中的人体运动分析及其应用研究.nh运动目标跟踪算法研究综述.pdf目标检测时间差分法背景减除法基于主动轮廓线模型的方法基于小波的方法基于人工神经网络的方法块匹配法光流估计法对于不依赖先验知识的目标跟踪来讲，运动检测是实现跟踪的第一步运动检测即为从序列图像中将变化区域从背景图像中提取出来。Page8目标检测——时间差分法在连续的图像序列中两幅或三幅相邻帧之间采用基于像素的时间差分，并对差分结果进行阈值化处理以提取图像中的前景运动区域。缺点：前景、背景区域的确定与阈值的选取有很大的关系当灰度图像序列对比度较低时，由于相邻两帧的差(前景与背景之差)的范围很小，阈值难以选取，影响前景目标的分割结果。区域灰度值变化较为平坦时，容易在人体二值图像内产生空洞现象，给后续的目标分类、跟踪和识别造成不便。优点：对于动态环境有较强的自适应性Page9目标检测——光流法基于光流法的运动检测，是利用运动物体随时间变化在图像中表现的光流特性，通过计算位移向量光流场来提取运动目标。光流是空间运动物体在观测成像面上对应像素运动的瞬时速度，是空间物体可见点的三维速度矢量在成像平面上的投影，它携带了丰富的运动和结构信息。优点：即使在摄像机运动的情况下也能检测出独立的运动目标。缺点：由于噪声、多光源、阴影和遮挡等原因，计算出的光流场分布并不十分可靠和准确。多数光流法计算复杂、耗时，在实际的系统中没有特殊的硬件支持时，很难实现实时检测。Page10目标检测——背景减除法最常用且有效的是背景减除法。背景减除法最简单的实现方法是预先选取不含前景运动目标的背景图像，然后将当前图像帧与背景图像相减得到前景目标。背景减除法通常在摄像机固定的情况下使用，关键是建立随场景变化不断更新的背景模型。有两类常用的背景更新方法:1、建立背景模型并采用自适应方法对模型参数进行调整，从而获得新背景图像;2、从过去的一组观测图像中按一定的假设选择像素值构成当前背景图像。Page11目标分类参考文献：视频中的人体运动分析及其应用研究目标分类基于形状信息的分类基于运动信息的分类使用简单的人体轮廓模式的形状参数检测运动人体提取区域的分散度、面积、宽高比等特征，采用三层神经网络将前景目标分类为人、人群、车辆和背景干扰分散度和面积信息区分人、车辆及混乱扰动根据运动区域的形状特征进行分类利用人体运动的周期性进行分类根据人体运动的周期性特性，采用时频分析法判断运动轨迹是否存在周期性，从而识别出运动人体通过计算运动区域的残余光流来分析运动目标的刚性和周期性与刚性车辆的运动相比，非刚性的人体运动具有较高的平均残余光流并且人体运动呈现周期性，因此可将人体区分出来这两类目标分类方法也可结合使用，以得到更准确的分类结果Page12人体描述边界框描述棍棒图描述细节的不同水平人体描述2D轮廓3D体根据应用对模板复杂度的需要而定可变形轮廓近似为面片描述近似为带状描述silhouettecontourmodel2Dblobmodelcardboardmodel多面体圆柱体圆锥球体参考文献：HumanMotion:ModelingandRecognitionofActionsandInteractions►Page13运动跟踪运动跟踪基于主动轮廓的跟踪基于特征的跟踪基于区域的跟踪基于模型的跟踪特征提取特征匹配参考文献：运动目标跟踪算法研究综述运动目标的跟踪，即通过目标的有效表达，在图像序列中寻找与目标模板最相似候选目标区位置的过程。就是在序列图像中为目标定位。范例Page14四种跟踪方法的比较。Page15运动目标的特征参考文献：自动目标识别与跟踪技术研究综述运动目标的特征常用特征量复杂背景下特征量复杂度长宽比紧凑度角点矩纹理由于成像距离、方向以及位置等因素的变化,使得图像发生旋转、平移以及尺度(Rotation,TransactionandScale,RTS)变化也称为周长面积比,主要是指目标的边界像素数与目标总像素数的比值是指目标最小外接矩形的长度与宽度的比值是指目标像素与包围目标的矩形内的像素数之间的比值Page16运动表征运动表征外观形状特征运动特征时空特征形状特征与运动特征的融合基于模型的方法基于外观的方法如高度、宽度、侧影轮廓、颜色、人体中心坐标、紧密度、倾斜角度、凹凸度、外接矩形长宽比等基于预先确定区域(如腿、头)跟踪的运动轨迹分析方法基于非预先确定的目标区域运动分析方法光流法MHIs和MEIs的Hu不变矩来描述运动迭代滤波(recursivefiltering)和帧分组(framegrouping)来描述运动信息。Page17行为识别人的行为理解与描述是指对人的运动模式进行分析和识别,并用自然语言等加以描述.可以简单地认为是时变数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配.行为理解的关键问题是如何从学习样本中获取参考行为序列,并且学习和匹配的行为序列能够处理在相似的运动模式类别中空间和时间尺度上轻微的特征变化.Page18行为识别方法人体行为识别方法基于模板匹配基于状态空间MEIMHI二维网格隐马尔科夫及其改进模型动态贝叶斯网络人工神经网络支持向量机置信网络基于语义描述的方法DTWPage19基于模板匹配的方法首先将图像序列转换成一组静态形状模式然后在识别过程中用输入图像序列提取的特征与在训练阶段预先存储的动作行为模板进行相似度比较，在比较数据可以有轻微变化下识别人体行为。2D视频输入动作没有结束差分运算并二值化图像累加MEIMHI基于矩的行为特征模板匹配是否MHV(MotionHistoryVolumes)Page20基于模板匹配的方法之DTWDTW（dynamictimewarping）——动态时间规整DTW是一种时变数据序列匹配方法DTW优点：概念简单、算法鲁棒，能够对图像序列进行分类。DTW缺点：算法计算量较大，缺乏考虑相邻时序之间的动态特性，而在实际中，运动序列中相邻序列在时间和空间上有高度的相关性。Page21基于状态空间的方法将图像序列中的每个静态姿势或运动状态作为一个状态节点，这些状态节点之间由给定的概率联系起来。任何的动作序列可以认为是这些静态动作在不同状态节点中的一次遍历过程，计算这个遍历过程的联合概率，取其最大值作为分类标准。基于状态空间的方法已经被广泛应用于预测、估计和检测时间序列。Page22基于状态空间的方法——HMM隐马尔可夫模型的基本结构改进的HMM耦合的HMMs（CoupledHMMs）层级HMMs（hierarchicalHMMs）抽象HMMs（abstractHMMs）可变长马尔科夫模型（VariablelengthMarkovmodel）熵隐马尔科夫模型（entropyHMM）分层HMM（layeredHMM）Page23基于状态空间的方法——DBNs动态贝叶斯网络(dynamicBayesiannetworks，DBNs)由于HMMs不能有效处理三个或三个以上独立的过程，作为HMMs的推广方法。是一种对随机过程描述的有向图解利用先验知识建立视觉特征之间的因果关系来处理视频处理中固有的不确定性问题。优点：可以任意改变拓扑结果或增删变量以反映变量间各种不同的关联关系，而不影响训练算法本身，因此具有良好的可解释性，其拓扑结构具有精确及易于理解的概率语义。相比马尔可夫链，贝叶斯网络训练比较复杂。Page24基于状态空间的方法——ANN人工神经网络是由人工建立的以有向图为拓扑结构的动态系统，它通过对连续或断续的输入作状态响应而进行信息处理，在分析时变数据时具有很大的优势。缺点：需要用大量的数据来训练网络TDNN(time-delayneuralnetwork)——时延神经网络是在多层前馈感知器神经网络模型中引入时延单元使得神经网络增加记忆功能；时变序列的前述值被用来预测下一个值。由于大量数据集成为可能，时延神经网络的重点就可以放在时分信息的表达这样由此导出的神经网络模型适合应用于处理序列数据。Page25基于状态空间的方法——SVM支持向量机(supportvectormachine，SVM)优点：能够较好地解决常见的非线性分类问题中的小样本、非线性、高维数和局部极小点等实际问题可以避免神经网络结构选择和局部极小点问题Page26两种方法比较模板匹配方法的优点是计算复杂度低、操作和实现简单，但缺乏考虑运动序列中相邻时序之间的动态特性，对于噪声和运动时间间隔的变化相当敏感。状态空间方法虽然能克服模板匹配的缺点，但通常涉及到复杂的迭代运算，算法的步骤较为复杂，难以应用到实际工作中。Page27基于语义的描述方法用一种形式化的语法格式：主语（人）、谓语（人的动作）、宾语（实物），将场景中人的活动情况用填空的形式填入语法格式中，产生对场景的自然语言描述。基于语义描述的方法是对在一段持续时间内场景内容的分析过程目前还处于对场景中人体行为的简单语义解释对复杂场景中人体复杂行为有效的充分的语义描述还有相当艰巨的工作要做Page28行为的分层模型姿态层四肢运动速度四肢运动幅度人体倾斜度肢体比例左腿向前、右臂向前、右臂向后……动作层姿态1姿态2……跑：左腿向前、右臂向前、左臂向后……行为层动作1动作2……跨栏：跑、跳…………常用的概念pose、actions、activitiesaction/motorprimitivesHumanactionrecognitionMotionanalysisActiondetec