上海交通大学硕士学位论文多目视觉三维人体运动姓名:郑恩亮申请学位级别:硕士专业:模式识别与智能系统指导教师:刘允才20081223上海交通大学硕士学位论文I多目视觉三维人体运动摘要本论文围绕机器视觉的重要课题——多目视觉三维人体运动——展开研究,他不仅涉及到机器视觉的底层问题,而且做了许多高层的视觉处理。多目视觉三维人体运动分析就是对多目图像或视频进行处理,获取人体姿态和运动参数。它在智能监控,虚拟现实,人机交互,人体运动分析,视频编解码等领域有广泛而潜在的应用价值。最近几年,国际上学术界和企业界对这个领域作出了广泛而深入的研究,并取得了长足的进步与发展。在大量阅读国内外期刊文献的基础上,我们对三维重建,人体初始化和跟踪,以及运动参数分析等方面做了细致的分析和研究,提出了一些创新性的算法,并取得了一些有价值的实验结论:(1)前景背景分割是一个传统的难题。本论文在基于贝叶斯分割的方法基础上,提出了新的基于超像素的分割方法。与传统的单像素分割方法不同,本方法直接把有前景的图像与背景图像的超像素进行比较,并取得了显著的效果。(2)在三维重建部分,提出了一种新的基于贝叶斯理论的信息融合的方法。传统的三维重建算法ShapeFromSilhouette对于前景轮廓提取中的噪声非常敏感。本论文的方法把三维重建过程视作一个信息融合的过程,实验证明这种方法非常鲁棒。(3)提出了一种新的解决骨架模型初始化的问题。由于单帧数据的初始化没有前后帧数据的信息,所以这是一个非常困难的问题。本论文提出的新方法可以在人体姿势简单的情况下(比如站立,行走等),自动地上海交通大学硕士学位论文II估计人体姿态。(4)提出了一种新的人体跟踪算法。这种方法以人体三维数据与骨架的匹配程度作为匹配函数,使用概率进化算法求取匹配函数的最优值。该方法能很好地完成人体跟踪。(5)提出了一种新的运动数据定量分析方法。在实验中,商业用的基于标志的运动捕获系统获得的数据作为真值。我们把该系统获得的位置参数转换为角度参数,与人体跟踪中获得的运动参数进行比较。关键词:多目视觉,人体运动,超像素,三维重建,贝叶斯,骨架模型,跟踪上海交通大学硕士学位论文IIIMulti-view3DHumanMotionCaptureABSTRACTThisthesisfocusesononeofthemostimportanttopicsincomputervision,i.e.,multi-view3Dhumanmotioncapture,whichnotonlyinvolvesmanyissuesoflow-levelvisionbutalsoprovidesmotiondataforhigh-levelvisualanalysis.Multi-view3Dhumanmotioncaptureistocalculatehumanmotionparametersbasedoncalibratedmulti-viewcameras.Ithasawidescopeofpromisingapplicationsinmanyareassuchassmartsurveillance,virtualreality,advancedperceptualinterfaces,motionanalysis,andmodel-basedcoding.Inrecentyears,theareaofhumanmotioncapturebasedonmulti-viewcamerasreceivedincreasingattentionfrombothacademiaandindustry,andmanyachievementshavebeenobtained.Inthisthesis,weanalyzethe3Dreconstruction,skeletalmodelinitialization&humanmotiontracking,motionparametersevaluation,andsoon.Wepresentedseveralnovelmethodsandachievesomevaluableresults.Ourcontributionsaresummarizedasfollows.(1)Theforegroundandbackgroundclassificationisaclassicdifficultproblem.Unlikethetraditionalwayofclassificationbylabelingeachpixelasforegroundandbackground,weprovideanewclassificationbasedonsuperpixels.Theexperimentalresultsshowlargeimprovement.(2)Inthepartof3Dreconstruction,aBayesianframeworkisusedtofusetheinformationeachtimeanewimageisobserved.TheexperimentsshowthisnewmethodismorerobustcomparedtotraditionalmethodofShapeFromSilhouette,whichissensitivetoclassificationerrors.(3)Anewmethodisproposedtosolvetheproblemofskeletalmodel上海交通大学硕士学位论文IVinitializationbasedonsingleframeofvoxeldata.Asnoformerinformationcanbereferredto,itisaverydifficultproblem.Thisthesisproposesanewalgorithmforskeletalmodelinitializationundertheconditionthatthegestureisgeneral(suchasstanding,walking,etc.).(4)Anewalgorithmofhumanbodytrackingispresented.Thismethoddefinesthematchlevelbetweenthevoxeldataandskeletalmodelasthefitnessfunction.TheProbabilityEvolutionAlgorithm(PEA)isusedtofindtheminimalsolutiontothefitnessfunction.Theexperimentsprovetheeffectivenessofthismethod.(5)Amethodforquantitativeevaluationispresented.Intheexperiment,themotiondatacapturedbythecommercialmarker-basedmotioncapturesystemsisdefinedasgroundtruth.Thepositionparametersareconvertedtoangleparameters,whichisusedtocomparewiththemotionparameterscalculatedfromhumanbodytracking.keywords:Multi-view,humantracking,superpixel,3Dreconstruction,Bayes,skeletalmodel,tracking上海交通大学硕士学位论文上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日上海交通大学硕士学位论文上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日上海交通大学硕士学位论文第1页第一章绪论1.1背景和发展状况人运动的视觉分析是计算机视觉领域一个重要的研究方向,它旨在对图像或视频进行分析,从而获得人体姿态和运动参数,并进一步进行姿态识别、语义分析及行为理解。它覆盖了脸像识别、手势识别、人体跟踪、语义分析等研究领域[1],需要使用运动分割、跟踪、识别、语义表示与推理等技术,涉及到模式识别、图像处理、计算机视觉、人工智能、图形学等学科领域。这是一个具有挑战性的、跨学科的研究方向。本论文将对人运动的视觉分析中的人体建模与跟踪进行研究。目前,随着计算机硬件系统的不断升级和人工智能理论的继续完善,对于人的视觉分析研究也逐渐从研究单人运动向多人,从人体运动姿势估计到人体行为分析方向发展。目前在人体运动方面有着深入研究的机构主要有法国INRIA实验室BillTriggs研究组、瑞士EPFL实验室PascalFua研究组、美国Brown大学计算机系MichaelJBlack研究组、加拿大多伦多大学计算机系C.Sminchisescu研究组。此外,美国和欧洲一些国家已经开展了大量有关人体运动分析的研究项目。1997年美国国防高级研究项目署设立了以卡内基梅隆大学为首、麻省理工学院等参与的视觉监控重大项目,主要研究用于战场及普通民用的场景监控与自动视频理解技术。英国的雷丁大学已开展了对车辆和行人的跟踪及其交互作用识别的相关研究.浙江大学计算机学院人工智能所也在人体运动分析和三维动画方面有雄厚的硬件基础,本论文的运动捕获实验就是与该所合作完成的。1.2典型应用计算机视觉领域对人运动的视觉分析的浓厚兴趣主要源于三个方面:一是计算机视觉理论和算法的发展;二是廉价且高品质的视频采集设备的出现;三是人运动的视觉分析本身有着广泛的应用前景和潜在的经济价值。其中第三点又是最本质、最重要的原因。下面借鉴同行的分类[1,2,3],将人运动的视觉分析的典型应用总结如下。1)虚拟现实(VirtualReality)为了在虚拟空间中产生生动逼真的人物动作,最好的办法就是先用视觉方法对物上海交通大学硕士学位论文第2页理世界中的人体运动进行分析,获取人体模型、人体姿态以及运动参数,再利用这些数据用图形学的方法生成动画。另外,以往网络上的虚拟空间(如聊天室)主要通过文本来实现,有时也增加一些二维的图标来导航用户,更加逼真、丰富多彩的虚拟空间应该是交互式的,它可以利用虚拟现实技术增加手势、头部姿态以及脸部表情,为参与者提供更加自然便捷的交互方式。近年来的电影和游戏也非常得益于虚拟现实技术,如电影《最终幻想》和《怪物史莱克》中的人物动作(行走和打斗等)基本上是由电脑制作的。2)智能监控(SmartSurveillance)这里强调的是“智能”。传统的视觉监控系统往往是将摄像机与显示器连接,工作人员24小时在显示器前监视,这种做法耗费大量人力物力,而且由于工作人员的疲劳容易失误。一个真正智能的监控系统除了能够检测受控区域的人的运动之外,还能够实时识别异常行为(如非法闯入、偷窃等)并及时报警,而且这个过程基本是自动化的。因此,智能监控系统[4,5]在安全监控场所很有应用前景,如银行、超市、停车场等,它不仅提高安全性、减少犯罪,而且还节省大量人力物力。在访问控制(AccessControl)场合,也可以利用人脸或者步态的跟