主要内容•深度图像(DepthMap)和Kinect介绍•利用深度图所做的研究•可用数据集和论文深度图像深度图像也称为距离图像,是指从观察视角看去,图像所包含信息与场景中物体表面距离相关的一种图像或一种图像通道。在深度图像中像素点的灰度值对应于场景中点的深度值。Kinectreturns“inversedepth”A3DpointXIRprojectedtotheRGBimagesas深度图如下两个性质:•颜色无关性(与彩色图像相比,深度图像不会有光照、阴影、以及环境变化的干扰)•灰度值变化方向与相机所拍摄的视场方向z方向相同(利用深度图像可以在一定范围内重建3D空间区域,并且可以从一定程度上解决物体遮挡或同一物体各部分重叠的问题)。根据深度,可以很容易地把前景和背景分开,这使得识别的难度大大降低。深度图像的研究现状深度摄像机按照成像原理划分主要有飞行时间法(TOF)、结构光(StructuredLight)、三维激光扫描(LaserScanner)等几种,主要应用于机器人,互动游戏等领域。利用深度图像进行模式识别是近年来兴起的一种方法。原因是即便上述三种深度图摄像机价格越来越便宜,并且在工业上得到广泛应用,但是对于研究领域还是非常昂贵。以色列的一家公司PrimeSense于2010年4月推出为微软Xbox专用的三维测量技术的外部设备Kinect,成本较低,应用Kinect设备,极大地激发了研究者们的兴趣,特别是计算视觉和模式识别的研究者们。Kinectkinect有三个摄像头,中间是RGB彩色摄像头,两边是红外线发射器和CMOS摄像机,分别用于发射红外线和接受数据。其工作过程是通过CMOS红外传感器来感知摄像头前面的环境,使用黑白光谱的方式来判断前面对应的物品与传感器的物理距离,收集摄像头视野里的每一点,然后每30MS整合出一幅深度图像,并且用3D的效果模型显示出来kinect的工作模式主要是识别人体及相关的动作,而识别人体的最主要核心就是骨架。通过骨骼的追踪,kinect把人体的动作扫描到计算机上,并做相关的模拟及操作。Kinect技术及工作原理主要包括三个方面,kinect传感器、深度识别技术和人体骨骼追踪技术。利用深度图像所做研究•人体识别1.人体的检测与跟踪2.手势识别3.姿势识别4.人体部位识别5.人脸识别、性别识别6.日常行为与事件识别•一般物体识别1.物体检测2.物体分类3.物体识别可用数据集•RGB-DDataset(分为一般物体和人)1.RGB-DObjectDataset(家居中日常用品,小物件为主)——ALarge-ScaleHierarchicalMulti-ViewRGB-DObjectDataset这个数据集分成51类包括300个日常用品,这个数据集中的物体被组织成categoriesandinstances(例如:theclassdogcontainsimagesfrommanydifferentdogs),并且每个物体都从多角度拍摄,使用WordNethyponym/hypernym关系将物体组织成一个分层的类结构。2.B3DO:Berkeley3-DObjectDataset(家居中日常用品,大家具,小物件为主)——ACategory-Level3-DObjectDataset:PuttingtheKinecttoWork数据集包括了很多类,每个类也包括了许多不同的实例,这个数据集不是在一个可控的转台上拍摄的而是在自然环境下拍摄的,在真实的房间和办公室,不同的光照和角度。更具有实用性。物体分类方法:DepthHOG和SVM3.RGB-DPeopleDataset——PeopleDetectioninRGB-DData这个数据集包括了3000多个在大学走廊的画面,绝大多数数据包括直立行走的人和站立的人,从不同的角度看,并且有不同程度的遮挡。•DepthActionDataset1、RGBD-HuDaAct——RGBD-HuDaAct:AColor-DepthVideoDatabaseForHumanDailyActivityRecognition(未下载到)公开的人类行为数据库,包括同步的color-depthvideostreams,用于人类日常行为的识别,这个数据集的目标是对真实的人类行为的识别。12类人类日常行为,包括:打电话,擦地,进入房间,走出房间,去睡觉,起床,吃饭,喝水,坐下,站起来,脱掉夹克,穿上夹克。还有一个类,叫做背景行为,它包括不同形式的随机行为。2、MSRDailyActivity3Ddataset——MiningActionletEnsembleforActionRecognitionwithDepthCameras包括16种行为:drink,eat,readbook,callcellphone,writeonapaper,uselaptop,usevacuumcleaner,cheerup,sitstill,tosspaper,playgame,liedownonsofa,walk,playguitar,standup,sitdown。如果可能的话,每个行为都有两种姿势:“sittingonsofa”and“standing”.总共有320个行为样本3、MSR-Action3DDataset——MiningActionletEnsembleforActionRecognitionwithDepthCameras包括20种行为:higharmwave,horizontalarmwave,hammer,handcatch,forwardpunch,highthrow,drawx,drawtick,drawcircle,handclap,twohandwave,sideboxing,bend,forwardkick,sidekick,jogging,tennisswing,tennisserve,golfswing,pickup&throw。每个动作都由十个不同的人做3次,每秒15帧,一共402个动作样本23797帧。近期所看论文列表1.MiningActionletEnsembleforActionRecognitionwithDepthCameras2.PeopleDetectioninRGB-DData3.MiningActionletEnsembleforActionRecognitionwithDepthCameras4.ALarge-ScaleHierarchicalMulti-ViewRGB-DObjectDataset5.Goingintodepth:Evaluating2Dand3Dcuesforobjectclassificationonanew,large-scaleobjectdataset6.LearningtosegmenthumansusingtheKinect7.3DwithKinect8.RGBD-HuDaAct:AColor-DepthVideoDatabaseForHumanDailyActivityRecognition9.LearningshapemodelsformonocularhumanposeestimationfromtheMicrosoftXboxKinect10.RealTimeHandPoseEstimationusingDepthSensors11.TowardsRobustCross-UserHandTrackingandShapeRecognition