2016年9月36氪研究院机器之眼,看懂世界----计算机视觉行业研究报告目录Contents一、计算机视觉行业概述二、计算机视觉技术与应用场景三、计算机视觉行业与创业公司梳理1.1定义与研究意义1.2行业驱动—数据量、运算力、算法技术1.3政策法规1.4投资热度全球投资热度国内投资热度1.5市场规模2.1通用视觉识别技术流程2.2识别技术与应用场景简介生物特征识别光学字符识别物体与场景识别视频对象提取与分析3.1产业链3.2全景图3.3商业模式3.4行业竞争市场格局创业公司分析3.5行业思考商业模式技术趋势计算机视觉行业概述Chapter1•定义与研究意义•行业驱动—数据量、运算力、算法技术•政策法规•投资热度全球投资热度国内投资热度•市场规模4“Toknowwhatiswherebylooking.”(通过看去了解所在之处。)----亚里士多德计算机视觉是指用计算机来模拟人的视觉系统,实现人的视觉功能,以适应、理解外界环境和控制自身的运动。概括的说,视觉系统主要解决的是物体识别、物体形状和方位确认以及物体运动判断这三个问题。而计算机视觉的研究,则是专注于让机器代替人眼,解决这些问题。(1)物体的识别:即理解物体是什么,对物体的识别主要体现在两方面,第一是是将不同物体归类,第二是对同类型物体的区分与鉴别,如不同人脸的鉴别。物体识别要求既能抽象出物体的共同属性,又能分别出相似物体间的细微差别。(2)物体形状和方位的确定:判断物体的形状和方位是为了让物体在视觉的三维空间里得到记忆的重建,进而进行场景分析与判断。(3)物体运动的判断:和物体形状方位的确定一样,对物体的运动的判断也是一种对于场景的重建和理解,用于进行视觉主体(人或机器)对场景的分析,乃至做出自身行动的决策,实现视觉主体和场景的交互。定义让机器之眼代替人眼,看懂所在世界人体识别文字识别物体识别1.1定义与研究意义1.2行业驱动---数据量运算力算法技术1.3政策法规1.4投资热度全球投资热度国内投资热度1.5市场规模36Kr-计算机视觉行业研究报告2016年9月5计算机视觉作为计算机的眼睛,是机器认识世界、看懂世界的一种方式。而认识世界、看懂世界是人工智能产品或方案不可或缺的重要部分。唯有看见,才能够做出分析判断,进而代替人类完成更多的任务。它与语音识别、语言识别一并构成了人工智能的感知智能,让机器完成对外部世界的探测,进而做出判断,采取行动,让更复杂层面的智慧决策、自主行动成为可能。基于深度学习算法模型和CPU、GPU等关键硬件的支撑,计算机视觉技术应用得以实现,并最终集成于多类产品和应用场景之中(如机器人、无人驾驶等等)。计算机视觉能够增强、改善人们的生活,代替人类完成更多的任务。一方面,它为人类自身视觉提供强有力的辅助和增强,极大的改善人与世界交互的方式。比如,我们可以通过图片搜索引擎找到与之相关信息;另一方面,机器可以准确、客观而稳定的看见,突破人类视觉的局限,代替人类完成更多的任务。比如,机器可以24小时不间断、不疲倦的进行场景监控。研究意义计算机视觉赋予机器“看”和“认知”的功能,是人工智能的一类基础应用技术人工智能基础架构自然语言处理计算机视觉语音识别智慧家电智慧工业关键硬件算法模型路径规划GPUNPU传感器深度学习(CNN、RNN等)CPU基础应用技术回归分析最速梯度下降法分布式存储产品知识架构层基础支撑层技术应用层方案集成层空间搜索来源:36氪研究院预测计划和安排智慧交通36Kr-计算机视觉行业研究报告2016年9月1.1定义与研究意义1.2行业驱动---数据量运算力算法技术1.3政策法规1.4投资热度全球投资热度国内投资热度1.5市场规模6数据量、运算力和算法模型是影响计算机视觉行业发展的三大要素。2000年之后,数据量的上涨、运算力的提升和深度学习算法的出现极大的促进了计算机视觉行业的发展。要理解数据量的重要性,得先从算法说起。数据量和算法可以分别比作人工智能的燃料和发动机。算法是计算机基于所训练的数据集归纳出的识别逻辑,好的算法模型可以实现精准的物体和场景识别。而数据集的丰富性和大规模性对算法的训练尤为重要。因此可以说,实现机器精准视觉识别的第一步,就是获取海量而优质的应用场景数据。以人脸识别为例,训练该算法模型的图片数据量至少应为百万级别。2000年以来,得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生并存储的数据量急剧增加,这为通过深度学习的方法来训练计算机视觉技术提供很好的土壤。IDC数据显示,从2011年起,全球所产生的数据量已达到ZB级别(1ZB约为10亿GB),此后仍将高速增长,预计2020年达到近40ZB。海量的数据将为计算机视觉算法模型提供远远不断的素材,助力机器视觉的精准度提升。行业驱动·数据量海量数据为计算机视觉发展提供燃料大数据训练模型应用模型识别场景算法模型物体及场景识别0102030405020092010201120122013201420152016e2017e2018e2019e2020e2009-2020年全球总体数据量(单位:ZB)来源:IDC,36氪研究院36Kr-计算机视觉行业研究报告2016年9月1.1定义与研究意义1.2行业驱动---数据量运算力算法技术1.3政策法规1.4投资热度全球投资热度国内投资热度1.5市场规模7在计算机视觉领域,图像、视频作为数据密集型问题,需要大量的矩阵计算操作,因此特别适合使用并行运算芯片进行数据处理。而传统的CPU一次只能同时做一两个加减法运算,无法满足并行运算的需求。在GPU出现之前,算法运行的速度是很慢的,即使是一个简单的神经网络数据的培训,也得花费几天、甚至几周的时间。这对算法的优化调整带来巨大瓶颈。而由于机器学习的理论刚刚起步,需要不断的试验、迭代,这时运算能力就变得尤为关键。1999年,Nvidia公司在推销自己的Geforce256芯片时,提出了GPU(GraphicsProcessingUnit,图像处理器)这个概念。GPU是专为执行复杂的数学和集合计算而设计的数据处理芯片。它的出现让并行计算成为可能,对数据处理规模、数据运算速度带来了指数级的增长与改善,极大的促进计算机视觉的发展。GPU与传统CPU相比,在处理海量数据方面有压倒性的优势。据RajatRaina与吴恩达的合作论文“用GPU进行大规模无监督深度学习”(“Large-scaleDeepUnsupervisedLearningusingGraphicProcessors)显示,在运行大规模无监督深度学习模型时,使用GPU和使用传统双核CPU在运算速度上的差距最大会达到近七十倍。在一个四层,一亿个参数的深度学习网络上,使用GPU将程序运行时间从几周降低到一天。在今天,数据处理速度不再成为制约计算机视觉发展的瓶颈。想要发挥专用芯片的计算效率优势,需要芯片结构和软件算法两者相匹配。目前的趋势是,随着对人工智能各类应用需求的不断增强,专门用于加速人工智能应用的AI-PU或将成为计算机另一个标配组件。行业驱动·运算力运算力的大幅提升推进计算机视觉发展36Kr-计算机视觉行业研究报告2016年9月世界上第一款GPU-GeForce2561.1定义与研究意义1.2行业驱动---数据量运算力算法技术1.3政策法规1.4投资热度全球投资热度国内投资热度1.5市场规模8深度学习可以做到传统视觉识别方法无法企及的精度,它的出现让视觉识别准确率大大提高。计算机视觉技术的发展大致经历两大阶段:Stage1:计算机的视觉识别原理多为通过寻找合适的特征来让机器辨识物品状态,识别准确率低。人们对经验归纳提取,进而设定机器识别物体的逻辑,机器通过对逻辑的学习来识别物体。由于这个逻辑是人设定的,不能穷举各种复杂的情境,因而有很大局限性,识别准确率较低。Stage2:深度学习的出现先让识别逻辑由认为设定变为自学习状态,数据量和计算机硬件性能也有了大的发展飞跃,助力精准度提升。行业驱动·算法技术深度学习算法极大提高视觉识别准确率(1/2)1990s2006年1980s1970s1960s1966年,人工智能学者MarvinMinsnkey给出其学生任务,让其写出程序,让计算机了解其所连接的摄像头看到的是什么。由此,计算机视觉的研究序幕被拉开。研究者认为,要了解一个物体或者场景,首先需要将三维结构从图像中恢复。逻辑学和知识库推理逐渐成为主流,视觉识别的系统更多的变成专家推理系统。即,将物品转化成一些先验表征,然后和计算机看到的物品图像进行匹配。此外,研究者推翻了之前的理论:要让计算机理解图像,不需要首先恢复物体的三维机构。逻辑学推理仍为主流。研究发展发现先验表征会因为观测角度的区别而发生变化,在试验中并不可靠,研究转而聚焦于物体最本质的一些局部特征,建立特征索引进而识别物品。匹配的精准度又上一个台阶。深度学习概念被提出,卷积神经网络、循环神经网络等算法逐渐推广应用,Hiddenlayer的层数达到100多层。机器可以通过训练自主建立识别逻辑。随着机器学习方法的不断推进,图像识别准确率逐步从70%+提升到90%+。发展的第二阶段发展的第一阶段至今计算机视觉算法发展历史36Kr-计算机视觉行业研究报告2016年9月1.1定义与研究意义1.2行业驱动---数据量运算力算法技术1.3政策法规1.4投资热度全球投资热度国内投资热度1.5市场规模9对比项传统神经网络深度学习数据需人工标注分类特征未标注结构层数一般最多2-3层目前一般20层左右,最高已上百参数初始化随机给定逐层训练获得原理监督学习+误差反向传播非监督学习+监督学习+误差反向传播深度学习是一种基于多层神经网络的,以海量数据为输入的规则自学习方法。它不是通过固定的公式或程序的描述来做决定,而是根据提供给它的大量的实际行为(训练数据集)来自我调整规则中的参数,进而调整规则。在和训练数据集类似的场景下,可以做出一些很准确的判断。2006年,GeoffreyHinton和合作者发表论文,“Afastalgorithmfordeepbeliefnets”,此后“DeepLearning(深度学习)”的概念被提出。深度学习出现之前,基于寻找合适的特征来让机器辨识物体状态的方式几乎代表了计算机视觉的全部。尽管对多层神经网络的探索已经存在,然而实践效果并不好。深度学习出现之后,计算机视觉的主要识别方式发生重大转变,自学习状态成为视觉识别主流。即,机器从海量数据库里自行归纳物体特征,然后按照该特征规律识图像识别的精准度也得到极大的提升,从70%+提升到95%。别物体。行业驱动·算法技术深度学习算法极大提高视觉识别准确率(2/2)72.00%74.50%84.70%89.00%93.00%95.00%60%70%80%90%100%2010201120122013201420152010-2015年ImageNet比赛图像识别准确率注释:ImageNet是计算机视觉系统识别项目。来源:互联网,36氪研究院深度学习与传统神经网络的区别来源:东方证券,36氪研究院36Kr-计算机视觉行业研究报告2016年9月1.1定义与研究意义1.2行业驱动---数据量运算力算法技术1.3政策法规1.4投资热度全球投资热度国内投资热度1.5市场规模10实施时间颁布主体法律法规支持对象相关内容2015/5/6发改委《关于加强公共安全视频监控建设联网应用工作的若干意见》安防领域视觉识别要求逐步建立国家级、升级公共安全视频图像数据处理中心,深化预测预警、实时监控、轨迹追踪、快速检索等应用2015/7/4国务院《国务院关于积极推进“互联网+”行动的指导意见》人工智能行业明确提出人工智能作为11个重点布局的领域之一,促进人工智能在智能家居、智能终端、智能汽车、机器人等领域的推广应用。2015/7/9中央办公厅、国务院《关于加强社会治安防控体系建设的意见》安防领域视觉识别加大公共安全视频监控覆盖,将社会治安防控信息化纳入智慧城市建设总体规划,加深大数据、云计算和智能传感等新技术的应用。2016/3/18国务