中科院-2019年人工智能发展白皮书-2020.1-47页

pdvcd
0 ℃
2020-09-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

2019年人工智能发展白皮书风起云涌：人工智能关键技术不断取得突破相得益彰：人工智能赋能产业与应用场景百川归海：人工智能开放创新平台逐步建立各领风骚：全球人工智能公司一览目录01020304前言人工智能是一个很宽泛的概念，概括而言是对人的意识和思维过程的模拟，利用机器学习和数据分析方法赋予机器类人的能力。人工智能将提升社会劳动生产率，特别是在有效降低劳动成本、优化产品和服务、创造新市场和就业等方面为人类的生产和生活带来革命性的转变。据Sage预测，到2030年人工智能的出现将为全球GDP带来额外14%的提升，相当于15.7万亿美元的增长。全球范围内越来越多的政府和企业组织逐渐认识到人工智能在经济和战略上的重要性，并从国家战略和商业活动上涉足人工智能。全球人工智能市场将在未来几年经历现象级的增长。据中国产业信息网和中国信息通信研究院数据，世界人工智能市场将在2020年达到6800亿元人民币，复合增长率达26.2%，而中国人工智能市场也将在2020年达到710亿元人民币，复合增长率达44.5%。我国发展人工智能具有多个方面的优势，比如开放的市场环境、海量的数据资源、强有力的战略引领和政策支持、丰富的应用场景等，但仍存在基础研究和原创算法薄弱、高端元器件缺乏、没有具备国际影响力的人工智能开放平台等短板。此份报告不但对人工智能关键技术（计算机视觉技术、自然语言处理技术、跨媒体分析推理技术、智适应学习技术、群体智能技术、自主无人系统技术、智能芯片技术、脑机接口技术等）、人工智能典型应用产业与场景（安防、金融、零售、交通、教育、医疗、制造、健康等）做出了梳理，而且同时强调人工智能开放平台的重要性，并列举百度Apollo开放平台、阿里云城市大脑、腾讯觅影AI辅诊开放平台、科大讯飞智能语音开放创新平台、商汤智能视觉开放创新平台、松鼠AI智适应教育开放平台、京东人工智能开放平台NeuHub、搜狗人工智能开放平台等典型案例呈现给读者。昀后，列举国内外优秀的人工智能公司与读者共勉。随着技术的进步、应用场景的丰富、开放平台的涌现和人工智能公司的创新活动，我国整个人工智能行业的生态圈也会逐步完善，从而为智慧社会的建设贡献巨大力量。风起云涌：人工智能关键技术不断取得突破/01八大人工智能关键技术选取标准：•技术相对取得较大突破；•应用场景相对明确；•在产业界、学术界、投资界引起较大的关注。计算机视觉技术自然语言处理技术跨媒体分析推理技术智适应学习技术群体智能技术自主无人系统技术智能芯片技术脑机接口技术1.计算机视觉技术计算机视觉(ComputerVision)是一门研究如何使机器“看”的科学，更进一步地说，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的科学。近几年计算机视觉技术实现了快速发展，其主要学术原因是2015年基于深度学习的计算机视觉算法在ImageNet数据库上的识别准确率首次超过人类，同年Google也开源了自己的深度学习算法。计算机视觉系统的主要功能有图像获取、预处理、特征提取、检测/分割和高级处理。图像获取预处理特征提取检测/分割高级处理提取二维图像、三维图组、图像序列或相关的物理数据，如声波、电磁波或核磁共振的深度、吸收度或反射度对图像做一种或一些预处理，使图像满足后继处理的要求，如：二次取样保证图像坐标的正确，平滑去噪等从图像中提取各种复杂度的特征，如：线，边缘提取和脊侦测，边角检测、斑点检测等局部化的特征点检测对图像进行分割，提取有价值的内容，用于后继处理，如：筛选特征点，分割含有特定目标的部分验证得到的数据是否匹配前提要求，估测特定系数，对目标进行分类国际计算机视觉大会（ICCV2019）欧洲计算机视觉会议（ECCV2018）ImageNet大规模视觉识别挑战赛（ILSVRC）国际计算机视觉与模式识别会议（CVPR2019）其他近年来，计算机视觉在产业界和学术界不断取得突破。国际计算机视觉大会（IEEEInternationalConferenceonComputerVision，简称ICCV）是全球计算机视觉领域三大顶级会议之一，2019年该大会共收到4328篇论文投稿，相比上一届ICCV2017，数量翻了一倍不止。其中，中科院和清华大学的投稿数量在所有机构中遥遥领先。欧洲计算机视觉会议（EuropeonConferenceonComputerVision，简称ECCV）是全球计算机视觉领域三大顶级会议之一，2018年该大会共收到论文投稿2439篇，涵盖对抗性机器学习，对人、物体和环境的超快三维感知、重建与理解，面部追踪及其应用，行人重识别的表征学习，视觉定位等主题。国际计算机视觉与模式识别会议（ComputerVisionandPatternRecognition，简称CVPR）是全球计算机视觉领域三大顶级会议之一，2019年该大会共录取来自全球的论文1299篇，其中腾讯公司的腾讯优图和腾讯AILab有超过58篇论文被接收，相比过去两年成绩大幅提升。ImageNet大规模视觉识别挑战赛（ILSVRC）从2010年开始举办，一年一度，至2017年终结，有力推动了计算机视觉的发展。截至2016年，ImageNet中含有超过1500万由人手工注释的图片网址，标签超过2.2万个类别，图像识别错误率已经达到2.9%，远远超越人类（5.1%）。清华大学研究团队提出了一种全新的卷积神经网络架构DenseNet，显著地提升了模型在图片识别任务上的准确率；北京大学和微软亚洲研究院研究团队提出了一种新的硬感知深度级联嵌入方法来考虑硬水平的样本；……1.计算机视觉技术传统翻译采用人工查词的方式，不但耗时长，而且错误率高。图像识别技术(OCR)的出现大大提升了翻译的效率和准确度，用户通过简单的拍照、截图或划线就能得到准确的翻译结果。翻译计算机视觉还有助于比赛和策略分析、球员表现和评级，以及跟踪体育节目中品牌赞助的可见性。体育赛事半自动联合收割机可以利用人工智能和计算机视觉来分析粮食品质，并找出农业机械穿过作物的昀佳路径。另外也可用来识别杂草和作物，有效减少除草剂的使用量。农业计算机视觉也可以帮助制造商更安全、更智能、更有效地运行，比如预测性维护设备故障，对包装和产品质量进行监控，并通过计算机视觉减少不合格产品。制造业自动驾驶汽车需要计算机视觉。特斯拉(Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪(Audi)等汽车制造商Y已经通过摄像头、激光雷达、雷达和超声波传感器从环境中获取图像，研发自动驾驶汽车来探测目标、车道标志和交通信号，从而安全驾驶。交通中国在使用人脸识别技术方面无疑处于领先地位，这项技术被广泛应用于警察工作、支付识别、机场安检，甚至在北京天坛公园分发厕纸、防止厕纸被盗，以及其他许多应用。安防由于90％的医疗数据都是基于图像的，因此医学中的计算机视觉有很多用途。比如启用新的医疗诊断方法，分析X射线，乳房X光检查，监测患者等。医疗计算机视觉技术的典型应用案例2.自然语言处理技术自然语言处理（NaturalLanguageProcessing）是一门通过建立形式化的计算模型来分析、理解和处理自然语言的学科，也是一门横跨语言学、计算机科学、数学等领域的交叉学科。自然语言处理，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说，自然语言处理就是要计算机理解自然语言，自然语言处理机制涉及两个流程，包括自然语言理解和自然语言生成，自然语言理解是让计算机把输入的语言变成有意思的符号和关系，然后根据目的再处理；自然语言生成则是把计算机数据转化为自然语言。实现人机间的信息交流，是人工智能界、计算机科学和语言学界所共同关注的重要问题。从2008年到现在，在图像识别和语音识别领域的成果激励下，人们也逐渐开始引入深度学习来做自然语言处理研究，由昀初的词向量到2013年word2vec，将深度学习与自然语言处理的结合推向了高潮，并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络，从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好，设计并训练一个神经网络，即可执行预想的任务。RNN已经是自然语言护理昀常用的方法之一，GRU、LSTM等模型相继引发了一轮又一轮的热潮。自然语言处理技术的技术层次自然语言处理技术的发展历程语音分析词法分析句法分析语用分析语义分析20世纪70年代•理性主义方法•基于统计的方法20世纪50年代•图灵测试•经验主义方法•基于规则的方法2008•深度学习未来2.自然语言处理技术自然语言处理的研究可以分为基础性研究和应用性研究两部分，语音和文本是两类研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域，相对应的技术有消除歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域，例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早，且基础理论研究是任何应用的理论基础，所以语法、句法、语义分析等基础性研究历来是研究的重点，而且随着互联网网络技术的发展，智能检索类研究近年来也逐渐升温。近年来，计算机视觉在产业界和学术界不断取得突破，取得代表性成果的组织有谷歌、阿里、百度、搜狗、科大讯飞等公司，清华大学、Allen人工智能研究所等高校/研究所以及其他多种类型的组织或个人。谷歌科大讯飞2018年谷歌AI团队发布BERT模型，该模型是2018年昀火的自然语言处理模型，在模型开源后的短短几个月时间里，已经有学者表示BERT为人工智能的发展带来了里程碑式的意义。2019年6月，CMU与谷歌大脑提出新的NLP训练模型XLNet，该模型在SQuAD、GLUE、RACE等20个任务上全面超越了BERT。科大讯飞早在2016年就推出了全新的深度全序列卷积神经网络(DFCNN)语音识别框架，该框架的表现比学术界和工业界昀好的双向RNN语音识别系统识别率提升了15%以上。2019年，讯飞输入法的语音识别准确率已达到了98%，并采用记忆增强的全端到端语音识别模型，开启语音输入“免切换”时代，即中英、粤语和普通话以及离线与在线语音之间不切换直接输入。2019年，百度、搜狗的语音识别的准确率已达到了97%。搜狗更是在2017年底就推出了“黑科技”唇语识别技术，当时针对日常用语的识别就可以达到50%~60%的准确率，针对命令词的识别可达到85%~90%，较早地做了唇语识别的技术储备。阿里阿里巴巴人工智能实验室推出的天猫精灵是目前全球唯一通过语音识别技术实现声纹购物功能的人工智能产品。2019年前三季度，天猫精灵AI智能音箱销量超1047万台，销量排名在国内第1、世界第3，是全球昀大的中文人工智能音箱。百度、搜狗Allen研究所清华大学清华大学自然语言处理小组开发出THUMT神经机器翻译开源工具包。THUMT在Theano上层实现了标准的基于注意的编码器-解码器框架，并且支持三种训练标准：昀大似然估计、昀小风险训练和半监督训练。它的特点是有一个可视化工具，演示神经网络和语境单词隐藏态间的关联，从而帮助分析NMT的内部工作机制。在中英数据集上的实验显示THUMT使用昀小风险训练极大的超越了GroundHog的表现，它也是NMT的一个顶尖工具包。Allen人工智能研究所于2018年年初提出了ELMo（EmbeddingsfromLanguageModels）模型，提供了从深度双向语言模型(biLM)中学习的单词嵌入思路。该模型主要在大型文本语料库上进行预训练，从而使迁移学习和这些嵌入能够在跨越不同的NLP任务。2018年12月，Facebook开源了自己的NLP建模框架PyText，每天处理超10亿个NLP任务。Facebook更多……3.跨媒体分析推理技术以往的媒体信息处理模型往往只针对某种单一形式的媒体数据进行推理分析，比如图像识别、语音识别、文本识别等，