第5单元数据分析与人工智能博山实验中学电教中心制作第5单元数据分析与人工智能让机器具有智能,是人类千百年来的梦想。计算机技术的飞速发展,为人类的这一梦想插上了翅膀。特别是在当前的信息时代,遍布生活各个角落的海量数据积累,使人工智能技术及其应用得到了迅速的发展,并广泛地渗透进我们的生活。每一天,你都置身其中。当你打开手机或电脑,新闻客户端推送的是高度个性化的新闻,地图软件提供的是更便捷的行车路线,天气软件给出了友好的生活指数建......计算机技术为什么能够实现“智能”?大数据在其中又发挥了怎样的作用?在本单元中,我们将以若干典型应用为例,了解数据分析的常用方法,知道人工智能的概念及应用领域,体验数据分析和人工智能,感受大数据和人工智能给人类生活带来的深刻变化。人工智能的迅速发展将深刻改变人类社会生活、改变世界。《国务院关于印发新一代人工智能发展规划》的通知》(国发[2017]35号)5.1走进数据分析信息时代的日常生活中,碎片化的数据不断产生,它们往往杂乱而无序,仿佛并没有太大的价值。数据分析就是对数据进行计算、处理,从而得出一些有意义的结论的技术。了解数据分析并具备一定的数据分析能力,是大数据时代对我们的基本要求。在本节中,我们将结合实例,通过对比分析和平均分析的实际操作,形成对数据分析的认识,并在此基础上,初步接触大数据的概念、特点和工作机制,感受大数据应用的魅力。学习目标★了解数据分析的几种常用方法。★体验对比分析和平均分析的一般分析过程。★了解大数据的含义,认识大数据分析在信息社会的重要作用。走进数据分析随着我国经济的快速发展和城市化进程的加快,城市人口和机动车辆日益增多,城市交通拥堵现象日益严重。科学地发展和管理公共交通是解决问题的有效途径之一。例如,如何合理安排公交车辆的发车频率,方便乘车人选择交通线路等,都可以通过数据分析来实现。本节我们将围绕“感受智能公交”项目展开学习。同学们将通过该项目的活动,了解数据分析的几种常用方法,感受数据分析的一般过程,体验大数据应用给生活带来的便利。本项目主要包含“体验公交出行”和“体验实时公交”两个任务。任务一体验公交出行※活动1分析公交高峰期某同学每天7:00乘坐27路车去学校,17:00左右放学回家。他觉得每天往返途中,公交车上并不拥挤。而妈妈每天8:00乘坐49路车出发,18:00下班。她总是抱怨乘车者太多。请尝试进行数据分析。步骤一,依据活动1要求,提出假设:步骤二,27路和49路公交线路的月平均分时段客流量如表5.1.1所示,表中“6”表示时段6:00——7:00,其他以此类推。请对比分析表中数据。结论步骤一:可以提出多种假设,例如:(1)假设27路公交车7:00平均客流量小于49路公交车8:00平均客流量、27路公交车17:00平均客流量小于49路公交车18:00平均客流量;(2)27路公交车平均客流量小于49路公交车;(3)27路公交车在上下班高峰期平均客流量小于49路公交车。步骤三:由于假设不同,结论也可能不同。例如:(1)27路公交车7:00平均客流量120人次小于49路公交车8:00平均客流量211人次、27路公交车17:00平均客流量120人次小于49路公交车18:00平均客流量123人次。假设成立。(2)27路公交车在6:00-19:00平均客流量小于49路公交车,因此假设不完全准确。(3)如何界定上下班高峰期,假设中必须加以说明,然后才能得出相应结论。●数据分析的方法数据分析主要用于现状分析、原因分析和预测分析。进行数据分析时,首先要根据分析的目标提出假设,然后选择恰当的分析方法进行分析,验证假设是否正确,继而得出相应的结论。数据分析的方法有很多,如对比分析和平均分析。●对比分析对比分析是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物的发展变化情况和规律。对比有横向对比和纵向对比两种情况。横向对比是在类似的或同类的事物之间进行比较,而纵向对比是将相同事物的不同时期进行比较。例如,我们可以横向比较27路和49路公交线路的客流量,以分析哪一条线路更加繁忙;也可以纵向比较同一条公交线路一天内不同时段的客流量,分析高峰期出现的时间。●平均分析平均分析是指运用计算平均值的方法反映总体在一定时间、地点条件下某一数量特征的一般水平。平均分析和对比分析常结合使用,例如比较不同线路的平均客流量。●数据可视化表达以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等的表达方式称为数据可视化表达。数据可视化的应用范围广泛,如图5.1.1所示的第五届世界互联网大会关键词云和图5.1.2所示的手机记录的健身数据。健身记录步数图表是最常用的数据可视化表达方式之一。基本图表类型,如柱状图、饼图和折线图等,利用一般的表格加工软件即可绘制。如需创建表现形式更为丰富或者具有互动功能的图表,则必须借助专业性工具。27路与29路公交路线客流量图绘制如图5.1.3所示的折线图,进一步验证假设,并分析两条公交线路的高峰期出现时间和特点。●数据分析报告数据分析报告是项目研究结果的展示,也是数据分析结论的有效承载形式。通过报告不仅把数据分析的起因、过程、结果及建议完整地展现出来,还可以为决策者提供科学、严谨的决策依据。例如,中国互联网络信息中心每半年发布一次的《中国互联网络发展状况统计报告》即是一份典型的反映我国互联网发展的数据分析报告。在数据分析报告中,首先要明确数据分析的目的和背景,阐述目前存在的问题及通过分析希望解决的问题;其次需要描述数据来源和数据分析的思路、方法和模型;最后要重点呈现数据分析的过程、结论和建议。信息时代的社会生活中,每天都在产生大量的数据,这些数据也在改变着我们的生活。让我们一起来感受数据给出行带来的变化。任务二体验实时公交※活动1我在哪里假如来到一个陌生的地方,需要知道自己所处的具体位置,手机里的地图软件可以很方便地帮助你定位、计算并推荐去目的地的路线。打开地图软件,屏幕上的蓝色标记就是使用者所处的位置,如图5.1.4所示。●大数据大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,它正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据的“大”是一个相对概念,没有具体标准,如果一定要定一个标准,那么10TB~100TB通常称为大数据的门槛。实际应用中,很多企业级用户把多个数据集放在一起,已经形成了PB级的数据量。而且随着数据来源的多样化,数据的类型也更加复杂,如网络日志、音频、视频、图片和地理位置信息等。大数据的意义在于,我们有可能从如此庞杂的数据中挖掘出有价值的数据,并运用于管理、农业、金融、医疗和教育等各个社会领域,为社会发展服务。1TB=1024GB1PB=1024TB●大数据分析的应用面对海量的数据,为了搜索、处理、分析、归纳和总结其深层次的规律,大数据分析应运而生。大数据分析是指对规模巨大的数据进行分析。它的应用日益丰富,例如实时公交系统根据用户当前位置,迅速定位最近的公交站点,查找系统中公交车辆的位置数据,选出经过该站点所有线路车辆的即将到站信息,使用户可以直观地在手机上查看车辆实时位置。用户和车辆的位置信息通常通过卫星定位系统、Wi-Fi热点和基站的位置确定。大数据分析带来价值的同时,也在隐私保护、安全问题等方面带来危机。因此,合理、健康地使用大数据遵循“数据道德”是我们的必备品质。5.2探秘人工智能人工智能作为国际竞争的新焦点,是引领未来的战略性技术,世界主要发达国家把发展人工智能作为提升国家竞争力、维护国家安全的重大战略。谁能引领人工智能,谁就掌控了人类的未来!在本节中,我们将通过对人工智能典型案例的剖析,了解智能信息处理的巨大进步和应用潜力,认识人工智能在信息社会中的重要作用。学习目标★了解人工智能技术的相关概念与应用领域。★了解人工智能技术发展的新趋势。★认识人工智能在信息社会中的重要作用。任务一认识人工智能新闻业正在智能化,医学正在智能化,甚至法律也正在智能化。在科技进步的竞赛中,我们听到了人工智能飞奔的声音。它可以诊断癌症,创造艺术,在很短的时间里从最复杂的游戏中“学会”并挑战人类三千年传承的战略。本节我们将围绕“人工智能科普营”项目揭开人工智能的“隐身衣”,了解其核心技术及价值。本项目主要包含“认识人工智能和“揭秘智能算法”两个任务。任务一认识人工智能“阿尔法围棋”的横空出世激发了全社会研究的热情。恰逢学校“人工智能科普营”活动,请你作为志愿者参与其中,协助搜集信息,并为活动出谋划策。※活动1探问最强大脑回顾人类智能与人工智能的几次对战,可以感受到人工智能技术飞速发展。人机对战历史●启发式搜索根据问题的实际,不断寻找可利用的知识,构造一条推理路线解决问题,这个过程就是搜索。按预定的控制策略进行搜索,而不考虑问题本身特性的搜索,称为盲目搜索,这种搜索一般适用于求解比较简单的问题。另一种搜索方式称为启发式搜索,它在搜索过程中加入估价函数等启发信息,不断自动调整搜索方向,加速求解进程。以八数码问题为例,寻找从初始局面到目标局面移动方案的过程就是一次搜索,控制策略不同,搜索到的解决方案移动的步数也各不相同。某八数码问题的算法平台如图所示。八数码问题●人工智能1950年的“图灵测试”揭开了人工智能的序幕。一般而言,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境,获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。有人把人工智能分成弱人工智能和强人工智能。弱人工智能一般指实现特定功能的专用智能设备,不能真正实现推理和解决问题。强人工智能是指真正能思考、有知觉、有自我意识的人类级别的智能机器。任务二揭秘智能算法●机器学习机器学习是当前人工智能的核心技术之一,目的是使计算机能模拟或实现人类的学习行为,获取新的知识或技能,重新组织已有的知识结构,从而不断完善自身的性能。打开教科书配套资源中的“plane.exe”,体验智能飞机躲避导弹的过程,近距离地观察机器学习。程序开始时,首先繁殖一些懵懂的个体,如图5.2.4所示。正如仿达尔文进化论,它们在自我繁衍的过程中优胜劣汰,经过几百代之后,飞机就可以轻松地躲避导弹进攻,生存时间明显改观,如图5.2.5所示。人工智能、机器学习、深度学习●神经网络神经网络是目前人工智能领域的研究热点之一,是一种模仿动物神经网络行为特征,进行并行信息处理的算法模型。人工神经网络无须事先确定反映输人、输出之间映射关系的数学方程,它通过自身的训练,学习某种规则,最终在给定输入时得到最接近期望输出的结果。BP(BackPropagation)神经网络是目前应用最广泛的算法,它是一种按照误差逆向传播算法训练的多层前馈神经网络,其结构大致如图5.2.7所示。输入层——隐藏层——输出层算法由信息的正向传递与误差的反向传播两部分组成,它们由可修正的权值互连。在正向传播过程中,输入信息从输入层经隐藏层逐层计算传向输出层,当前层神经元的状态只影响下一层神经元的状态。如果输出层没有得到期望的输出,则计算输出层的误差变化值,然后转向反向传播,通过网络将误差信号沿原来的连接通路反传回来,修改各层神经元的权值直至达到期望目标。让我们搜索“好玩的神经网络”,通过简单实例进一步了解神经网络吧。神经网络结合信息感知、信息表示与形成、智能推理、智能决策、智能执行与信息输出的一般过程,人工智能领域的关键技术目前主要包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实与增强现实等。※活动2探寻强大后盾在研究各类人工智能软件时,我们经常抱怨“电脑太慢了!”“手机内存太小了”,我们总会感觉机器性能跟不上软件需求。智能算法对硬件的依赖到底有多大?人工智能的核心是算法,基础是数据,本质是