2018/5/131大数据、人工智能与工业互联网清华大学自动化系范玉顺2018年提纲大数据人工智能工业互联网2018/5/132大数据大数据的产生背景大数据的特征与思维转变大数据产业及应用34数据增长的速度保险公司美国航空联邦快递花旗银行沃尔玛谷歌脸谱网站2018/5/133信息技术的发展催生大数据热基础:计算机存储、计算能力的提升,数据存储成本下降1955年,1MB的存储器,6000美元1993年,1MB的存储器,1美元2010年,1MB的存储器,1美分大数据的来源1.交易数据,包括电子商务2.移动互联、社交网络3.物联网感知数据:海洋、天气、工业设备监控、物流跟踪4.政府开放数据离散制造业政府传媒业流程制造业银行业医疗业投资证券业专业服务业零售业教育业保险业交通业批发业共用事业服务资源行业消费娱乐业建筑业美国各行业数据存储量(PB)96684871569461943442936441126924322720219411610651沃尔玛2010数据库的大小为2500TB,大约2PB1.交易数据电子商务产生更大数据:淘宝现在的数据量大约20PB,每月会增加1.5PB。2018/5/134Google从单纯的搜索引擎公司发展为目前包括blog、Email、网络分析、新闻、问答、数字图书、日历、SaaS、云计算、地图、广告、阅读、图片、视频等数十种服务的综合IoS服务提供商;搜索:至少拥有10亿用户;在线视频:每月5亿的访问量;博客:4亿读者;Gmail:2亿用户;Android:智能手机OS的25%市场份额;Chrome:17%的市场份额。7Facebook14亿:注册用户100亿:分享的内容条数45亿:“赞”的数量,3.5亿:上传照片数600+TB:新产生的数据105TB:每半小时通过Hive扫描的数据300+PB:数据容量1.网络用户数据30亿互联网用户6.34亿个网站12000亿次谷歌搜索(2012年)14亿位Facebook用户2亿位Twitter用户2亿位LinkedIn用户1.35亿位Google+活跃用户2.社交媒体交互数据2012年共发布了1.75亿条Tweet信息全球90%的数据产生于过去两年3.移动端和影像20亿智能手机用户50亿手机用户2.社交网络由于传感器大规模全方位的布网和高速高精度传感器的使用,物联网将产生海量的数据。截至2010年,全球RFID数量已经超过了300亿个。一个大型城市电力物联网每天产生的数据可达TB级,一个大型城市交通物联网每天产生的数据可达10TB。各种记录、通信和可穿戴设备。智能手环谷歌眼镜智能手机行车记录仪3.物联网感知数据2018/5/135Source:SiemensAG.2013.每台燃机24小时运行信息约2TB产品使用服务过程中的技术状态管理监测变量数目5000个/每秒计算1000个以上的中间模型实时诊断故障,优化运行状态减少故障、提高效率、降低废气排放4.政府开放数据10,截止到2017年3月,data.gov平台上已经包含了20万个数据集,这些数据集涵盖了农业、天气、教育、能源、制造等近50个公共管理和生活领域。2018/5/136美国人的时间花费、小时工资、劳动力统计和失业人数统计11经济与人口2000年,新产生的数据1000PB2010年,全球企业新存储的数据超过7000PB。JimGray提出“新摩尔定律”大数据的意义是人类可以分析和使用的数据大大增加,通过对这些数据的交换、整合和分析,人类可以发现新的知识、创造新的价值,带来“大知识”、“大科学”、“大利润”和“大发展”。麦肯锡2011年报告:大数据,将成为全世界下一个创新、竞争和生产率提高的前沿。12JimGray,计算机领域图灵奖获得者,1944年出生,1998年提出新摩尔定律,2007年1月28号迷失在大海中…..2018/5/137大数据大数据的产生背景大数据的特征与思维转变大数据产业及应用13大数据的组成海量交易数据企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括海量交易数据集和交互数据集在内的所有数据海量交互数据源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在硬件群中运行的ApacheHadoop。大数据=(海量+类型复杂)的数据2018/5/138大数据的特征1(量大)价值密度(Veracity)数据类型(Variety)处理速度(Velocity)数据规模(Volume)大数据BigData政府以及企业数据的开放使得社会获取传统的海量数据成为可能,而互联网、智能终端的发展则以前所未有的速度为人类数据库不断增加着新的数据。大存储量大计算量在数据产生的地区分布方面,新兴经济体(如中国、印度等)将产生并持有越来越多的数据。到了2012年,新兴市场的数据份额达到36%,在2020年这一比例将会达到62%,其中我国所占比例将达到21%。谷歌每天处理的搜索量超过30亿次,每秒响应3.4万次搜索。大数据的特征2(种类多)价值密度(Veracity)数据类型(Variety)处理速度(Velocity)数据规模(Volume)大数据BigData16数据来源多数据格式多结构化数据半结构化数据非结构化数据•互联网企业:SNS、微博、视频网站、电子商务网站。•物联网、移动设备、终端中的商品、个人位置、传感器采集的数据。•联通、移动、电信等通信和互联网运营商。•天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等。•社会组织各部门统计数据,如人口抽样调查、交通数据、卫生统计数据等。传统数据库所处理的数据,即存储在数据表中的行数据。不能直接用数据库中的二维逻辑表来表现的数据,它包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等。是结构化的数据,但是不同数据的字段和数据长度差异很大。2018/5/139大数据的特征3-价值密度低价值密度(Veracity)数据类型(Variety)处理速度(Velocity)数据规模(Volume)大数据BigData17数据良莠不齐,价值密度低,但是通过挖掘可以从数据中可以获得大量的价值•在《爆发》一书中,复杂网络研究领域的权威巴拉巴斯指出,人类的活动是有迹可循的,其中93%的人类行为都是可以预测的。•一旦掌握了足够多的历史信息,就可以从其中得到规律,并对未来即将发生事件进行准确的预判。而大数据的出现无疑是给了人们一把打开未来之锁的钥匙。•通过收集、分析海量数据,并快速地从数据模型中分析未来的趋势,人们可以提前实现对未来的预判或是准备。大数据的特征4-处理速度快价值密度(Veracity)数据类型(Variety)处理速度(Velocity)数据规模(Volume)大数据BigData18购物推荐网络搜索在实际的应用中,从数据的采集到运算分析得到结果之间的时间要求可能是秒、甚至是毫秒级的。股票交易、应急救援、基于地理位置的服务(LBS)对搜索的时间要求•如果网页加载时间超过4秒,25%的用户会放弃该网页•如果网页加载时间超过10秒,50%的用户会放弃该网页抓住用户冲动购物的瞬间提供货品推荐2018/5/1310大数据所带来的思维转变1-从抽样样本到全体数据19大数据技术的发展使我们能够掌控全局的数据,可以更多地关注数据中的细微异常,从而发现原本因为采样而被忽略的重要结论。随机采样的有效性依赖于采样的随机性,然而采样的完全随机性是难以保证的,这些偏差就在最终的分析结果中得到体现。例如,在2008年美国大选的民调中,几家大型的咨询公司就发现,如果没有在抽样时将只使用移动电话的用户进行单独考虑,就会导致最终的准确度发生3个点的偏差,而如果将这些用户考虑进来,就可以将偏差缩小到1个点。大数据所带来的思维转变2-从因果关系到相关关系与因果关系不同,相关关系并不关注和回答“为什么”,它只需要能够通过相关性确认变量之间的关联,并用来进行数据的预测。在掌握了海量数据的情况下寻找相关关系的实现难度明显小于因果关系。整个亚马逊网站的销售额中,有近三分之一来自于“item-to-item”推荐系统根据用户购书记录进行的推荐,但是亚马逊并不关注用户为何对某本书感兴趣。社交网站情绪指数与股价走势美国印第安纳大学的约翰•博伦“我们发现,预测道琼斯指数每日收盘涨跌的准确度高达87.6%。”2018/5/1311算法玩笑2011年4月8日,加州大学伯克利分校的迈克尔.艾登登陆亚马逊网站买一本书“TheMakingofaFly”,书中介绍苍蝇是如何从一个单细胞成长为一只嗡嗡响的飞虫。亚马逊的2个商家的价格分别为1,730,045美元,2,198,177美元,第二天,价格为2,194,443美元,2,788,233美元,4月18日,价格23,698,655美元,4月19日价格下降到106美元。第1家书店把书价定位第2家的0.9983倍,第2家把书价定为第1家的1.270589倍,机器自动定价。0.9983*1.270589=1.2684289987121思维转变3-从锱铢必较到良莠不齐按照美国相关规定,公共卫生部门需要随时对流感疫情进行监控、统计疫情状况,然而由于大部分患者都是在患病长时间后才会向医院寻求帮助,导致卫生部门的统计信息可能存在一定的延迟。在对搜索引擎上的用户检索词条和流感爆发数据进行对比分析时,谷歌公司的工程师们惊奇地发现,在流感疫情爆发的前期,搜索引擎上用户搜索的词条会发生变化,而这些变化可以帮助卫生部门更好地预测流感疫情。22科学家们通过对频繁检索词条和美国疾控中心2003年至2008年季节性流感传播时期的数据进行了对比分析,最终发现了45条检索词条的组合,使用这些词条进行流感发病预测的准确率高达97%。这个研究成果发表于2009年2月的《自然》杂志上,如今来自全球的用户都可以在谷歌流感趋势网站上查看当前全球流感分布图,以了解世界上大部分国家的流感疫情。在2009年甲型H1N1流感爆发时,谷歌流感预测为卫生部门提供了更加及时准确的疫情信息,为疫情的防控立下了汗马功劳。反恐大数据兴起源于911事件恐怖分子的监控失败恐怖分子监控失败唯一原因——缺乏信息的关联分析19个恐怖分子中的6个在中央情报局(CIA)的监控名单上16个人获得美国的签证(旅游,学生,工作)最起码有4个人有驾驶执照;所有人都有社会保险号码(SSN)关键人物使用真名租车,购买飞机票,等等州法律执行机构和其他联邦特工不知道他们在哪里,甚至也不知道有渠道可以监控他们信息全部都可获得,但是没有分析,没有共享思维转变4-从单一数据集到多类型数据集的关联分析关联分析应用案例Facebook最近委托的一项研究指出,如果要判断某人的性格和性情,Facebook网算法会比这个人的朋友、父母或配偶更为准确。这项研究共有86220名志愿者参与。他们每个人都有个人的Facebook网账号,并且填写了有上百题的人格调查问卷。Facebook算法会根据被测者平常在Facebook网上对网页、图片、影片等点赞的记录,预测这些志愿者的回答。过去点赞的次数越多,预测的准确度就越高。接着,再把算法预测的结果与参与者的同事、朋友、家人和朋友的预测进行比较。只需要过去点赞次数超过10次,算法预测准确度就可以高于同事;70个赞,预测准确度就会高于朋友;150个赞,准确度高