王伟控制科学与工程学院2017年大数据与知识自动化努力主要内容一、什么是大数据二、大数据时代的思维变革三、大数据的应用四、大数据带来的负面作用五、大数据的发展前景六、大数据与知识自动化努力维克托迈尔舍恩伯格、肯尼思库克耶著,大数据时代,浙江人民出版社,2013年。维克托迈尔舍恩伯格,被誉为“大数据时代的预言家”、牛津大学网络学院教授肯尼思库克耶,《经济学人》数据编辑努力在这本书中,从小数据时代到大数据的崛起,作者以宏大的历史观、文化观、大数据观,给我们描绘了一幅数据科学、智慧文化的全景图。2012年其著作《大数据》在中国社会开大数据之先河,引发了大数据战略、数据治国和开放数据的讨论。涂子沛,江西吉安人,现居美国硅谷。作者本科毕业于华中科技大学计算机系,研究生毕业于中山大学和卡内基梅隆大学,获公共管理硕士和信息科学硕士学位。涂子沛,数据之巅:大数据革命,历史、现实与未来,中信出版社,2014年。努力努力在人类社会发展进程中,人们观测自然现象、揭示和把握自然规律并进而用于改善自身生存和生活状况的活动从来都没有停止过。人类揭示和运用自然规律是从观测和记录自然现象开始的,而这种观测和记录的结果要么就是数据,要么可以通过某种方法转化为数据。人类把握和运用自然规律的能力越强,社会经济和科学技术就越发展;社会经济和科学技术越发展,人类揭示和运用自然规律的愿望和需求就越强烈,结果是获取和存储的观测数据就会越来越多。伴随着近代传感器、无线通信、计算机与互联网等技术的迅猛发展及在各个领域的广泛应用,人类获取数据的手段和途径越来越多,成本越来越低,速度越来越快,所获数据的种类、层次和尺度也越来越多样化,这就在广度、深度和速度三个方面催生了大数据时代的到来。一、什么是大数据努力最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据作为云计算、物联网之后IT行业又一大颠覆性的技术革命。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。努力大数据将逐渐成为现代社会基础设施的一部分。就像公路、铁路、港口、水电、和通信网络一样不可或缺。而大数据同这些物理化的基础设施不同,不会因为人们的使用而折旧和贬值。世界的本质就是数据。因此大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。努力进入2012年,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。《纽约时报》2012年一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。努力大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)……2进制数据单位:Byte、KB(103)、MB(106)、GB(109)、TB(1012)、PB(1015)、EB(1018)、ZB(1021)、YB(1024)、DB(1027)、NB(1030)国际数据公司(IDC)的研究结果表明,2009年全球产生的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。预计到2020年,全世界所产生的数据规模将达到今天的44倍。大数据到底有多大努力大数据公司的现状Google公司通过大规模集群和MapReduce软件,每个月的数据量超过400PB。百度的数据量:数百PB,每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀。Facebook:截至2012年5月,拥有约9亿用户,是全球第一大社交网站,每月上传10亿照片,每天生成300TB日志数据淘宝网:截止2014年,淘宝网注册会员超5亿人每天有超过1.2亿的活跃用户,在线商品数达到10亿件,淘宝网和天猫平台的交易额总额超过了1.5万亿。每天交易数千万,产生约20TB数据。Yahoo的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB。努力中国产业调研网发布的2016-2022年中国大数据行业研究分析及发展趋势预测报告认为,云计算、物联网、智慧城市、移动互联等新技术与应用的不断涌现,加速了大数据时代的到来。统计数据显示,2015年国内大数据产业市场规模已达1105亿元。较2014年增长44.15%。其中,大数据基础设施建设、大数据软件和大数据应用分别占比64.53%、25.47%和10%。当前,大数据产业蓬勃发展,2015年全球大数据产业市场规模为1403亿美元,预计到2020年将达到10270亿美元。大数据行业的高速发展引起的巨大的数据存储需求,将给传统IT基础设施架构带来巨大压力,为带来很大的发展机会。到2020年,形成50个大数据产业示范园区,引进和培育100户大数据龙头企业,通过大数据带动相关产业规模达20万亿元。努力粗略地讲,大数据是指在可容忍的时间内无法用现有的信息技术和软硬件工具对其进行传输、存储、计算与应用等的数据集合。数据量大(Volume)数据量大。大数据的起始计量单位至少是TB。类型繁多(Variety)数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等,包括结构化、半结构化和非结构化数据,甚至包括非完整和错误数据。现代互联网上半结构化和非结构化数据所占比例已达95%以上。价值密度低(Value)数据价值密度相对较低。如随着物联网广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据价值“提纯”,是大数据时代亟待解决的难题。速度快时效高(Velocity)处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。大数据的4个特征(4V)努力1)多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。2)交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导至大量网络数据具有很强的交互性。3)时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。4)社会性:网络上用户根据自己的需要和喜好发布、回复或转发信息,因而网络数据成了对社会状态的直接反映。5)突发性:有些信息在传播过程中会在短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。6)高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。网络大数据的特点努力二、大数据时代的思维变革1.不是随机样本,而是全体数据更多分析与某事物相关的所有数据,而不是依靠分析少数的样本数据。以前许多结论都是由随机样本完成的,如:人口普查、电视节目收视率、美国大选的支持率等等随机样本仍然是一种有效的方法当数据处理技术已经发生翻天覆地的变化时,一切都改变了。我们需要的是所有的数据。样本=总体努力2.不是精确性,而是混杂性更杂执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从没涉足的世界的窗户。允许不精确大数据的简单算法比小数据的复杂算法更有效大数据不仅让我们不再期望精确性,也让我们无法实现精确性混杂性,不是竭力避免,而是标准途径不精确已经渗入到数据库这个不能容忍错误的领域,新的数据库的诞生-非关系数据库努力3.不是因果关系,而是相关关系更好知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非要知道现象背后的原因,而是要关注事物的相关关系。关联物,预测的关键“是什么”而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法努力《大数据时代》书中第一个例子:Google公司成功预报2009年美国甲型H1N1流感。在网络上收索特定的检索词,如“哪些是治疗咳嗽和发热的药物”。检测词条的使用频率、时间和空间的传播关系。共处理4.5亿个不同的模型。预测结果与官方数据相关性高达97%。而且,判断非常及时,比疾控中心早1-2周。Google、百度、搜狗等的搜索服务就是一个典型的大数据运用,根据客户的需求,实时从全球海量的数字资产中快速找出最可能的答案,呈现给你,就是一个典型的大数据服务。三、大数据的应用努力一个父亲有一个高中生女儿,接到一个促销婴儿用品的广告,父亲大怒,说商家无良。但过了两个星期,他知道女儿确实怀孕了。你在网上搜索一个物品或买一个商品,网络会记下你的需求,当你以后再浏览网页时,会自动向你推送一些相关产品。一个炒股的故事。这个故事来自于2011年好莱坞的一部高智商电影《永无止境》,讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。库珀是怎么炒股的呢?通过海量信息的挖掘、分析,使一切趋势都在眼前,结果在10天内他就赢得了200万美元,神奇表现让身边职业投资者目瞪口呆。努力微软研究院DavidRothschid与Office团队共同开发了一款Excel软件,用大数据来预测2013年奥斯卡奖,结果猜中了24个奖项中的19个。该网站还提供了2016年美国大选的预测结果,根据目前的数据,民主党的希拉里·克林顿有望成为美国历史上第一位女总统,几率为32%。雅虎与社交网站Tumblr及知名足球数据网站OPTA合作预测2016年欧洲杯战况。预测德国最终1:0战胜卫冕冠军西班牙。但实际上葡萄牙1:0战胜法国捧起德劳内杯。智能电表用电统计。供电公司能每隔15分钟就读一次用电数据,而不是过去的一月一次。这不仅仅节省了抄表的人工费用,而且由于能高频率快速采集分析用电数据(产生大数据),供电公司能根据用电高峰和低谷时段制定不同的电价,利用这种价格杠杆来平抑用电高峰和低谷的波动幅度。努力四、大数据带来的负面作用大数据与个人隐私科技本来就是一支双刃剑,关键是谁用和如何用。大数据也是一样。在微信、微博等社会大数据之下如何保护个人隐私的问题,我们的手机号码,个人信息已成为大数据的一分子。如何保护个人?如何防止有人利用大数据技术进行人身攻击。个人DNA信息,是个人隐私还是公众信息或者是科研素材虽然警方利用DNA信息在寻找杀人凶手的案件中屡建战功,但是,警方采集和利用DNA数据却可能伤害无辜大众的自由和隐私。努力人类丢失了遗忘的天性目前90%以上的信息为数字形式,让整个人类丢失了遗忘的天性,世界被设置成记忆模式,互联网记得你的一切,也就是说:记忆成了常态,而遗忘却变成了例外,个人隐私被侵犯的可能性也变大。谷歌一直为默默无闻记得大家许多