走进大数据时代大数据时代的机遇大数据时代的挑战一二三最早提出“大数据时代”是全球著名咨询公司麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”《纽约时报》2012年2月的一篇专栏中所称,“大数据时代”已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。1、舍恩伯格认为:当前,人类已进人大数据时代。国际数据公司的研究结果表明:2011年全球产生的数据量高达1.82ZB(1ZB=1024EB=1024^2PB=1024^3TB=2^30TB).[Mayer-SchonbergerV.,CukierK.BigData:arevolutionthatwilltransformhowwelive,work,andthink[M].Boston:HoughtonMiflinHarcourt,2013.2、2012年3月,奥巴马政府发布了“大数据研究和发展倡议”,拟投资2亿美元,启动“大数据发展计划”,以期在科学研究、环境、生物医学等领域利用大数据技术进行突破。3、2012年5月,联合国发表《大数据促发展:挑战与机遇》政务白皮书中,指出大数据对于世界各国是一个历史机遇,探讨如何利用包括社交网络在内的大数据资源造福人类。《大数据时代:生活、工作与思维的大变革》一书的作者维克托·迈尔·舍恩伯格,如是说,“如果个体的人,拒绝大数据时代,可能会失去生命;如果是一个国家,拒绝大数据时代,可能意味着失去这个国家的未来,失去一代人的未来。”1、什么是大数据?2、大数据有何特点3、大数据时代有何特征?目前,对大数据尚未形成公认的定义,不同的定义基本上是从特征出发,试图给大数据一个确切的阐释。维克托·舍恩伯格认为:大数据是互联网的延续,具有很多丰富的内涵。大数据的主要功能是用于预测,并且数据越大,预测越准确。相对于小数据时代,大数据时代数据的价值体现在反复使用,反复分析与运算之中。JeeK,KimGH.Potentialityofbigdatainthemedicalsector:focusonhowtoreshapethehealthcaresystem[J]lHealthc.Inform.Res.,2013,19(2):79—85.大数据(bigdata)是指由于容量太大和过于复杂,无法在一定时间内用常规软件对其内容进行抓取、管理、存储、检索、共享、传输和分析的数据集。大数据具有“4V”特征:(1)Volume;数据容量一般在1PB以上;(2)Variety;数据类型繁多,包括结构化、半结构化和非结构化;(3)Velocity;产生与更新速度快,时效性高;(4)Value;蕴含着新知识,以及极其重要的预测价值。大我们现在能够捕捉到的数据量越来越大。其实,并非数据量越大越好,而是我们能够捕获多少有用信息。乱我们总希望能够找准方向进行预测,但是在目前的大数据环境下,我们越来越摸不清方向。关联大数据之间必然存在着某种联系,这种关联,必将有助于我们去更好地进行预测。因此,在大数据面前,我们应尽量做到谦卑。1、智能终端的普及2、网络带宽的提升3、电子商务的狂热4、社交网络流行5、热点地区预测6、云计算的兴起7、物联网时代的到来全球流量累计达到1EB(即1024^2TB)的时间:一年(2001)一个月(2004)一周(2007)一天(2013)一天产生的信息量可刻满1.88亿张DVD光盘磁盘发明到现在已近60年,原来的数据存储和现在的数据存储有哪些不同?1987年,东芝发布了世界上第一个NAND闪存。从2005年到2014年间,MicroSD的容量提升了1000倍。10年1000倍。1956年,第一块硬盘容量只有5MB,体积比2个冰箱还大。2013年主力硬盘容量是4TB,大小只有3.5″。希捷预计,2020年,采用新技术的机械硬盘的容量将达60TB。1974年的机械硬盘容量只有200MB,重达10磅。而2013年一个东芝512GB的PCIeNAND闪存磁盘,只有一条内存大小。左边是1981年DEC的机械硬盘,用当时流行的14”的盘片制成。而右边是希捷的微硬盘,尺寸比1.8″还小,但容量大得多。我国网民数量居世界之首,每天产生的数据量也位于世界前列。序号类别数据大小1淘宝日数据产量5万GB数据存储量约4万TB2百度日搜索量约60亿次存储网页约1万亿页目前数据总量1万PB3道路电子眼(8Mbps)一小时数据产量约3.6GB中型城市每月数据产量约2.6万TB2013年,世界范围内大数据总产值保守估计为186亿美元,但广义的大数据应用几乎覆盖所有产业。据麦肯锡公司预测,开放数据仅在教育、保健等7个行业便释放3.2~5.4万亿美元的经济价值。天文学生物医学电子政务气候学企业管理教育学金融领域市场营销公共服务商业智能传媒业生活娱乐政治领域情报学社会学…………机械工程地理图书馆学一二三16华尔街“德温特资本市场”公司CEO保罗·霍廷每天的工作之一就是分析全球3.4亿微博账户的留言,根据结果再决定如何处理手中的股票。他的判断原则很简单:所有人似乎都高兴就买入;如果大家的焦虑情绪上升,那就抛售。截止2013年底阿里巴巴数据平台服务器上,已积攒超过100PB已处理的数据,相当于104857600个GB,包括交易、金融、SNS、地图、生活服务等多种数据类型,这相当于4万个西雅图中央图书馆,580亿本藏书。目前大数据在金融领域的研究与应用还处于初级阶段,但价值已经显现。未来,大数据可能成为最大的金融交易产品,成为金融领域的重要基础设施。5学习成绩1入学率2辍学率3识字的准确率5升学率4作业的正确率6考试时答题的顺序11师生互动的时长与频率回答问题的时长、正确率课堂举手次数回答问题的次数平均每道题花费的时间1278910学校教育中的“大数据”美国联邦政府教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划,旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元,用于理解学生在个性化层面是怎样学习的。加拿大教育科技公司Desire2Learn已经面向高等教育领域的学生推出了:基于过去学习成绩数据的预测,并得出如何改善未来学习成绩的大数据服务项目。通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验,就能让计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是只展示学生分数与作业的结果,而是更为详细的重要信息。通过大数据分析可以得到解答以下问题:一个学生成绩差是因为周围环境造成的吗?师生每节课互动的时长与频率各为多少,有助于学生吸收知识?期末考试不及格是否说明学生未掌握学习内容,还是因为他请了很多病假的缘故?入学成绩对升学率/辍学率有多大影响?……截止2014年1月,国内有2亿手机用户使用百度地图。用户每次位置变化,百度都能得到数据。基于LBS(基于地理位置的服务)平台把定位信息汇总成大数据进行分析,即勾勒出人们的迁徙轨迹。数据每8小时更新一次,囊括了全国铁路、公路和航空在内的线路。《爸爸去哪儿》大数据解读2013年11月,新华社新媒体中心联合数托邦创意分析工作室抓取了新浪微博上提及“爸爸去哪儿”45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系进行数据分析。结果发现:《爸爸去哪儿》不仅成为名副其实的“口碑王”,还使娱乐节目发生了很多微妙变化。赞助商潜在利益群体明星竞争者节目组观众《纸牌屋》是从3000万付费用户的数据中总结收视习惯、选择,仔细分析400万条评论、300万次主题搜索,并对用户喜好精准分析的基础上进行创作的。从受众洞察、受众定位、受众接触到受众转化,每一步都由精准细致高效经济的数据引导,从而实现大众创造的C2B,即由用户需求决定生产。2012年奥巴马的竞选团队对数以千万计的选民邮件进行数据挖掘,精确预测出更拥护奥巴马的选民类型,并进行了有针对性的宣传,从而帮助奥巴马成为了美国历史上唯一一位在竞选经费处于劣势下实现连任的总统。国双数据中心发布的《中国政府网站发展数据报告2012》中显示:政府网站用户的总体跳出率为63.33%,即有2/3左右的用户来到政府网站之后,仅访问一个页面就离开了网站。2013年10月,济南电子政务数据交换平台正式启用。该平台基于云计算理念,成功将工商、国税、质检、公安、社保等20多个部门数据共享。国税局与地税局通过数据比对,发现了25000条数据差异,落实纳税企业5000多户,补缴税款2700多万元。随着GB/T2818-2011《安全防范视频监控联网系统信息传输、交换、控制技术要求》于2012年6月1日正式生效,基于大数据的城市大联网平台建设已经成为未来几年智慧城市建设的首要任务。“智慧城市”基于物联网、云计算、大数据处理等技术,旨在构建一个可感知、可预测判断、可数据安全共享、可自动度量、调配的富有生命力的现代城市安全、卫生关系数据系统。“智慧城市”所具备的基本特征简称“4I”,表述如下:(1)Information(2)Intelligence(3)Innovation(4)Interaction业务应用层支撑平台层移动监控交通管控治安管理刑事侦查……CSS2000云存储平台IEC3.0计算资源虚拟化平台流媒体服务器智能分析服务器管理服务器海量视频分析服务器卡口管理服务器统一网管交互感知层传感装置高清摄像机半球摄像机无线摄像机一体机与编码器网络传输层金盾网监控专网广域网2013年两会期间,有代表提议将发展“大数据”上升为国家战略。大数据的发展,将极大地改变政府的管理模式,有利于节约政府投资、加强市场监管能力、提高政府决策能力、提升公共服务能力,实现区域化管理。大数据背景下,我国电子政务创新模式的转变:1、关注焦点——从信息向原始数据转变;2、数据增值——从信息公布到数据开放转变;3、协同方式——从部门信息独立到部门间数据共享。大数据时代,政治领域的终极目标是:开放数据——智慧政府。2008年,谷歌利用从各国卫生组织获取的数据,制作出一款“全球流感地图”,用于预测世界各地爆发流感疫情的可能性,指导游客安全出行。两年后,H1N1病毒肆虐全球,谷歌的“全球流感地图”成功派上用场,准确预测出患病高发地区,有效地指导人们进行预防。SimonI.Hay,DylanB.George,CatherineL.Moyes,JohnS.Brownstein.BigDataOpportunitiesforGlobalInfectiousDiseaseSurveillance.PlosOne.2013.Vol.10(4):e1001413-16.随着大数据时代的到来,医疗卫生数据领域智能化管理成为时代需要。所谓智能化管理,即为感知、互联、大数据诊断与分析、优质医疗卫生资源共享。这种管理主要基于多种数据结构集成与交互,通过大数据存储、云计算、远程通信等手段,对医院内部数据进行整合,并与国家医疗数据平台进行数据交换,最大程度达到数据共享。这将极大地推动医学与公共卫生事业的发展。医院信息平台临床文档存储电子病历外科学HMIS医院管理系统医院管理系统医院管理系统……医院管理系统核医学标准外部接口RIS/PACS检验LIS病理麻醉手术科内科学医校智能化专家系统ICU/CCU国家医疗信息数据平台大数据对传统医疗卫生领域的影响如下:(1)大数据提高了全球疾病监控的效率;(2)大数据分析加快医学数据从概念走向价值,成为智慧健康的基础;(3)大数据推进个体化医疗的发展;(4)大数据对临床病理产生重大影响;(5)大数据呼唤多学科融合的创新性IT人才。ChawlaNV,DavisDA.Bringbigdatatopersonalizedhealthcare:apatient-centeredframework[J].JGenInternMed,2013,28Suppl3:s660-665.李静,顾