大数据(bigdata)什么是大数据?具有4V特性的数据:Volume(巨大的数据量):Variety(数据类型多):文本/图片/视频等非结构化/半结构化数据Velocity(处理速度快):要求系统在短时间内做出反应Value(价值密度低):单条数据无价值,无用数据多,综合价值大3亿用户,每天上亿条微博.巡天望远镜,已收集140兆兆字节数据2015年全球移动终端产生的数据量6300PB案例两年半前海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。作为特指的大数据,其中的“大”是指大型数据集,一般在10TB规模左右;多用户把多个数据集放在一起,形成PB级的数据量;同时这些数据来自多种数据源,以实时、迭代的方式来实现。与以往数据处理的区别?数据量极大,增大了数据处理的难度的同时,庞大数据量所蕴含的价值也极大数据种类多样,更加个性化,针对不同来源的数据以多样化的方式处理,结果更精确.要求及时对数据进行处理并得到结果,更完善的用户体验.数据成为新的资源,掌握有数据就掌握了巨大的财富.指数型增长的海量数据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。技术演进历史揭示未来是大数据驱动的智慧型经济模式大数据崛起分析大量数据并非是新鲜事物,但近年才有革命性的变化:网络使用人数逐年递增硬件成本指数型递减数据生成速度加快存储成本指数下降云端数据扩增企业非结构化数据量飞速增长流动数据大量增加企业可用数据资源增大大数据崛起大数据崛起大数据崛起数据生成速度加快流动数据大量增加存储成本指数下降企业可用数据资源增大处理速度指数增长大数据实际上是对更广泛数据的数据挖掘,以前因为成本、处理速度、数据量不足等问题无法处理,随着软硬件的发展,这些问题如今已不是难以跨越的鸿沟!大数据发展脉络经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。用途?以上介绍的互联网上的数据看起来数量庞大却用处寥寥,但事实上,只要处理好这些数据,就能给商家带来巨大的利益。举一个简单的例子:商家消费意向•通过网页浏览记录•通过人人、微博等消费水平•通过淘宝等消费记录•通过社交平台信息消费位置•通过手机软件定位客户针对性地给客户提供广告与优惠信息消费服务雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能Google精确掌握用户行为、获取需求政治经济监控手机的使用状况和账单的缴付模式如果数据突然发生变化,那可能预示着经济困境正在加剧国情调控对Twitter和Facebook等社交媒体网站的数据筛查若社交媒体提及粮食或种族冲突,那可能预示爆发了饥荒或者国内骚乱医疗保卫社交媒体上提到某地区受到感染,是对疫情流行的有效早期预警大数据的意义----为每位用户量身打造用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,比用户自己更了解用户,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。大数据与云计算大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式大数据----现状2012年各行业大数据市场规模2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模将达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。大数据----国外已经投资应用美国国务院采用大数据技术开发新的美国护照系统。IBM宣布投资1亿美元用于大数据研究;美国IT公司开始意识到大数据技术能够为公司创造价值;大数据公司引入汽车行业高管人员扩展营销业务;EMCEMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。EMC的大数据解决方案包括40多个产品。•2010年7月收购数据库软件供应商Greenplum,花费3亿美元•2009年七月收购数据复制解决方案提供商DataDomain,花费24亿美元•不一定和大数据完全相关,EMC从2009年起收购了ArcherTechnologies,SourceLabs,FastScaleTechnology,Configuresoft,andVaronisSystems。IBMIBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析在过去四年中,IBM已经投入超过120亿美元进行了23项相关并购,其中包括:•2010年9月收购数据库分析供应商Netezza公司,花费17亿美元•2010年10月收购网络分析软件供应商Coremetrics•2009年10月收购数据分析和统计软件提供商SPSS,花费12亿美元•2009年1月收购业务规则管理软件供应商ILOG,花费3亿4千万美元•2007年花费20亿美元收购商务智能软件供应商Cognos微软微软提供了高性能计算能力,并在2005年靠WindowsComputeCluster服务器进入相关市场最近,微软的HPC部门开发了该公司的Dryad并行处理技术社区技术预览(CTP),第一步是向WindowsHPCServer的用户提供处理大数据工具甲骨文甲骨文大数据提供的数据库和数据库软件主要用于配合Sun的硬件,特别是它的最高端服务•2009年7月收购专注于数据复制和实时数据集成解决方案的私人企业GoldenGateSoftwareIBM/Oracle/EMC/Microsoft角力大数据大数据中国市场----雷声大雨点小中国的大数据领域到底有多少活跃迹象?除了没完没了的研讨会,还有各类公司“宣称”进军大数据领域的决心,似乎无实际之进展。中国的大数据正在呈现这样的状态:投资人最活跃,技术和服务供应商最热心,数字媒体调门最高,而品牌企业最迷惑。不是没有业务需求,而是需求还是不可实现的!事实上,大数据在中国远没有落地,目前很多问题没有解决。大数据----问题数据的爆炸式增长为全球各行业均带来了管理上的问题。•例如,在电信行业的呼叫数据记录管理、金融行业的交易数据和客户资料管理、零售行业的供应链管理以及制造行业的业务绩效管理等等。对于企业用户来说,大数据的来临也无形中增加了他们所需承担的责任以及成本。企业必须保持这些数据在很长一段时间内的可用性,并满足这些庞大数据量在存储方面的需求。这就导致了企业需要采购和维护所需的硬件设备,并且还要不断的进行监督与管理。大数据处理要求对大数据进行实时分析.•现今的分析仅局限在企业的现有数据库还不够,还需要保持数据与当前社会乃至全球的相关性。这意味着企业需要从社交媒体、地理位置、CRM系统、政府的公开数据、手机信息等非专有的渠道获取数据,进行额外的分析。对于实时分析来说,当前的移动应用潜力也才刚刚开始出现,其移动分析或将比预期的影响更加深远。大数据是否侵犯了用户隐私?•用户面对“不搜即得”的结果是否会有被窥视的感觉?如何消除这种感觉?大数据前景----互联网互联网行业拥抱大数据的关键因素网络终端设备•网络技术的升级和终端设备的爆发,使今天的用户能够使用多种设备、从不同位置、通过多种手段来接入互联网,并在这一过程中不断创造新内容在线应用和服务•越来越丰富的在线应用和服务,不断激励用户创造和分享信息,尤其是社会化媒体业务,带动图片、视频等非结构化数据飞速增长与各垂直行业的融合•互联网作为一个高渗透力的行业,正在与各垂直行业发生深度的融合,原本隐藏于先下的孤岛信息,源源不断的输入到线上。互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。互联网行业大数据分析面临的主要问题互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。医疗行业产生的数据量主要来自于PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像的数据文件大小不一,PACS网络存储和传输要采取不同策略。面对大数据,医疗行业遇到前所未有的挑战和机遇。医疗行业大数据应用场景非常多,右图仅以临床操作和研发为例,展示医疗行业大数据应用场景。对于公共卫生部门,可以通过过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。比较效果研究临床操作临床决策支持系统医疗数据透明度远程病人监控研发预测建模提高临床试验设计的统计工具和算法疾病模式的分析大数据前景----医疗大数据前景----能源能源行业数据特征能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。能源行业面临的大数据问题能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。大数据前景----小结应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)•纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;•横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;•注:该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数