大数据(bigdata)靳鹏合肥工业大学,管理学院信管系大数据时代的来临意味着其将以PB级数据为对象,现在的Facebook和微软的Hotmail、Skydrive等各种服务所储存的数据目前预测都在300PB左右,而亚马逊旗下的S3服务中数据至少在900PB以上,而google这样的数据巨人,其所拥有的数据量超过EB级别。而这个数据数量仍然以几何倍数在增长,每年增幅约20-40%。信息技术、互联网和移动互联网技术的发展带来数据量级变化。大数据时代已经来临什么是大数据所谓“大数据”(bigdata)指的是这样一种现象:一个公司日常运营所生成和积累用户行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P(1000个T),E(一百万个T)或Z(10亿个T)为计量单位,所以称之为大数据。TBPBTGMZBCRMWEB市场细分服务细节顾客接触支持合同A/B测试自动定价搜索营销行为定位广告联盟网站日志历史记录用户生成数据社交互动空间&GPS坐标商务数据传送视频、音频、图片语音识别产品/服务日志SMS/MMSBIGDATA传感器/电子标签设备移动网络用户点击流ERP采购清单采购记录支出记录大数据=交易+互动+观测数据不断增长的数据多样性和复杂性具有4V特性的数据:Volume(巨大的数据量):Variety(数据类型多):文本/图片/视频等非结构化/半结构化数据Velocity(处理速度快):要求系统在短时间内做出反应Value(价值密度低):单条数据无价值,无用数据多,综合价值大3亿用户,每天上亿条微博.巡天望远镜,已收集140兆兆字节数据2015年全球移动终端产生的数据量6300PB案例海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。什么是大数据数据类型多越来越多非结构化数据;音频、食品,地理位置信息等多类型数据对数据处理能力提出更高要求。数据价值高海量数据带来了巨大的商业价值。数据之间关联性支持深层的数据挖掘。大数据的特点-4V理论数据处理速度快对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。数据规模大从TB跃升到PB甚至EB。一组公式:1024GB=1TB;1024TB=1PB;1024PB=1EB。非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。作为特指的大数据,其中的“大”是指大型数据集,一般在10TB规模左右;多用户把多个数据集放在一起,形成PB级的数据量;同时这些数据来自多种数据源,以实时、迭代的方式来实现。与以往数据处理的区别?数据量极大,增大了数据处理的难度的同时,庞大数据量所蕴含的价值也极大数据种类多样,更加个性化,针对不同来源的数据以多样化的方式处理,结果更精确.要求及时对数据进行处理并得到结果,更完善的用户体验.数据成为新的资源,掌握有数据就掌握了巨大的财富.指数型增长的海量数据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。大数据崛起分析大量数据并非是新鲜事物,但近年才有革命性的变化:网络使用人数逐年递增硬件成本指数型递减数据生成速度加快存储成本指数下降云端数据扩增企业非结构化数据量飞速增长流动数据大量增加企业可用数据资源增大大数据崛起大数据崛起大数据崛起数据生成速度加快流动数据大量增加存储成本指数下降企业可用数据资源增大处理速度指数增长大数据实际上是对更广泛数据的数据挖掘,以前因为成本、处理速度、数据量不足等问题无法处理,随着软硬件的发展,这些问题如今已不是难以跨越的鸿沟!用途以上介绍的互联网上的数据看起来数量庞大却用处寥寥,但事实上,只要处理好这些数据,就能给商家带来巨大的利益。举一个简单的例子:商家消费意向•通过网页浏览记录•通过人人、微博等消费水平•通过淘宝等消费记录•通过社交平台信息消费位置•通过手机软件定位客户针对性地给客户提供广告与优惠信息消费服务雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能Google精确掌握用户行为、获取需求政治经济监控手机的使用状况和账单的缴付模式如果数据突然发生变化,那可能预示着经济困境正在加剧国情调控对Twitter和Facebook等社交媒体网站的数据筛查若社交媒体提及粮食或种族冲突,那可能预示爆发了饥荒或者国内骚乱医疗保卫社交媒体上提到某地区受到感染,是对疫情流行的有效早期预警大数据的意义----为每位用户量身打造用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,比用户自己更了解用户,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。大数据的大应用城市智能交通智能电力照明能源管理系统智能健康医疗体系政府财政管理综合信息系统工商企业信息系统。。。。。。大数据与云计算大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式在facebook,平均每个月有300亿条内容被创建eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量全球的数据资产预计在以40%的速度增长,而IT预算的增速度只有5%。自2005年以来IBM投资160亿美元进行了30次与大数据有关的收购。每年价值3000亿美元大约0.7%的年生产率增长美国医疗服务业欧洲公共部门管理每年价值2500亿欧元大约0.55的年生产率增长服务提供商收入1000亿美元以上最终价值用户达7000亿美元全球个人位置数据可能的净利润增长水平60%以上大约0.1-0.5%的年生产率增长数据来源:麦肯锡全球研究院零售业产品开发,组装成本降低5%运营成本降低大约7%制造业大数据在各行业创造财务价值敏感行业已经开始数据化零售业制造业信息产业电子商务移动通信金融证券医疗服务数据量大挖掘潜力大数据意识强IT基础好这些产业在大数据分析应用方面具有如下优势:数据化让产业绩效大幅提升在行业层面,大数据时代会出现以下两个主要的趋势:泛互联网化,行业垂直整合。泛互联化是收集用户数据的唯一低成本的方式,没有泛互联网化的应用软件,企业就难以获得用户的行为数据。泛互联网化有以下三个显著的特征。大数据时代的发展趋势行业将会垂直整合,越靠近终端用户的企业在产业链上拥有更大的发言权;这个意味着如果某一家公司的客户群足够广泛,这家公司完全可以向上游公司收购。产业链下游泛互联网化和行业垂直整合原有的商业智能数据库基础上,企业通过开发一些应用或工具,支持终端用户做相关的规划,而用户使用这些工具时,企业也会捕捉相应的数据和场景,重新设计相应的产品和服务。大数据时代的发展趋势在商业智能时代,企业收集各类数据支持自己的决策。而在消费智能时代,数据分析业务将作为一项服务由企业提供给消费者,支持他们的消费决策。商业智能消费智能形成了企业利用数据与客户沟通的新模式,客户使用这些数据服务支持个人决策,使他们更关注这个企业。这也能带来客户忠诚度和客户关系的极大改善。从商业智能到消费智能数据市场的价值在于为这种大规模的数据交易提供了一个目录,以及流线化、标准化的交付方法。现在的信息时代唯一最有价值的资产就是数据。数据价值的挖掘能力将成为企业将是最有价值的竞争优势。随着数据需求的增大,数据交易的市场化也会逐渐扩大。数据挖掘=竞争优势数据市场化《华尔街日报》在一份题为《大数据,大影响》(BigData,BigImpact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。大数据时代的发展趋势挖掘到数据价值将是最有价值的竞争优势,值得投入。能够充分利用数据的企业将占据先机;如果企业不重视采用大数据相关的新兴技术,那么企业会逐步落后。Facebook、Google、亚马逊这样的公司正在运用数据的力量来获得商业上更大的成功,并且传统的金融、电信等企业也在充分运用数据来提升自己的商业竞争力数据是最有价值的资产消费者已经无缝地转移到这个移动社会化媒体世界里。社会化计算和移动计算代表着下一代以数据为中心的应用潮流。大数据时代的发展趋势社会化媒体平台上,消费者通过关系、兴趣而聚拢,通过关系图谱、兴趣图谱进行信息交互,传播速率大大加快,这也带来了巨大的数据洪流。社会化媒体数据基本上是非结构化的数据,以往的数据分析系统很难进行分析。对于来自社会化媒体的数据洪流以及这些数据如何与其他的客户跟品牌公司接触点相关联,我们需要有一个有效的系统来进行分析。社会化计算移动计算大量智能移动设备接入网络,移动应用爆发性增长使对数据移动计算意味着利用数据访问设备捕获类似于位置数据这样的传感器交互数据进入了新的发展阶段。进行深入挖掘的需求突显。而移动互联网与传统互联网融合,成为所有媒体的核心节点却是大数据实现的前提。社会化计算和移动计算大数据时代的发展趋势•大数据的大发展让营销流若隐若现:媒介的打通让用户数据的积累成为可能,用户图谱、浏览数据、行为和兴趣数据成为精准定向的基础;媒体端数据为广告营销提供精准定向的舞台;广告主接入开放式营销平台,数据投放和效果数据流在云端架构。RTB-DSP-DMP,AdExchange发展提速,便是数据云向营销云转变的体现。•,谁出价高,谁的广告就会被这个PV看到。数据云到营销云大数据时代的信息化建设大数据----国外已经投资应用美国国务院采用大数据技术开发新的美国护照系统。IBM宣布投资1亿美元用于大数据研究;美国IT公司开始意识到大数据技术能够为公司创造价值;大数据公司引入汽车行业高管人员扩展营销业务;大数据分析大数据分析巨量数据的产生对所有复杂数据格式的归类管理分析20%结构化数据的分析利用80%非结构化的没有发挥作用,商业洞察力的资源浪费。找出最优解决方案应用的核心大数据分析数据质量和数据管理可视化分析语义引擎数据挖掘算法预测性分析能力大数据应用的分析方法高质量的数据处理和管理是输出高质量结果的前提深入数据内部,用机器去做人工做不到的数据价值发现从非结构化数据中提取信息的方式展示数据分析结果,供使用者决策根据可视