大数据BIGDATA随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。1.大数据是什么?2.大数据的特征和结构3.大数据时代的机遇和挑战4.大数据的趋势5.大数据的应用和案例CONTENTS目录大数据是什么?第一部分大数据(BIGDATA)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据定义对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。海量高增长率多样化决策力洞察发现力流程优化能力大数据是“未来的新石油”大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。BIGDATA何谓大?(数据度量)1Byte=8Bit1KB=1,024Bytes=8192bit1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB到底有多大?1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和大数据带来的变革1更多不是随机样本而是全部数据2更好不是因果关系而是相关关系3更杂不是精确性而是混杂性大数据的特征和结构第二部分大数据的特征容量(Volume)数据的大小决定所考虑的数据的价值和潜在的信息种类(Variety)数据类型的多样性2176543速度(Velocity)指获得数据的速度可变性(Variability)妨碍了处理和有效地管理数据的过程真实性(Veracity)数据的质量复杂性(Complexity)数据量巨大,来源多渠道价值(value)合理运用大数据,以低成本创造高价值大数据的结构大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。半结构化结构化非结构化大数据的安全威胁大数据基础设施安全威胁1大数据存储安全威胁2隐私泄露问题3针对大数据的高级持续性攻击4数据访问安全威胁5其他安全威胁6大数据的三个层面123理论THEORY技术TECHNOLOGY实践UTILIZATION特征定义价值探讨现在和未来大数据隐私云计算分布式处理平台存储技术感知技术互联网的大数据政府的大数据企业的大数据个人的大数据大数据改变生活优化各级政府、主管部门、上市公司、企业集团、外资公司都将基于大数据分析平台优化其决策。革命大数据分析能力逐渐加强,传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失。颠覆银行都将基于企业大数据平台开展银行直销业务,同时按照产业链金融服务事业部模式开展业务改变因大数据系统的出现,所有依赖信息不对称盈利的业务都将消失。大数据对政府、金融机构、企业来说,象空气一样不可或缺!大数据时代的机遇和挑战第三部分机遇和挑战机遇挑战•大数据技术促进国家和社会发展•大数据蓝海成为企业竞争的新焦点•大数据时代呼唤创新型人才•大数据技术的运用仍有困难•大数据给信息安全带来新挑战机遇1:大数据技术促进国家和社会发展大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。实现科学发展做出科学决策机遇2:大数据蓝海成为企业竞争的新焦点大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在促生新的蓝海,催生新的经济增长点,正在成为企业竞争的新焦点。机遇3:大数据时代呼唤创新型人才盖特纳咨询公司预测大数据将为全球带440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万——49万,缺口14万——19万人需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。挑战1:大数据技术的运用仍有困难目前,大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。1数据收集要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,还可与历史数据对照,多角度验证数据的全面性和可信性。2数据存储要达到低成本、低能耗、高可靠性目标,要用到冗余配置、分布化和云计算技术,存储时对数据进行分类,通过过滤和去重,减少存储量,并加入便于检索的标签。3数据处理大数据的复杂性使得难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态及可能模棱两可的数据中综合信息,并导出可理解的内容。4结果的可视化呈现使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。挑战2:大数据给信息安全带来新挑战123加大隐私泄露风险对现有存储和安防措施提出挑战被运用到攻击手段中•大量数据的集中存储增加了其泄露的风险;•一些敏感数据的所有权和使用权并没有清晰界定。•复杂的数据存储在一起,可能造成企业安全管理不合规;•安全防护手段更新升级慢,存在漏洞•黑客可收集更多有用信息,大数据分析让攻击更精准;•大数据为黑客发起攻击提供了更多的机会“棱镜门”引爆大数据时代争议事情的起因是美国中情局前职员斯诺登向媒体爆料,过去6年间,美国的情报部门通过一个代号为“棱镜”的项目,从多家知名互联网公司获取电子邮件、在线聊天内容、照片、文档、视频等网络私人数据,跟踪用户一举一动。他说,自己只需要坐在办公桌前,动动指头,敲敲键盘,就能了解很多人的私密信息。斯诺登的爆料引起一片哗然,根据他提供的资料,被卷入“棱镜门”事件的公司包括微软、雅虎、谷歌、苹果、Facebook等9大IT业巨头。在“棱镜门”事件开始发酵之后,这些公司先是赶紧出面否认与美国政府的监视项目进行过合作,并相继发表声明,呼吁政府采取更透明态度,以证明他们的“清白”。大数据时代的趋势第四部分借助大数据尖端分析加速发展•如果正确的数据出现在合适的时间,您的业务将有望获得什么机会?如何更有效率地运营您的业务?通过数据分析获得变革的潜力与直观理解影响着医疗、银行、交通运输、制造等各行各业。•对于许多早期的使用者,当他们从传统商业智能(BI)的实践发展到可靠直观理解的更高级分析(预测性和规范性)时,数据改变了他们的业务,无论是通过新的发现、更尖端的产品和服务或总体更好的客户体验。大数据的趋势趋势一数据的资源化:是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。趋势二与云计算的深度结合:大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。趋势三科学理论的突破:随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。趋势四数据科学和数据联盟的成立:未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。趋势五数据泄露泛滥:未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。趋势六数据管理成为核心竞争力:数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。趋势七数据质量是BI(商业智能)成功的关键:采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。趋势八数据生态系统复合化程度加强:大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。大数据的应用和案例第四部分大数据的应用领域教育学情报学公共服务天文学电子政务传媒业生物医学商业智能图书馆学气候学企业管理市场营销金融学生活娱乐总统选举企业大数据建设方法大数据业务战略大数据建设目标大数据架构设计大数据实施大数据运维企业战略目标业务目标业务模式大数据目标服务对象服务模式应用场景容量规划安装、配置验收测试系统上线大数据服务定义大数据信息模型大数据管理定义技术选择验证测试大数据服务管理系统监控资源调度生命周期管理服务性能管理大数据持续改进服务改进技术升级架构优化扩展现有架构1324更深入地分析当前数据针对高数据速度设计针对数据多样性和数据量进行设计发现新模式——提高业务价值——商品零售大数据•此事经被《纽约时报》报道后,塔吉特“大数据”的巨大威力轰动全美•在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?•然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。•模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。•最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。拥抱大数据消费大数据亚马逊“预测式发