大数据时代大数据概述大数据4V特性相关领域应用相关技术架构目录总结大数据概述数据量级变化大数据产生背景数据量级不断增加|根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。数据结构日趋复杂|大量新数据源的出现则导致非结构化、半结构化数据爆发式的增长TBPBZBEB地球上至今的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)说明互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。1GB(Gigabyte)=1024MB1TB(Terabyte)=1024GB1PB(Petabyte)=1024TB1EB(Exabyte)=1024PB1ZB(Zettabyte)=1024EB平均每一分钟中国互联网上发生了什么?百度搜索查询48.7万次5万条微博465名新用户1.37亿人同时QQ在线556篇博客文章83名新博客4944条心情更新6597篇日志发布13.9万张照片上传3125条状态更新发布417篇日记更新97个视频上传到优酷,内容总计14个小时5.6万人淘宝在线交易额230万元80篇新帖子发布新回复1200篇是的,我们已经进入了大数据时代大数据时代变化数据在web2.0的时代,人们从信息的被动接受者变成了主动创造者全球每秒钟发送2.9百万封电子邮件,每天会有2.88万个小时的视频上传到Youtube,推特上每天发布5千万条消息量级每月网民在Facebook上要花费7千亿分钟,发送和接收的数据高达1.3EBGoogle上每天需要处理24PB的数据…20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念什么是大数据:BigData名词由来什么是大数据(NO-SQL,NotOnlySQL)不同“看”数据的方式10可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成大数据要上升为国家战略国家时间政策备注美国2012-3-29《大数据研究与发展计划》推动政府开放、提升政策预见性(粮食、天气、流感等)、提高政府服务水平、降底运营开支英国2010-5数据权、我的数据日本2012-5ICT战略中国2012-5互联网大数据技术创新研究14《大数据时代:生活、工作与思维的大变革》一书的作者维克托·迈尔·舍恩伯格,如是说,“如果你是一个个人,如果你拒绝的话,可能会失去生命,如果是一个国家的话,拒绝大数据时代的话,可能失去这个国家的未来,失去一代人的未来。”这一句话恐怕不能算作耸人听闻,因为每当人们站在现在这个节点的时候,总会去眺望未来,但是未来往往在你不经意当中已经悄悄地来到你的身边。15•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网大数据时代到来的必然性:大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。大数据的4V特性1234数据量Volume多样性Variety价值密度Value速度Velocity4V特性从非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍,总数据量的80~90%大数据的异构和多样性,多种形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效Volume数据量PB是大数据層次的临界点.KB-MB-GB-TB-PB-EB-ZB-YB-NB-DBVariety多样性•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.•文本/图片/视频等非结构化/半结构化数据•能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。Value价值•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.•价值密度低,是大数据的一个典型特征.•2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。•一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。Velocity速度•1s是临界点.•对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.•实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.讨论一下:传统的数据库与大数据的区别?问题1:大数据与传统数据库的区别大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:•结构化程度:传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。•噪声(异常)数据的处理:传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。相关领域的应用大数据使移动电商进入个性化时代各种网络平台的开封不仅增加了数据的规模,而且使数据具有较强的流动性和有效性社会化登录使得用户第一次在互联网上具有统一的身份个性化电商时代两者合起来创造了这样一种网络环境:通过利用各网络平台的数据,企业能够相对容易地查到用户的具体身份,了解该用户在网络上都干了些什么。有了这些信息,企业就可以在移动电商平台上更好地实现个性化推荐。数据支撑营销,电商战线新阵法当前大数据可以辅助销售的方面包括:提高潜在客户的质量,提高销售机会数据的质量,提高目标客户开发精确性,区域规划,赢利率等等。而在市场营销中,大数据也功不可没。除了提供提高转换率策略,销售前景预测,增长收入和客户生命周期外,还有可以帮助我们判断销售周期内各阶段哪些内容是最有效的,以及如何改进客户关系管理系统。如果公司是提供基于云计算的企业软件服务,大数据还可以提供关于何降低客户获取成本(CAC),客户终身价值(CLTV)的信息,管理许多其他客户驱动的指标,这些指标对于经营云业务至关重要。数据挖据流程知识运用知识运用就是对挖掘的评估结果在现实决策中的运用,这是一个非常重要的过程,也是数据挖掘的最终目标,价值的体现。数据准备数据准备,是从海量的原始数据中准备要据挖掘的数据,它是长期的、无规律的数据积累的结果。由于原始数据不适合数据挖掘,所以要先进行预处理,包括数据选择、清洗、推测、转换等操作。数据准备的好坏直接决定着数据挖掘的质量和效率。数据挖掘数据挖掘是整个程序的关键过程,按照数据挖掘的目标要求,选择合适的算法,来挖掘数据规律,常见的算法有决策树、分类、神经网络、Apriori算法等。模式的评价、分析对挖掘过的数据结果进行解释、分析、提取有意义或有使用价值的规律,还原成人们能够理解的数据语言。1、信息的發現和收集2、信息传播指导3、效果评估4、负面处理5、品牌调研6、消费者决策分析大數據商務電子的應用I.信息的發現和收集竞品信息发现、行业资讯获取情报数据全面整合传播方向发现大数据为我们带来了什么?她是80/85后她的生活習慣她喜歡甚麼化妝品她的個性她平常參加哪些互動活動她用甚麼手機她喜歡甚麼電影她喜歡甚麼她的休閒娛樂她平常的作息時間大数据为我们带来了什么?她是80/85后商品、美食是她的最爱她爱兰蔻她个性、清新、时尚对喜欢的东西有某种狂热她关注新媒体和移动互联网关注网络营销、推广活动爱小米爱热播剧爱汽车爱旅游10点、14点前后是她频繁上网的时间•每一秒:全球发送290万封电子邮件;•每一分钟:微博推特上新发的数据量超过10万;社交网络Facebook的浏览量超过600万;•每一天:全球上传2.88万小时视频至Youtube;•每个月:网民在Facebook上花费7千亿分钟;•上一年:人们制造并使用的数据达1.8ZB。数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来,大数据正成为最值得关注的领域之一.“大数据”在互联网行业通常表现为互联网公司在日常运营中生成、累积的用户网络行为数据。信息的發現和收集信息的發現和收集發現收集情报数据全面整合竞品广告投放+公关活动洞察分析,全面了解竞品市场动态。12%10%5%3%70%Search-suningSale-suning-suning-cnsuningBbs-suning5%3%•广告投放力度•广告创意内容•广告投放阵地•传播诉求•传播声量趋势•传播媒体投放广告公关0.4%1.8%95.1%2.7%6.9%37.8%25.2%30.2%1.0%5.2%87.4%6.4%联想苹果三星手机品牌各媒体声量比重传播方向发现海量数据中,2大维度、7大指标挖掘关键资讯,准确提供传播方向。重点位置+重要内容名人权重首页露出首屏露出焦点图露出热门位置热点位置热搜位置•传播主要诉求及类别•不同类别内容TOP10•媒体与网友评价正负信息TOP10II.传播指导目标人群界定媒介战略指导传播内容指导目标人群界定•年龄•性别•收入•所在区域•职业•教育程度•……..•消费心理•