大数据及其现实应用管理学院周功建开放作业题目•结合自己的专业特点,写一篇大数据应用论文!•要求:找准大数据在本专业的一个具体应用点进行展开,将自己设定为某公司的首席数据运营官,用大数据的思维帮助企业提高数据应用能力和业务分析水平。讨论大数据的时点上市时间公司创新时代鼎盛期1996雅虎网页聚合WEB1.08年2004谷歌主题词聚合WEB1.58年2012FACEBOOK使用者聚合WEB2.08年?2020??数据聚合?WEB3.0??大数据热反映出人们在猜测追寻下一个大创新内容提示•认识大数据•大数据带来的变革•大数据的商业价值•大数据的运用案例分析迎接大数据时代到来的条件•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网迎接大数据时代到来的条件•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网迎接大数据时代到来的条件•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网迎接大数据时代到来的条件•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网迎接大数据时代到来的条件•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网迎接大数据时代到来的条件•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网迎接大数据时代到来的条件•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网如今,我们处在大数据时代当前互联网条件下大数据的典型代表•1-用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)•2-用户消费数据(精准营销、信用记录分析、活动促销、理财等)•3-用户地理位置数据(o2o推广,商家推荐,交友推荐等)•4-互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)•5-用户社交数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)拥抱大数据什么是大数据•百度百科:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。•维基百科:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。•我的观点:大数据是由大量异构的数据组成的数据集合,它是可以应用合理的数学算法或工具从中找出有价值的信息,为人们带来利益的一门新兴学科。大数据与传统数据的区别?小明去了一百次书店•传统数据:要回答的问题是他第一百零一次买不买书,即业绩和经营指标的问题;•大数据:要回答的是他第一百零一次买什么书,需要将什么样的内容推荐给他。群体和个体的区别•传统定义上,更多关注的是一类人群,用同一类规则制订套餐给他们;•互联网时代,要把每个人都精准刻画出来,进行精准匹配。19大数据与传统数据库的区别•大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:–结构化程度•传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;•大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。–异常数据的处理•传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;•大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。理解大数据大数据=海量数据+复杂类型的数据大数据包括:交易数据和交互数据集在内的所有数据集大数据的构成海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。VolumeVelocityValueVariety大数据的4V特征Value价值•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.•价值密度低,是大数据的一个典型特征.Variety多样性•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.•能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog结构化、半结构化、非结构化数据Velocity速度•1s是临界点.•对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.•实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.Volume数据量PB是大数据層次的临界点.KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构和大数据相关的技术大数据必然无法用单台的计算机进行处理,必须采用分布式架构。对海量数据进行分布式数据挖掘,必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。1.云计算云计算是分布式处理(DistributedComputing)、并行处理(ParallelComputing)和网格计算(GridComputing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。**云计算与大数据的区分:•第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。•第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。2.分布式处理技术•Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架。HDFS:Hadoop分布式文件系统(DistributedFileSystem)MapReduce:并行计算框架HBase:类似GoogleBigTable的分布式NoSQL列数据库。Hive:数据仓库工具,由Facebook贡献。Zookeeper:分布式锁设施,提供类似GoogleChubby的功能,由Facebook贡献。Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。Pig:大数据分析平台,为用户提供多种接口。Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。Sqoop:用于在Hadoop与传统的数据库间进行数据的传递3.云存储云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。淘宝的大数据技术架构参考资料推荐延深阅读150年后,当互联网将这个世界紧密连接起来的时候,新的物种诞生了。我们称之为生命的信息过程数十亿年前控制了地球的大气层。现在,另一个信息过程——科技元素,正在重新征服地球。最需要读这本书的,应该是打价格战打晕了头,占领市场醒后却发现没有利润的商人;或者是想以数字技术新法取胜,希望像乔布斯那样赢的雄心勃勃的年轻人。大数据能给我们带来什么?内容提示•认识大数据•大数据带来的变革•大数据的商业价值•大数据的运用案例分析一.大数据带来全新的生活方式大数据时代的物联网,带给我们智能家居。大数据带来全新的生活方式•购物:不受时空限制,随时随地购物。在看不到商品的情况下,口碑就是质量。大数据带来全新的生活方式•旅行:足不出户,安排好一切。大数据带来全新的生活方式•信息:人人都是传媒。大数据带来全新的生活方式•社交:你所有的朋友都能在网络上找到。二.大数据带来全新的思维方式•1.分析事物时,依赖该事物的所有数据,不再是进行样本分析。•2.在大数据时代,允许不精确。•3.更注重相关关系,而不是因果关系。1.“更多”——不是随机样本,而是全体数据当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本=总体大数据带来全新的思维方式2.“更杂”——不是精确性,而是混杂性执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生大数据带来全新的思维方式3.“更好”——不是因果关系,而是相关关系知道“是什么”就够了,没必要知道“为什么”!在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法大数据带来全新的思维方式1.“数据化”——一切皆可“量化”大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通成为数据一切事物的数据化三.大数据带来新的商业变革2.“价值”——“取之不尽,用之不竭”的数据创新数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。数据创新1:数据的再利用数据创新2:重组数据数据创新3:可扩展数据数据创新4:数据的折旧值数据创新5:数据废气数据创新6:开放数据给数据估值大数据带来新的商业变