大数据与数据挖掘第二部分大数据•大数据概念•大数据行业应用•数据分析与挖掘•大数据技术大数据体系数据的大小•物理属性的数据公斤、公里、升等•信息属性的数据位(Bit)是量度信息的基本单位,只有0、1两种二进制状态。8位(bit)组成一个字节(1Byte,8bit),能够容纳一个英文字符,而一个汉字需要两个字节(2Byte,16bit)的存储空间。一页书籍:10KB一张低分辨率照片:100KB一次胸透视:10MB一张CD光盘:500MB一部高质量电影:1GB大数据•何为大?—数据度量1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes练习题•3PB=(?)GB•假设《红楼梦》含标点87万字(不含标点853509字),1GB约等于(?)部红楼梦?1TB约等于(?)部?•美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB),1EB=(?)倍美国国会图书馆存储的信息量大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网练习题•促进大数据技术到来的主要因素有那些?•大数据时代的到来主要是由于网上的数据量大规模增加()•大数据不仅是网络业的未来,而且是整个社会和经济发展的未来。早期的大规模数据应用•文本资料的数字化•将文本资料转化成数字信息存储,可进行搜索,传播。•亚马逊数字图书馆•文本资料的数字化•亚马逊的数字图书馆•地理方位的数字化•对地理位置的数据化需要满足一些前提条件:需要能精确地测量相关区域内的每一块地方;需要一套标准的标记体系;需要收集和记录数据的工具。简而言之,就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些,才能把位置信息当成数据来存储和分析。•莫里斯航海图表UPS的快速定位系统•UPS快递多效地利用了地理定位数据。为了使总部能及时了在车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。这些设备方便了公司监督管理员工并优化行车线路。•UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。设计了尽量少左转的路线,因为左转要求货车在交叉路口穿过去,所以更容易出事故。而且,货车往往需要等待一会儿才能左转,也会更耗油,因此,减少左转使得行车的安全性和效率都得到了大幅提升。•社交网络的发展•简单地说,社交网络是在互联网上与其他人相联系的一个平台。社交网络站点通常围绕用户的基本信息而运作,用户基本信息是指有关用户喜欢的事、不喜欢的事、兴趣、爱好、学校、职业或任何其他共同点的集合。通常,这些站点提供不同级别的隐私控制。社交网络的目标是,通过一个或多个共同点将一些人相互联系起来而建立一个群组。•国外:Facebook,twitter•Facebook2012年拥有大约6.29亿用户,他们通过上千亿的朋友关系网相互连接。这个巨大的社交网络覆盖了大约10%的全球总人口。•国内:新浪微博,微信,人人网•社交网络的理论基础•1967年,哈佛大学的心理学教授米尔格伦(1934~1984)创立了六度分割理论,简单地说:“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。”按照六度分隔理论,每个个体的社交圈都不断放大,最后成为一个大型网络。这是社会性网络(SocialNetworking)的早期理解。我国社交网络的发展•E-mail点对点•人与人之间可以通过电子邮件交流•BBS点对面•BBS将点对点形式演变为点对面,降低交流成本。实现了个人的分散信息向可共享的聚合信息的进步。天涯、猫扑、西祠胡同等产品都是BBS时代的典型企业。2006年年以前,资本主要关注BBS及博客形态的社交网络产品,但是后期来看,这类企业的发展多不尽人意。•娱乐化社交网络•2002年,LinkedIn成立;2003年,运用丰富的多媒体个性化空间吸引注意力的Myspace成立;2004年,复制线下真实人际关系来到线上低成本管理的Facebook成立中国社交网络产品相也继出现,如2005年成立的人人网、2008年成立的开心网。•微信息社交网络时代•2009年8月,新浪推出微博产品,用户通过推介及自行搜索等方式构建自己的朋友圈,这种产品迅速聚合了海量的用户群,当然也吸引了众多业者(如腾讯、网易、盛大)的追随。这种模式也再次将广义社交网络推向投资人视野。•随着移动互联网的发展,微信息社交产品逐渐与位置服务等移动特性相结合,相继出现微信等移动客户端产品。•垂直社交网络应用时代•垂直社交网络主要是与游戏、电子商务等相结合,是社交网络探究商业模式的有利尝试。清科研究中心预计,垂直社交将成为社交网络未来发展的主要方向。•根据“社交网络分析之父”贝尔纳多·哈柏曼(BernardoHuberman)的分析,社交网络中单一主题出现的频率可以用来预测很多事情,比如好莱坞的票房收入。他和一位在惠普实验室工作的同事开发了一个程序,可以用来监听微博的发布频率,基于此,他们就能预测一部电影的成败,这往往比其他传统评估预测方法还要准确。•网络搜索技术的发展•Google大数据的产生•供应链原始材料供应商11级批发零售商1半成品/成品供应商1核心企业2级批发零售商1原始材料供应商21级批发零售商1半成品/成品供应商22级批发零售商2…………•原始采用供应商n1级批发零售商n半成品/成品供应商n2级批发零售商n•政府部门•电信、税务、银行、工商、房产、电力、自来水等多个部门数据的集成综合•电商•供应商、客户、商户、物流•叫车•出租车、客户•商旅/票务•客户、航空公司、旅店、饭店等哪些属于大数据的研究范畴大数据热反映出人们在猜测追寻下一个大创新交通数据?社交数据?电子商务数据?供应链数据?企业经营管理数据?数据大不等于大数据现有设备,技术,方法所能处理的不是大数据数据挖掘,精细化运营,精准广告和个性化服务推广不是未来大数据服务商业模式的主要部分大数据的特征多样性(Variety)数量巨大(Volume)速度快(Velocity)价值密度低(Value)大数据的描述性定义多样性数据来源多样性—超出一种服务,一个公司,一个地区数据种类多样性—文字,语音,图表,图片,视频数据对象多样性—个人,商业,社会,自然界大数据的多样性越高,潜在价值就越大大数据的操作定义数量以TB为基本计量单位数据间关系众多,结构复杂,变化多端大数据的体量越大,潜在价值就越大大数据的操作定义传输速度快处理的数据是TB级代替了GB级,“超大规模数据”和“海量数据”也有规模大的特点,但大数据更强调数据的快速动态变化,形成流式数据,数据流动的速度快到难以用传统的系统去处理。价值密度低数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长,反而使我们获取有用信息的难度加大。以视频为例,连续的监控过程,可能有用的数据仅有一两秒传统数据与大数据的区别•传统数据•硬件条件•IBMSystemx3100•通过4个DIMM插槽,实现512MB或1GB/8GBDDRII667MHz的内存容量•可挂6个500G外部存储•建立服务器矩阵后容量可增加•需求:•腾讯qq邮箱,腾讯宣称有7亿多注册账号,有3亿多活跃账号,平均每人100G空间•传统数据•传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。•传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!传统数据与大数据的区别传统数据与大数据的区别•传统数据•处理结构化数据•结构化数据,简单来说就是数据库。•结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。传统数据与大数据的区别•世界上跟多的是半结构和非结构化数据•半结构化是指数据的字段数量不固定,大小可变化的数据•非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。结构化与非结构化数据大数据•可处理半结构化和非结构化数据(Nosql)•支持分布式处理•具有可扩展性•数据采集方法多样•可处理多种类型的数据练习•大数据的主要特点有哪些?•公司备份数据库中有86TB的数据,可称之为大数据吗?•公司论坛中的所有留言属于大数据研究范畴吗?•某高校全体学生信息不属于大数据研究范畴(?)•大数据的多样性主要体现在哪里?