《大数据技术》读书报告一、大数据技术概述及起源1、问题的提出我们应该都清楚,需求是科学技术发展的原动力。(1)电子数据的迅速增加物联网、云计算、移动互联网、车联网、手机、平板电脑、个人计算机(PC)、气候信息、公开的信息,如杂志、报纸和文章、交易记录、网络日志、病历、军事监控、视频和图像、档案及大型电子商务,以及遍布地球各个角落的各种各样的传感器是数据来源或者承载的方式不断更新与发展、大型科学研究设备产生的数据,以及社交媒体的快速发展,构成了大数据持续产生的生态环境。尤其是近年来,随着互联网技术的发展,来自人们的日常生活,特别是来自互联网服务而产生的大量数据迅猛增加。(2)数据孕育着巨大的经济价值越来越多的企业等机构意识到数据正在成为最重要的资产,数据分析能力正在成为核心竞争力。经过了由PC成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因数据分析而带来的全新业务增长点。数据将成为各行业中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。研究表明,数字领域存在着1.8万亿GB的数据,企业数据正在以55%的速度逐年增长。目前,两天就能创造出自人类文明诞生以来到2003年所产生的数据总量。大数据已经成为重要的时代特征,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元的收入,帮助欧洲公共部门的管理每年提升2500亿美元产值,帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长率。由此可见,充分利用大数据和挖掘大数据商业价值将为行业企业带来强大经济效益与竞争力。(3)数据是国家的核心资产一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,对数据的占有和控制,甚至将成为陆权、海权、空权之外的另一种国家核心资产。联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府是一个历史性的机遇,通过极为丰富的数据资源,对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。2、大数据的来源(产生源泉)早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪大数据”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。大数据这个术语最早期的引用可追溯到apacheorg的开源项目Nutch。当时,大数据被描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFileSystem(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。有的资料上显示,“大数据”一次首次被提出是在2011年有关机构发布的研究报告——《大数据:创新、竞争和生产力的下一个新领域》之中。这份报告研究了数据和文档的状态,同时分析了处理这些数据能够释放出的潜在价值。大数据主要来自于物理世界与互联网世界。3、什么是大数据?按照维基百科的定义,大数据(BigData)又被称为巨量资料或海量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为对企业经营决策具有较高参考价值的资讯。4、大数据的特性业界普遍认为,大数据具有4个关键特征,分别是海量化、多样化、快速化和价值化。麦肯锡最早预言了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”IBM则最早定义了大数据的特征:规模性Volume、多样性Variety、价值性Value和高速性Velocity,因此这些也被称作“4个V”。“4个V”反映了大数据在四个层面上的特点:第一,数据体量巨大。第二,数据类型繁多。第三,价值密度低、商业价值高。第四,处理速度快。5、中国政府对大数据的重视程度二、主要内容与要点大数据技术是指大数据的采集、传输、处理和应用的相关技术,一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结构的一系列数据处理技术,称之大数据技术。而大数据技术的主要内容即是:(1)结果呈现:标签图、关系图(2)数据分析:统计分析数据挖掘模型分析(3)数据处理:自然语言处理技术(4)数据采集:ETL工具一般来说,大数据处理的流程可以概括为四步,分别是大数据采集、大数据导入与预处理、大数据统计与分析、大数据挖掘。习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据(1)大数据采集大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。大数据技术在数据采集上的方法如下所述:①系统日志采集方法②网络数据采集方法③其他数据采集方法(2)大数据导入与预处理虽然采集端本身设有很大数据库,但是如果要对这些数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上作一些简单的清洗和预处理工作。也有一些用户在导入时使用来自Twitter的Storm平台来对数据进行流式计算,来满足部分业务的实时计算需求。大数据导入与预处理过程的主要特点是导入的数据量大,每秒钟的导入量经常达到百兆,甚至千兆数量级。(3)大数据统计与分析统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的大数据进行分析和分类汇总等,以满足常见的分析需求,在所需的工具方面,一些实时性需求应用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析部分的主要特点是分析中涉及的数据量巨大,对系统资源,特别是I/O资源占用极大。(4)大数据挖掘与前面所述的统计与分析过程不同,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有Kmeans聚算法、SVM统计学习算法和NaiveBayes分类算法,主要使用的工具有Hadoop的Mahout等。该过程的特点主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。大数据处理的流程至少应该满足上述四个基本步骤,才能成为一个比较完整的大数据处理过程。三、过去和现在的主要应用1、大数据的商业价值①客户关系管理大数据根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费等。②企业经营决策某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。③个性化营销银行与客户的交流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾客确实对此感兴趣,销售部门就会发送推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低。④社会化管理比如在大数据的帮助下,什么时间段、哪条路拥堵等问题,都可以通过分析得知。通过同一条路上多个用户手机位移的速度便可以判断当时的路况,为拥堵作出准确预警。大数据技术对历史性逮捕模式、发薪日、体育项目、降雨天气和假日等变量进行分析,从而优化警力配置。2、医疗行业中的应用①医疗保健内容预测分析。利用医疗保健内容分析预测技术可以找到大量患者相关的临床医疗信息,通过大数据处理,能够更好地分析患者的信息。②早产婴儿的预测分析。在医院,针对早产婴儿,每秒钟有超过3000次的数据读取,通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。③精确诊断的预测分析。通过社交网络可以收集数据的健康类应用,它们搜集的数据可使医生的诊断变得更为精确,例如,不是通用的成人每日三次一次一片,而是通过检测到人体血液中药剂已经代谢完成之后,自动提醒患者再次服药。3、能源行业的应用①智能电网现在已经进入了终端,也就是所谓的智能电表。为了鼓励利用太阳能,在家庭安装太阳能,除了卖电给你,当家庭的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间内,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电如同期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以明显降低采购成本。②风力系统依靠大数据技术对气象数据进行分析,可以找出安装风力涡轮机和整个风电场最佳的地点。以往需要数周的分析工作,现在利用大数据仅需要不足1h便可完成。③智能电表。智能电表可以实现供电公司能每隔15min就读一次用电数据,而不是过去的一月一次。这不仅节省了抄表的人工费用,而且由于能高频率快速采集分析用电数据(产生大数据),供电公司就能够根据用电高峰和低谷时段制定不同的电价,利用这种价格杠杆来平抑用电高峰和低谷的波动幅度。实际上,智能电表和大数据应用让分时动态定价成为可能,而且这对于供电公司和用户是一个双赢结果。4、交通行业的应用交通系统的4个要素,即人、车、路、环境相互依赖,相互作用。下面简单列举大数据在交通行业应用的几个方面:①构建优化的交通方案随着汽车工业的发展,车辆保有量的不断攀升,车与路、车与环境之间的矛盾日益加剧,诸如交通堵塞、事故增多、能源浪费和环境污染等问题的恶化,需要通过对历史以及现在的车辆情况、路网情况的实时大数据进行分析,制定更为优化的系统方案,使车辆行驶在最佳路径上,从而缩小行车时间,节省燃料,减少环境污染,提高路网通行能力和服务质量。②制定最佳的出行方案针对交通系统的复杂性,需要对气象信息、社会状况、经济情况等进行大数据分析,制定最佳出行方案。③及时处理突发交通事故针对交通系统的动态性,需要对大数据进行实时分析,及时、快速处理突发事件。5、零售业的应用零售行业是大数据应用的主要领域之一。零售行业在经营过程中积累了关于销售、客户购物历史、货物运输、客户消费和服务等大量的数据,特别是最近几年,随着电子商务的逐渐流行和高速发展,收集的数据量也在快速膨胀。像今天的淘宝、京东商城等只有联机的在线销售,没有类似的商场等实体店,其交易都是直接在网络上进行的,其零售数据给大数据分析提供了丰富的数据资源。零售企业在运营管理的各个环节都可以进行大数据分析,通过条码技术、标签技术、全息扫描技术、RF技术等大数据分析,可以集中管理供应、物流、存货等业务,实现企业内外供应链管理的高效协同,从而帮助零售企业强化终端业务的管控,提高对市场的反应速度,提高服务质量。6、在金融上的应用现在大部分银行和金融机构都提供了多种多样的银行服务(如用户商业和个人的支票、存款、取款、转账)、信用服务(如交易、抵押和住房贷款)和投资服务(如基金、股票),有些还提供各种保险等服务。银行和金融机构收集的数据通常相对比较完整、真实、可靠并且具有较高的质量,因此也特别适合用来进行大数据分析。四、今后的发展趋势与应用【今天既然要谈大数据的未来,我想将其和云计算联系起来】1