大数据及其在各领域的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据及其在各领域的应用引言:随着互联网的飞速发展,特别是近年来社交网络、物联网和云计算的飞速发展和大量应用,人们所接触和关注的数据量出现爆炸式增长,使得数据的极大丰富和复杂成为当今社会的重要特征。对大数据分析和处理的技术也随之建立完善并丰富起来。主要介绍大数据的概念和特点,分析了实现大数据处理的关键技术和大数据的应用领域,列举了几种大数据在现实生活中的典型应用。首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC的监测统计,即使在遭遇金融危机的2009年,全球信息量也比2008年增长了62%,达到80万PB(1PB等于10GB),到2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB),并且以每两年翻一番的速度飞速增长,预计到2020年全球数据量总量将达到40ZB,10年间增长20倍以上,到2020年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。虽然大数据日益升温,但与大多数信息学领域的问题一样,大数据的基本概念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议,大数据概念有过度炒作的嫌疑。欧洲的一些企业甚至认为大数据就是海量数据存储,仅将大数据视作是可以获取更多信息的平台。本文分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核心问题,在此基础上,最后讨论大数据可能要面临的多种挑战。大数据的概念和特点大数据是个较为抽象的概念,正如信息学领域但是面对以视频、图片、文字等非结构化数据为主大多数新兴概念样,大数据至今尚无确切、统的定义。来自维基百科的定义为:大数据指数量巨大、类型复杂的数据集合,现有的数据库管理工具或传统的数据处理应用难以对其进行处理。这些挑战包括如捕获、手机、存储、搜索、共享、传递、分析与可视化等。IDC在对大数据作出的定义为:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据处理技术一、大数据技术为何能提高数据的处理速度大数据的并行处理利器——MapReduce大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。二、大数据在数据采集方面采用了那些新技术系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。网络数据采集方法:对非结构化数据的采集网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。其他数据采集方法对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。大数据在一些领域的应用一、医疗大数据看病更高效除了较早前就开始利用大数据的互联网公司,医疗行业是让大数据分析最先发扬光大的传统行业之一。医疗行业拥有大量的病例,病理报告,治愈方案,药物报告等等。如果这些数据可以被整理和应用将会极大地帮助医生和病人。我们面对的数目及种类众多的病菌、病毒,以及肿瘤细胞,其都处于不断的进化的过程中。在发现诊断疾病时,疾病的确诊和治疗方案的确定是最困难的。在未来,借助于大数据平台我们可以收集不同病例和治疗方案,以及病人的基本特征,可以建立针对疾病特点的数据库。如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制定出适合病人的治疗方案,帮助更多人及时进行治疗。同时这些数据也有利于医药行业开发出更加有效的药物和医疗器械。二、金融大数据理财利器大数据在金融行业应用范围较广,典型的案例有花旗银行利用IBM沃森电脑为财富管理客户推荐产品;美国银行利用客户点击数据集为客户提供特色服务,如有竞争的信用额度;招商银行利用客户刷卡、存取款、电子银行转帐、微信评论等行为数据进行分析,每周给客户发送针对性广告信息,里面有顾客可能感兴趣的产品和优惠信息。可见,大数据在金融行业的应用可以总结为以下五个方面:精准营销:依据客户消费习惯、地理位置、消费时间进行推荐风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈决策支持:利用抉策树技术进抵押贷款管理,利用数据分析报告实施产业信贷风险控制效率提升:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品三、交通大数据畅通出行目前,交通的大数据应用主要在两个方面,一方面可以利用大数据传感器数据来了解车辆通行密度,合理进行道路规划包括单行线路规划。另一方面可以利用大活数据来实现即时信号灯调度,提高已有线路运行能力。科学的安排信号灯是一个复杂的系统工程,必须利用大数据计算平台才能计算出一个较为合理的方案。科学的信号灯安排将会提高30%左右已有道路的通行能力。在美国,政府依据某一路段的交通事故信息来增设信号灯,降低了50%以上的交通事故率。机场的航班起降依靠大数据将会提高航班管理的效率,航空公司利用大数据可以提高上座率,降低运行成本。铁路利用大数据可以有效安排客运和货运列车,提高效率、降低成本。四、教育大数据因材施教在课堂上,数据不仅可以帮助改善教育教学,在重大教育决策制定和教育改革方面,大数据更有用武之地。美国利用数据来诊断处在辍学危险期的学生、探索教育开支与学生学习成绩提升的关系、探索学生缺课与成绩的关系。比如美国某州公立中小学的数据分析显示,在语文成绩上,教师高考分数和学生成绩呈现显著的正相关。也就是说,教师的高考成绩与他们现在所教语文课上的学生学习成绩有很明显的关系,教师的高考成绩越好,学生的语文成绩也越好。这个关系让我们进一步探讨其背后真正的原因。其实,教师高考成绩高低某种程度上是教师的某个特点在起作用,而正是这个特点对教好学生起着至关重要的作用,教师的高考分数可以作为挑选教师的一个指标。如果有了充分的数据,便可以发掘更多的教师特征和学生成绩之间的关系,从而为挑选教师提供更好的参考。大数据还可以帮助家长和教师甄别出孩子的学习差距和有效的学习方法。比如,美国的麦格劳-希尔教育出版集团就开发出了一种预测评估工具,帮助学生评估他们已有的知识和达标测验所需程度的差距,进而指出学生有待提高的地方。评估工具可以让教师跟踪学生学习情况,从而找到学生的学习特点和方法。有些学生适合按部就班,有些则更适合图式信息和整合信息的非线性学习。这些都可以通过大数据搜集和分析很快识别出来,从而为教育教学提供坚实的依据。在国内尤其是北京、上海、广东等城市,大数据在教育领域就已有了非常多的应用,譬如像慕课、在线课程、翻转课堂等,其中就应用了大量的大数据工具。总结大数据已成为学术界等非结构性数据为主的数据大量涌现,数据规模和数和产业界共同关注的研究主题,在很多领域获得了据种类正以极快的速度增长,大数据时代已悄然来临。2016.5.18

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功