大数据的来临摘要:21世纪的我们处在迅速发展的时代,随着网络信息化的日益普遍,云计算、物联网等这些新兴产业开始在人们的视野里日益浮现,越来越多的计算机科学的应用在日常的生活中产生。大数据,这个伴随着云计算的出现,开始在这个世界上崭露头脚。生活中无处不存在着数据,无论是我们购买东西的交易,还是与他人聊天的记录,亦或是浏览网页遗留下来的痕迹。因此,进入大数据的时代是无可避免的,这必将是局势所向。关键词:大数据数据云计算1.什么是大数据随着近几年来计算机与科学技术的普遍应用和快速发展,“大数据”这个词汇被越来越多的人提及。然而,就有人会问,大数据具体是什么呢?大数据,BigData,之前学术界将其称为verylargedata,在我的意识中large表现的只是体积上的庞大,而big却是蕴含着更多的意义,例如分量上沉重,或是实质上的厚实,亦或是价值上的昂贵,等等。在维基百科上,他给大数据有了这样一个定义:大数据指的是因为由于数据过大而无法在一定时间内使用常规软件进行获取,组织和处理的数据集合。所以说,大数据是一种对于大规模的数据进行整合的集合,指的是那些超过传统数据库系统处理能力的数据。在2010年,维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中指出,大数据是不用随机分析法(抽样调查)这样的捷径的,而是采集所有的数据进行分析处理。大数据的有着4V特点,分别是Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。Volume,数据体量巨大,从TB级别,跃升到PB级别;Variety,数据类型繁多,例如网络日志、视频、图片、地理位置信息等等;Value,价值密度低,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;Velocity,处理速度快,采用1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。【1】2.大数据与传统数据的差别过去我们所说的传统“数据”,很大程度代表着数字。比如说,生产线上的成品产量,销售货物的业绩量,经营单位的营业收入,或是职工的薪酬以及除去成本的剩余利润,等等。这些都是由一个个数字累积起来的数据,进而编辑成账簿,进行简单的分析处理。然而,再计算机中的数据又有着另一番的含义。在计算机系的世界里,数据是由各种数字和符号组合形成的各种文字、图像等,然后经过二进制的存储方式存在于电脑当中,经过加工之后就形成了信息。在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。是组成地理信息系统的最基本要素,种类很多。数字数据在某个区间内是离散的值。【2】对于过去传统的数据,我们仅需使用一些简单的工具就可以进行处理,例如,会计电算化、表格或者是数据库。而我们今天的“大数据”,并不是单纯的指的是数字,而是包括一些文本、表格、图片、音频,更甚者是一些视频之类的东西。简单传统的数字数据已经不能满足当下的需求,因此在2008年,谷歌成立的第十年,大数据这个名词被第一次正式的提出,并受到了广泛的关注。当年的著名杂志《自然》就出版了一期关于专门讨论未来的大数据处理相关的一系列技术问题和挑战,其中就提出来了“BigData”的概念。从概念上来说,大数据采用的是一种多元的形式,从各种方面收集所需要的数据,形成庞大的数据组织,通常来说,他具有着一定的事实性。从计算机科学方面来说,大数据又与云计算紧密相连,大数据的受关注度是因为云计算而发起。在云计算越来越盛行的时代,大型规模的数据处理就越来越引起人们的思考。如果过多的使用数据库进行分析处理,将会消耗大量的时间和金钱,处于实际的角度着想,这样是一种极大的浪费资源表现。因此,大数据,这种非结构化和半结构的模式就开始受到人们的关注。那么,何谓非结构化和半结构化呢?简单的来说,就是可以从大量的不同数据中,有效的、快速的找到所需要的信息,极大的节约了人力和物力,所以大数据成为现如今企业最喜爱的一种技术。3.大数据产生的条件及其作用的方面为什么会有大数据的产生呢?这是一个值得我们探讨的问题。总所周知,我们的世界是由大量的信息组成。例如,在购买行为中的交易往来,朋友之间的聊天记录,电视网络的传播信息,等等。与此同时,在阅读各种信息时,也会产生各种浏览记录。就这样,越来越多的数据被产生,并且需要被保存下来,所以会有越来越多的资源被占用。可是,资源是有限的,而且无限制的保存十分浪费。因此,在2009年,大数据的概念被正式提出在人们的视眼中。其实,早在1980年的时候,著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,就将大数据热情地赞颂为“第三次浪潮的华彩乐章”。【2】其实,大数据的产生也要归咎于信息科技的进步。现代计算机的发明,最初是应用于军事方面。1946年,在美国的宾夕法尼亚大学,出现了世界上第一台电子计算机——埃尼阿克,开启了计算机信息科学的大门,使人们进入了信息时代。伴随着大数据的概念普及,越来越多的领域开始使用这种网络工具。其中,最运用广泛的就是在交易过程中,拿来了解客户的需求。现如今的企业,开始十分注重搜集社交网站上的数据,根据人们的社交数据和对于网站的浏览量来进行分析客户的喜好和需求,进而达到可以更好的掌握客户的心里想法,更加有效率的满足客户的需求。同样的,在优化业务流程上,大数据的应用也不容小觑。通过对地理的定位和无线电波频率的追踪,公司可以实时地监控运输货物的具体情况以及掌握运输的调度。与此同时,也可以根据交通的拥挤情况和天气的变化,及时对运输路线作出调整,保障货物的及时送达。现如今,不仅仅是国家和企业,就连我们个人也会使用到大数据的技术。就像是,我们如今最流行的QQ计步器,他依靠我们的运动振动来进行计量我们的步行情况,并将这些数据实行网络统计,这才会有我们空间所谓的运动达人。还有,在一些交友网站中,比如百合、世纪佳缘这类型的恋爱平台,他们会依靠我们所填写的个人资料和交友意向进行匹配,然后向我们推荐最适合我们交往的对象。然而,大数据在医疗方面的应用更是令人钦佩。他在短短的几分钟之内就可以破译我们一个人完整的DNA,并依据破译出来的DNA为病人制定最佳的治疗方案。同样的,也可以根据大数据破译出的结果去预测病情的发展方向和预防疾病的发生。4.我们正在进入大数据的时代我们正在进入所谓的大数据时代。然而,正所谓凡是都有其两面性。大数据带来给我们方便的同时,他所带来的负面影响也是不可忽视的。当我们因为大数据的快捷而喝彩时,我们的个人信息也在同时被窃取。英国数据学家----维克托·迈尔·舍恩伯格,被誉为“大数据商业应用第一人”的他,早在2010年就在《经济学》上发布了长达14页对大数据应用的前瞻性研究。在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,谷歌公司把五千万条美国人最频繁检索的词条和美国疾控中心在03年至08年间季节性流感传播时期的数据进行了比较。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要,更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数字模型。在将得出的预测与07年、08年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。所以,09年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。【3】大数据时代的来临与云计算密不可分,而云计算就是分布式处理、并行处理和网格计算共同的发展,也就是说,将这些计算机科学应用到具体的领域去。但是,云计算所运用到的数据资源十分庞大,传统的存储模式和运行作用已不能满足他的需求。因此,引入了大数据的概念。5.大数据的分析工具及其应用的区域其实,大数据的最主要作用就是将我们生活中的各种资源、信息进行归纳总结,以便提供人们更好的使用和掌握这些数据。与此同时,云处理也为大数据提供了许多的基础平台。伴随着大数据的推广,网络文明或许将会迎来一场新得技术革命。大数据在许多的方面慢慢改变着人们的生活,越来越多的快捷方式将被人们所应用。但是,人们的信息泄露也是不可避免的存在。因为,在一项新型项目的兴起,他所带来的安全问题并没有很好的被考虑在内。在未来的发展中,如何进行信息管理将会成为一场新的热潮。既然大数据即将成为新的时代宠儿,那么我们该如何去判断怎样的分析工具比较适合自身的?首先来说,肯定是要看该工具数据分析的性能优劣。也就是说,其分析数据产生的结果是否真实可靠,以及分析速率够不够快。还有,运行成本是否高昂,作为普通用户的我们能否承担的起和进行数据分析的操作会不会容易快捷?这些,都是不容我们忽视的要素。6.大数据的意义在现代高速发展的社会,生活会越来越多的便利。我们这次探索了大数据的组成和来源,也明确了大数据的发展是一种必然的趋势。那么,大数据的意义何在呢?为什么我们要使用大数据?他所带来的价值又在哪里呢?在度量大数据的价值所在时,先要解析以下大数据产生的基础条件。总所周知的是,大数据的来临是伴随着云计算的盛行。但其实,大数据并不是一个最近才出现的名词,早在上世纪的80年代,大数据这个概念就已经被提出,只不过当时的人们并没有将这样一个大规模的模型所重视。因为,在那样的时代,数据存储并不需要如此大的容量。以及在进行数据处理时,也不用这样浪费资源。大数据有一个最主要的意义就是----辅助决策。各大企业、运营商依据对人们上网记录、购买交易、浏览痕迹的数据进行分析,然后根据分析的结果进行经验总结,发现其运动轨迹的变化及规律,以便更加科学、精确的判断出客户的需求。在企业决策上,大数据的分析起到了至关重要的作用。很多企业得以借助大数据对企业加强管理,提升企业运营价值和自身潜力。虽然说,大数据本身并没有什么价值可言,但是其后期对数据的处理分析结果确实具有十分大的作用。大数据的出现就是为了解决大量复杂的数据。其实,这些大量复杂的数据主要就是两种核心特点。其一,就是巨量;其二,就是复杂。巨量,顾名思义就是,数据的数量大,要处理的数据越多,则企业索要耗费的成本就越大----即付出的人力、物力就越多,花销的时间同样也越久;这是一种十分不符合商业规则的。正所谓,时间就是金钱,更何况是对于现如今竞争越发激烈的社会。今时今日,时间就是最紧张的资源。商机的重点就是在于创新、市场和服务。所谓创新,就是要有idea领先与他人;然而,市场就是要抢先占领时机,抓住潮流的前沿;那么,服务,讲