大数据随着网络信息化时代的日益普遍,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域,我们正处在一个数据爆炸性增长的大数据时代,大数据在社会经济、政治、文化,人们生活等方面产生深远的影响,大数据时代对人类的数据驾驭能力提出了新的挑战与机遇。“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。一、大数据时代产生的背景进入2012年以来,大数据(BigData)一词越来越多地被提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数,它已经出现过在《纽约时报》、《华尔街时报》的专栏封面,进入美国白宫网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国君证券、国泰君安、银河证券等写进了投资推荐报告,大数据时代来临据。有人说21世纪是数据信息时代,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。我们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是透明性存在。各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”二、什么是大数据?美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据”这个术语最早期的引用可追溯到apacheorg的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFileSystem(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。大数据(BigData)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。(一)、大数据四个特性海量性:企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。多样性:一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。高速性:高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMSResearch关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。易变性:大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。(二)、大数据三个特征除了有四个特性之外,大数据时代的数据还呈现出其他三个特征。第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。三、大数据时代对生活、工作的影响大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。且中国物联网校企联盟认为,物联网的发展离不开大数据,依靠大数据可以提供足够有利的资源。大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。“大数据”的影响,增加了对信息管理专家的需求。事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。大数据在个人隐私的方面,大量数据经常含有一些详细的潜在的能够展示有关我们的信息,逐渐引起了我们对个人隐私的担忧。一些处理大数据公司需要认真的对待这个问题。例如美国天睿资讯给人留下比较深刻印象的是他的一个科学家提出,我们不应该简单地服从法律方面的隐私保护问题,这些远远不够的,公司都应该遵从谷歌不作恶的原则,甚至更应该做出更积极的努力。四、大数据时代的发展方向、趋势虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。大数据的整体态势和发展趋势,主要体现在几个方面:大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和整个产业的影响。大数据整体态势上,数据的规模将变得更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。大数据的发展会催生许多新兴新职业,会产生数据分析师、数据科学家、数据工程师,有非常丰富的数据经验的人才会成为稀缺人才。随着大数据的发展,数据共享联盟将逐渐壮大成为产业的核心一环。随着大数据的共享越来越大,隐私问题也随之而来,比如说每天手机产生的通话、位置等等。但这给带来了便利的同时也给带来了个人隐私的问题。数据资源化,大数据在国家和企业和社会层面成为重要的战略资源,成为新的战略制高点和抢购的新焦点。随着社会的不断发展,大数据对IT技术架构的挑战,大数据的生态环境问题,大数据的应用及产业链将日益突出。数据与机遇数据:成功的新前线众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式等所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容
本文标题:大数据详细介绍.
链接地址:https://www.777doc.com/doc-8552803 .html