大数据与计算机摘要:随着网络信息化时代的日益普遍,移动互联,社交网络,电子商务大大扩展了互联网的疆界和应用领域,我们正处在一个数据爆炸性增长的“大数据”时代,大数据在社会经济、政治、文化、人们生活等方面产生深远的影响,大数据对人类的数据驾驭能力提出了新的挑战与机遇。一、大数据产生的背景早几年人们把大规模数据称为“海量数据”,但实际上,大数据(BigData)这个概念早在2008年就已被提出。2008年,在Google成立10周年之际,著名的《自然》杂志出版了一期专刊,专门讨论未来的大数据处理相关的一系列技术问题和挑战,其中就提出了“BigData”的概念。进入2012年以来,大数据(BigData)一次越来越多地被提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数据,它已经出现过在《纽约时报》、《华尔街日报》的专栏封面,进入美国白宫网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国君证券、国泰君安、银河证券等写进了投资推荐报告、,大数据时代来临了。有人说21世纪是数据信息时代,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域,我们在享受便利的同时,也无偿地贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入冬大数据时代时,都将是透明的存在。各种数据政治迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性带来问题的隐患,按时随着时间的推移,人们将越来越多地意识到数据对企业的重要性,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了起那所谓有的空间与潜力。正如《纽约时报》2012年2月的一片专栏中所称:“大数据”时代已经降临,在商业、经济及其他领域中,越策将日益基于数据和分析而做出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”二、什么是大数据大数据(bigdata),或称巨量资料、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。进一步,当今大数据的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。大数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。由于大数据处理需求的迫切性和重要性,近年来大数据技术已经在全球学术界、工业界和各国政府得到高度关注和重视,全球掀起了一个可与20世纪90年代的信息高速公路相提并论的研究热潮。美国和欧洲一些发达国家政府都从国家科技战略层面提出了一系列的大数据技术研发计划,以推动政府机构、重大行业、学术界和工业界对大数据技术的探索研究和应用。三、大数据的影响大数据的研究和分析应用具有十分重大的意义和价值。被誉为“大数据时代预言家”的维克托·迈尔·舍恩伯格在其《大数据时代》一书中列举了大量详实的大数据应用案例,并分析预测了大数据的发展现状和未来趋势,提出了很多重要的观点和发展思路。他认为:“大数据开启了一次重大的时代转型”,指出大数据将带来巨大的变革,改变我们的生活、工作和思维方式,改变我们的商业模式,影响我们的经济、政治、科技和社会等各个层面。由于大数据行业应用需求日益增长,未来越来越多的研究和应用领域将需要使用大数据并行计算技术,大数据技术将渗透到每个涉及到大规模数据和复杂计算的应用领域。不仅如此,以大数据处理为中心得计算技术将对传统计算技术产生革命性的影响广泛影响计算机体系结构、操作系统、数据库、编程技术、程序设计技术和方法、软件工程技术、多媒体信息处理技人工智能以及其他计算机应用技术,并与传统计算机技术相互结合产生很多新的研究热点和课题。大数据给传统的计算机技术带来了很多新的挑战。大数据使得很多在小数据集上有效的传统的串行话算法在面对大数据处理时难以在可接受的时间内完成,同时大数据含有较多的噪音、样本稀疏、样本不平衡等特点使得现有的很多机器学习算法有效性降低。因此,微软全球副总裁陆奇博士在2012年全国第一届“中国云/移动互联网创新大奖赛”颁奖大会主题报告中指出“大数据使得绝大多数现有的串行化机器学习算法都需要重写”。大数据技术帝额发展将给我们学习计算机技术的专业人员带来新的挑战和机遇。目前,国内外IT企业对大数据技术人才的需求正快速增长,未来5-10年内业界将需要大量的掌握大数据处理技术的人才。IDC研究报告指出,“下一个10年里,世界范围的服务器数量将增长10倍,而企业数据中心管理的数据信息将增长50倍。企业数据中心需要处理的数据文件数量将至少增长75倍,而世界范围内IT专业技术人才的数量仅能增长1.5倍。”因此,未来十年里大数据处理和应用需求与能提供的技术人才数量之间将存在一个巨大的差距。目前,由于国内外高校开展大数据技术人才培养的时间不长,技术市场上掌握大数据处理和应用开发技术的人才十分短缺,因而这方面的技术人才十分抢手,供求不应,国内几乎所有著名的IT企业,如百度、腾讯、阿里巴巴、奇虎360等,都是大量需要大数据技术人才的公司四、大数据时代的人才需求许多企业充斥着大数据,这为了解和预测客户喜好和市场发展提供了大好机会。因为在竞争异常激烈的全球经济环境下,拥有正确的信息就意味着拥有竞争优势。不过这里有一个方面要注意。想成功地驾驭海量信息,公司就需要拥有相应技能的人才能如愿以偿。这些人要知道如何管理数据,建立分析系统,并且帮助解读数据。下面是有望在大数据时代发挥作用的岗位:系统管理员负责集群的日常运作,可能直接或间接地管理硬件部件,确定对额外应硬件的需求,并且实际部署硬件,系统管理员的职责还包括检测和配置。开发人员负责搭建平台、开发新型应用程序。开发人员可能更熟悉工具或算法,他们可能要编程、包装、优化或者部署不同的MapReduce事务。开发人员将收集和维护不同的代码库,他们的角色类似数据库领域的数据库管理员(DBA)。数据分析员/数据科学家数据分析员和数据科学家其实属于同一类。这些专业人员运用算法来解决分析问题,并且从事数据挖掘工作。数据分析员最大的本事就是能够让数据道出真相。此外,他们可能拥有某个领域的专长。他们将帮助开发数据产品,帮助开发推动业务发展的数据解决方案。数据专员最终负责收集高质量的数据。数据专员汇总所有进入企业的数据,并且编成目录。企业里面存在着大量的数据,Hadoop可以将这些数据集中起来。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据时代的带来使分析挖掘海量数据,对海量数据进行有效应用成为可能,也使非结构化大数据的采集分析成为社会管理、政府和企业决策、商业营销、产品研发创意、疾病预防的重要凭借和有效途径。