大数据心得体会65848

q2132359
0 ℃
2020-10-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大数据心得体会早在2007年，人类制造的信息量有史以来第一次在理论上超过可用存储空间总量，近几年两者的剪刀差越来越大。2010年，全球数字规模首次达到了“ZB”（1ZB＝1024TB）级别。2012年，淘宝网每天在线商品数超过8亿件。2013年底，中国手机网民超过6亿户。随着互联网、移动互联网、传感器、物联网、社交网站、云计算等的兴起，我们这个社会的几乎所有方面都已数字化，产生了大量新型、实时的数据。无疑，我们已身处在大数据的海洋。有两个重要的趋势使得目前的这个时代（大数据时代）与之前有显著的差别：其一，社会生活的广泛数字化，其产生数据的规模、复杂性及速度都已远远超过此前的任何时代；其二，人类的数据分析技术和工艺使得各机构、组织和企业能够以从前无法达到的复杂度、速度和精准度从庞杂的数据中获得史无前例的洞察力和预见性。大数据是技术进步的产物，而其中的关键是云技术的进步。在云技术中，虚拟化技术乃最基本、最核心的组成部份。计算虚拟化、存储虚拟化和网络虚拟化技术，使得大数据在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行，在经济上也可接受。在人类文明史上，人类一直执着探索我们处的世界以及人类自身，一直试图测量、计量这个世界以及人类自身，试图找到隐藏其中的深刻关联、运行规律及终极答案。大数据以其人类史上从未有过的庞大容量、极大的复杂性、快速的生产及经济可得性，使人类第一次试图从总体而非样本，从混杂性而非精确性，从相关关系而非因果关系来测量、计量我们这个世界。人类的思维方式、行为方式及社会生活的诸多形态（当然包括商业活动）正在开始发生新的变化。或许是一场革命性、颠覆性的变化。从这个意义上讲，大数据不仅是一场技术运动，更是一次哲学创新。1大数据的概述1.1大数据的概念大数据（BigData）是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高，或者其结构不适合原本的数据库系统。为了获取大数据中的价值，我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息，在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源，如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲，大数据的价值体现在两个方面：分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息，例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息，定制出高度个性化的用户体验，并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合，谷歌、雅虎、亚马逊和Facebook，它们都是大数据时代的创新者。1.2大数据的三层关系第一层关系：数据与机器的关系。大数据纪元刚开始，产业界碰到的第一个核心问题就是“大”的问题。做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大的数据，怎么办？需要范式切换。主要有三个方面，新型的数据与机器关系当中的第一条就是重新考虑架构与算法，重新考虑舍得，有舍才能得，天下没有免费的午餐，所以必须要舍弃一些，得到一些新的。必须舍弃贵族化的高端小型机和UNIX服务器，得到平民化的更大量的X86服务器。通过这样一种可横向、可水平扩展服务器处理每两年翻番的数据量的挑战。第二个舍得是舍弃硬件的可靠性和可用性，得到软件的可靠性和可用性。这也就是谷歌三大论文以及Hadoop的核心重点。第三个舍得是舍弃传统数据库的强一致性，获得更放松一致性、可扩展架构，如NoSQL。第四个舍得是传统算法强调非常严格的精确性，现在要放弃一些精确性，通过近似、采样这种方式来获得更好的扩展性。最早大数据的处理范式是Mapreduce的批量处理，英特尔慢慢有其他的需求，实时的流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐放，最后万法归宗。刚才王斌老师将讲的SAP的HANA本身就是数据管理和分析的融合，现在非常流行的Hadoop之后的SPARK，就是把前面的各种范式进行了融合。存储与内存的消长，大数据第一个要解决把数据存储下来，后来发现要把它放到大的内存里进行处理，获得实时性，接着在存储和内存之间现在又出现了闪存，有闪存化甚至全闪存的存储，也有闪存化的内存，把所有的计算在闪存里面处理，已经被微软、Facebook等等大量使用。大家可以预期，两年以后出现新的非易失性的闪存，它的速度可能要比闪存快几百倍，和内存相似，这又会极大地颠覆数据与机器的关系。第二层关系：数据与人的关系。主要是价值的觉醒，如果数据不能产生价值它可能是负面资产。数据怎么能够给人带来价值？我们介绍一下它的价值维度，把它映射到二维的时空象限里，用六个关键词来描述它。第一是“Volume”，两个关键词，小数据见微对个人进行刻划，大数据知著能够了解宏观规律，它是空间概念，同时也是时间概念，数据刚刚产生的时候，它的个性化价值、见微的价值最大，而随着时间的推移，它渐渐退化到只有集合价值。第二是Velocity，时间轴的原点是当下实时价值，副轴是过往，正轴是预测未来，如果知道知前后就能够做到万物的皆明。第三是Variety，多源异质的数据，能够过滤噪声、查漏补缺、去伪存真，就是辩讹。还有晓意，能够从大量的非结构化数据中获得语意，从而能够使机器窥探人的思维境界，这六个价值维度怎么去实现？主要是两部分人，一是数据科学家要洞察数据，另外一个是终端用户和领域专家要去解读数据并利用数据。首先看洞察数据，数据科学，人和机器作用发生了消长，讲个例子，机器学习大家觉得是机器的问题，其实人在里面起到很重要的作用，尤其是机器学习是模型加特征，而特征工程是一个人力工程，你要有经验非常丰富的特征团队去死磕特征，找出更好、更多的特征，才能够使机器学习的效果更好。但是现在深度学习这些新技术出来，能够用机器学习特征，能够在大量非结构化数据中找到丰富的信息维度用特征表达出来，这远远超出了人的能力。大家知道黑客帝国描述了一个场景，人脑袋后面插一个插头，给机器提供营养，我可能不会那么悲观，但是像这样的互动关系以一种更良性的方式出现了，现在人的一言一行、社交行为、金融行为都已经成为机器的养料、机器的数据，使得机器获得更好的洞察。终端用户需要更好地、更傻瓜化的分析工具和可视化工具，两年前我去参加大数据的会，基本上都是Hadoop和NoSQL现在大家参加大数据会可以看到清一色的分析工具和可视化工具。大数据跟各行各业的化学作用正在发生。如果马化腾说“互联网+”是互联网与各行各业的加法效应，那么大数据将与各行各业产生乘法效应。第三个关系，数据与数据的关系。现在只有海面平的数据是搜索引擎可以检索到，深海的数据可能是黑暗的数据，在政府、在企业里大家看不到。我们怎么办呢？必须让数据发现数据。只有让数据能够发现数据、遇到数据，才能产生金风玉露一相逢、便胜却人间无数的效果。这里有三个重要的观念，需要法律、技术、经济理论和实践上配合。法律上要明确数据的权利，数据所有权，数据的隐私权，什么数据不能给你看；数据的许可权，什么数据是可以给你看的；数据的审计权，我给你看了以后，你是不是按照许可的范围去看；数据的分红权。数据像原油又不同于原油，原油用完了就没有了，数据可以反复地产生价值，因此数据的拥有者应该得到分红。我们要保证数据的开放、共享、交易。公共数据和部分科研数据要开放，开放过程中注意保护隐私。企业之间可以进行数据的点对点共享，最高境界是不丢失数据的所有权和隐私权的前提下共享，这里有多方安全计算的概念。1982年姚期智老先生提出了百万富翁的窘境的问题，两个百万富翁他们想要比谁更富，但是谁都不愿意说出来自己都多少钱，在我们的数据共享当中要通过各种各样的技术达到这样的效果。还有数据交易，建立多边多边平台来支持数据交易。互联网能发展起来经济学理论和实践是很重要的支撑，梅特卡夫定律决定了一个互联网公司的价值，跟它用户数的平方成正比，又比如说谷歌请最好的经济学家，它的一个广告业务的核心就是建立在一个非常先进的拍卖经济学的模型基础上。数据经济也需要这样一些基础的理论，比如数据定价和信息定价不一样，信息做一个咨询报告5000美金卖给你，可以卖给所有人。但数据对不同的单位价值不一样，可能我之毒药是彼之蜜糖。另外估值，一个企业拥有大量的数据，是无形资产的一部分，对于企业的市场价值带来了多大的增长。1.3大数据的四个特性大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义，在对数据描述的基础上加入了处理此类数据的一些特征，用这些特征来描述大数据。当前，较为统一的认识是大数据有四个基本特征:数据规模大(Volume)，数据种类多(Variety)，数据要求处理速度快(Velocity)，数据价值密度低(Value)，即所谓的四V特性。数据规模大(Volume)：企业面临着数据量的大规模增长。例如，IDC最近的报告预测称，到2020年，全球数据量将扩大50倍。目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模范围从几十TB到数PB不等。简而言之，存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外，各种意想不到的来源都能产生数据。数据种类多(Variety)：一个普遍观点认为，人们使用互联网搜索是形成数据多样性的主要原因，这一看法部分正确。然而，数据多样性的增加主要是由于新型多结构数据，以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中，部分传感器安装在火车、汽车和飞机上，每个传感器都增加了数据的多样性。处理速度快(Velocity)：高速描述的是数据被创建和移动的速度。在高速网络时代，通过基于实现软件性能优化的高速电脑处理器和服务器，创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给用户，以满足他们的实时需求。根据IMSResearch关于数据创建速度的调查，据预测，到2020年全球将拥有220亿部互联网连接设备。数据价值密度低(Value)：大数据具有多层结构，这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据，大数据存在不规则和模糊不清的特性，造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式，能够被标准的商务智能软件识别。目前，企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。1.4大数据的三个特征除了有四个特性之外，大数据时代的数据还呈现出其他三个特征。第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求.第二个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。第三个特征是处理速度快，时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。2大数据的技术与处理2.1大数据的技术1.数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。2.数据存取：关系数据库、NOSQL、SQL等。3.基础架构：云存储、分布式文件存储等。4.数据处理：自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguageUnderstanding)，也称为计算语言学(ComputationalLinguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI,ArtificialIntelligen