大数据的基本概念大数据是指无法在一定时间内用传统数据管理方法(如数据库管理软件工具)对其内容进行抓取、收集、管理、分析处理的数据集合这个定义并不严谨,但这是学术界和工业界应用领域最广泛引用的一个定义。大数据的特点大数据具有4V特征:Volume:数据量巨大,是区别于传统数据库管理方式的最显著特征,一般DBMS处理的数据量在TB级,而大数据所处理的体量在PB级以上。Variety:数据类型多,不仅仅是单一的文本形式或结构化数据表,还包括交易订单、日志、微博、社交关系数据、音频、视频、位置数据、GIS、遥感等。Velocity:数据流动速度快,速度是大数据区别于传统数据的重要特征,在海量数据集合中需要实时分析获取需要的信息,处理数据的效率至关重要。Value:数据潜在价值大,在技术研发领域,前面三个特点已经足够表征大数据的特点,但是在商业应用领域,价值特征就十分关键,如何通过强大的数据分析技术更迅速地完成数据的价值“提纯”,挖掘出大数据的潜在价值,是目前亟待解决的难题。传统数据思维方式与大数据思维方式1.传统数据思维注重因果关系,大数据思维注重关联关系大数据思维方式的变革是在实践思维方式的指导下进行的,那么我们就应当从两个方面入手,一是如何解释世界,二是如何改变世界。过去的研究往往基于因果关系,认为原因和结果是哲学上一对重要的范畴,原因和结果之间构成的因果关系也是人们解释世界所必不可少的。因果关系是解释客观世界事物普遍联系中先后相继、彼此制约的关系。人们在生活中、工作中解释事情的原因和来由经常使用因果关系是非常普遍的,由此,可以看出因果关系在我们的思维模式中占据着非常高的地位。在大数据时代到来的今天,许多数据中发现的事实难以通过因果关系来解释,这时我们可以考虑用相关关系来尝试解释它们。在小数据时代,当我们不能够对整个环境和所有的对象进行检测分析的时候,大胆地假设其原因,然后再小心地去求证,这无疑是当时追寻真理的正确道路,只有在这样的情况下,我们才能够不断地发现和验证一些客观规律的存在,才有了科技发达的今天,因果关系功不可没。这种由“果”寻“因”的思维方式具体延续了多长时间我们无从考究,但是,我们可以知道的是,这种方式有着很大的局限性。因为从结果去找原因的第一步往往是靠猜测,靠假设,这种方法带来的只会是巨大的工作量和较长的时间,而且一旦假设出现错误,之前所做的所有工作将没有任何意义。对于假设的方向,我们也常常出于节省时间的考量来选择一些表面上就已经存在一些我们可以看得出的规律的因素进行假设,然后去验证,根本不会将两个毫不相关的事物去尝试着看看两者之间是否存在着某些规律,因为这样无疑是在浪费时间。这样就会漏掉许多表面上看似无关,实则有着深层次之间关联的、复杂的、让人难以发现的规律,这些在小数据时代是无法进行发现和研究的。最为重要的是,即使我们研究出了某两事物之间所存在的因果关系,但我们仍然不能保证在不同的环境下,它们是否还能够保持这样的关系,毕竟复杂的环境总会产生各种各样的影响,所以在许多研究结果中,需要进行假设是在某种理想环境中才可以成立。如果你想找到是环境中的哪种因素对他们产生了影响,那么你只能再一次从假设开始了。由上述内容,我们已经能够看出,因果关系在解决许多事情时会有一定的局限性,存在一部分难以解决的问题。虽然我们不能否认因果关系的重要意义,没有因果关系就没有现代先进的科学技术,但是我们也应该学会转换一下,将目光投向更加科学地、考虑更为全面的相关关系上面。“相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。”《大数据时代》一书中,这样解释了相关关系。在大数据时代,传感器的大量运用,物联网可以将我们周身的一切的数据都收集起来,通过数据分析的方式,我们可以轻而易举地发现某些数据值之间是否存在着相关关系,一旦他们的数值存在相关关系,那么我们就可以通过控制其中一个数据值的增减来控制另外的数据值,或者利用这种关系进行其他的安排,完全不用去考虑这几组数据值的背后存在着什么样的内在联系。我们可以仅仅从数据上发现事物与事物之间的联系,而且是直接得出关系的类型、方向,不再需要提出假设小心求证,我们有条件将多种数据放在一起去分析,哪怕他们看起来并没有什么联系,甚至我们可以把一定范围内的所有数据拿来分析,这在小数据时代是根本不可想象的。大数据时代把相关关系变成了一条通往真理的捷径,我们只需要在数据上进行分析与挖掘,就可以得到真实而有效的结论,这样的进步,如果不将其有效地运用起来,就只能被社会进步的潮流所抛弃。2.传统数据思维是“以小见大”,大数据思维是“以大见小”小数据时代,没有收集和处理大规模数据的能力,人们就利用整体与部分之间的关系发明一种方法来用部分的数据证实尽可能重大的发现,这就是统计学的由来。这种方法利用了整体与部分的关系,部分具有整体的一些特征,可以从部分认识整体。在统计大规模数据时,人们会选取其中的一部分作为样本,对样本进行分析,从而达到对整体数据的推算,这就是采样分析法。再到后来,人们意识到采集的样本并不是越多越好,而是随机性与精确性成正比,样本选择的随机性比样本数量更重要。从此,随机采样变得非常重要,成为了现代这会和现代测量领域的主心骨,它可以通过少量的随机样本,对整体数据进行推算和统计,而且拥有很高的精确率,这无疑是小数据时代,不可收集和分析全部数据的情况下,所能达到的最完美的结果了。正因为它是小数据时代对技术水平低下的妥协之举,自然就存在着各种各样的缺陷,随机采样的成功取决于采样的绝对随机性,而如何保证随机性确是一件非常困难的事情。采样的经过如果稍带任何偏见,那么最终得到的结果就会相去甚远了。例如,2008年的美国总统大选,民调组织做各种各样的预测,其中有一个部分的群体是移动用户,如果忽略掉他们,这些民调组织所作出的预测结果将会存在很大的偏差。另外,随机采样不能进行深入的分析,只能在宏观的领域上,进行一些分析,而微观领域则很难发挥什么作用。随机采样同样也不可以进行子类别的考察,因为随机采集的样本本身就是随机下的结果,由这些样本分析出的结果误差很小,但如果将其分门别类进行细分,这必然会只能得到错漏百出的结果了。由此,我们可以看出,随机采样是对无法收集和处理大规模数据的个妥协,也是一条捷径,可以让我们在无法完全掌握整体数据的情况下,还能对其进行整体的方向性的把握。但是,捷径终将还是捷径,还是无奈之举,它的局限性一直都非常明显地摆在我们面前。大数据时代的到来,我们有了收集和处理大规模数据的能力,如果还是采用以前那种用尽可能少的数据来完成分析的话,未免真的是有些得不偿失,毕竟在大数据时代,增大样本随机性甚至比直接拿所有数据来分析来的更困难,而直接将全部数据作为样本进行分析,我们将会拥有更多样化,准确性更高的分析结果。对于小数据时代的采样,有一个致命的缺陷,那就是采样必然忽略细节,哪怕你的采样再随机,也不可能进行细节上的分析。而大数据时代的样本就是总体,直接对全体样本就行分析,可以更加清晰的对细节处进行分析研究,我们将可以“以大见小”。然而,在这里“大”将不一定是整体的范畴,这个“大”已经超越了整体,甚至处于整体之外,全体的数据可能是这个整体内的、也可能是超出这个整体的。因此,“以大见小”并非是用部分与整体这种因果关系下产生的思维方式,而是运用大数据时代的相关关系来进行研究与探索。在小数据时代,我们运用直来直去的因果关系和整体与部分之间的关系,对个别的样本进行分析,永远也无法达到样本等于全体的高度,忽略细节只能是对当时科技水平的妥协。在大数据时代,数据的储存、分析和处理技术可以让我们对全体数据进行分析时,我们将更准确地抓住事物的细节,而且是所有的、全部的细节。同时,大数据的“大”,并不是绝对意义上的大,虽然大多数情况下是这个意思,但是,我们应当明白的是大数据的“大”是全体,是所有数据、全部数据,这些数据可能处于某一个系统内,更多时候是超越了某一个系统整体的,那么我们的眼光也必将超越某一个系统和某一个整体,看到更多零碎事物之间所存在的联系,这种联系间将不一定存在因果关系,但很可能有相关关系的存在,利用相关关系对这些联系进行研究,将会得到我们之前从未得到过的结论。在大数据时代,我们应该全力挖掘相关关系的潜力,通过“以大见小”的方式,研究各种零碎的、看似无关联的事物之间的联系。在大数据来临的时候,人类应当变革的就是基于因果关系和整体与部分之间关系的“以小见大”的思维方式,“以小见大”是科技不够发达的局限,造成无法直接看到“大”,只能通过“小”来间接的看到“大”的无奈妥协。如今,不再需要我们用“以小见大”的方式来看世界,我们可以直接收集和处理事件所产生的全部信息和数据,我们有了“以大见小”的基础。同时,我们已经有了研究事物之间的途径——相关关系研究,有能力更进一步的对细节进行分析,那么就理所应当把目光更多地投向全体数据和更细微处的细节。3.传统数据思维追求精确,大数据思维接受混杂大数据时代的到来是因为我们的数据科技可以对量级非常大的数据进行储存、传输、处理和分析等等,然而这些数据只有5%的是结构化的数据,这些可以适用于传统的数据库,而剩下的95%的数据都是非结构化数据,这些数据是不能被传统的数据库所利用的。传统的数据库是执着于精确性的,如果我们不接受混乱,那么只有5%的数据可以研究,剩下的95%都无法被利用,那么也就谈不上大数据时代了,所以说,大数据时代不是追求精确,而是接受混杂。对于小数据时代而言,数据量的收集非常困难,所能收集到的数据量比较少,那么只能尽量的去保证所收集数据的质量,保证数据的准确率、精确性,这样才能够利用数据来分析问题。在这种情况下,对于数据的收集最重要的就是追求精确了,那么过去的许多科学家都在努力的改善测量、收集数据的工具,力图使数据的精确性更高,更准确。这是小数据时代的现实,也是小数据时代的无奈,大量数据收集的困难远远超过提升小范围数据的精确性,那么小数据时代追求精确似乎也就成了追求真相唯一的途径。在大数据时代,我们开始扩大数据规模的时候,就必然地要学会拥抱混杂,我们应当改变小数据时代追求精确性的思维方式,从而选择接受混杂的思维方式,放弃“板上钉钉”似的确信无疑,学会用概率来说话,这样我们才能适应大数据科技给我们带来的改变,才能更好地利用大数据,发展大数据。接受用概率来说话的表达方式,就是接受混杂、容忍错误的表现。大数据时代我们拥有了对大量数据进行收集、储存和分析的能力,也拥有了对于不同格式的数据进行分析挖掘的能力,那么我们为什么还要去执着于追求小数据精确性呢?对于精确性的要求,对大数据来说,或者说对现阶段的大数据来说,并没有太大的意义,因为,我们可以通过大规模的数据对事件的掌控有着小数据时代所不可能达到的高度。因此我们将转换我们的角度,张开双手接受混杂,将眼光从精确性上挪开,放在大数据上。对于数据分析来说,错误和混乱的数据点可能带来不确定性,当我们只拥有一小部分数据时,我们不得不考虑这些错误和混乱给整个结果带来的影响,但当我们手中拥有了大量甚至全部的数据时,某些错误和混乱就再也不能够对我们的数据分析造成影响。那么我们就应该学着去利用大量的数据,同时也接受错误和混杂的存在,这样对于大数据的前进、甚至是整个科技的前进都具有着颇为重要的意义。接受混杂不是退步,我们不应当去避免混杂,而应该主动去迎接混杂,去拥抱混杂给我们带来的更多样化、更全面性的信息,这是大数据时代所拥有的特征,使我们前进的必经之路。接受混杂对于我们意味着接受了更多的数据,接受了更多的数据则意味着我们站到了更高的高度。当我们站在更高的高度时,我们就可以转换过去小心翼翼的从细节处入手,一步步推导、揣测全貌,一点一点的试图影响全局。大数据时代,我们应当转换思维,接受混杂,站在高处,对事物进行总体把握,全局掌控。如果说“以大见小”的思维给了我们一条解释世界的新途径,那么对于接受混杂来讲,就是另一种改变世界