1大数据时代姓名:廖昱桦专业:经济统计学学号:41409051上课时间:周五89节一、引言这个时代,无论是商人圈钱,政客邀功,还是大爷闲暇之时树下碎谈,大数据都成了他们唾手可得的廉价谈资。请允许我用老大爷式的闲谈来开启这篇报告:“我们那个年代,有啥子网络哦,吃饱喝足就不错了。”“现在这个社会还是可以的,买东西直接上淘宝就可以了,巴适得很。”“是啊,淘宝还要给你推荐一些东西,每次都合心意,真是可以。”好了,闲谈暂时告一段落。在报告的开篇,先提出几个疑问,便于引出报告内容:大数据到底是个啥?它大在哪里?它为什么那么火?二、小数据在搞清楚什么是大数据之前,有必要谈一谈小数据。在数据收集、数据处理技术高度发展之前,也就是2000年以前(存储介质:在2000年的时候,数字存储信息只占全球数据量的四分之一,也就是说75%的信息保存在报纸、唱片、录音磁带等等媒介上;过了七年,2007年,全球数据只有7%存储在报纸,书籍、图片等媒介上的模拟数据,其余全是数字数据。数据处理能力:在1986年的时候,世界上40%的计算能力都运用在袖珍计算器上,也就意味着大量的计算能力是极其分散而且低效的,对于一些社会性、群体性的问题,人类是没有办法的;不过随着微电子技术的高速发展,个人认为,正是微电子科技的突飞猛进,软件开发、互联网建设才能随之进步,处理能力是这个时代的基础,人们耳熟能详的“摩尔定律”正是这个时代真实的写照)。小数据是精确的。在我们脑海里,调查的精确度是考量调查结果水平很重要的一个因素,越精确的数据,越直接的样本,往往与越优秀的结果挂钩。这种思维是建立在传统统计学的基础之上的,推断性统计学的流程大致分为:设计、推断、决策,推断的前提是确定准确反映总体性质的样本,所以收集准确的样本标志信息尤为重要,样本的数据在统计推断过程中的地位堪比原始票据在会计核算过程中的地位。它是基2石,它是世界数据之河的涓涓源头。有趣的一个案例是机器翻译方法,在其进化历程,布朗语料库和谷歌语料库是不得不提的两个典例,在某种意义上,谷歌语料库是布朗语料库的一个退步,因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。但是,谷歌语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了缺点。在这个案例我门可以看出,小数据时代,科学家们处女座般追求精确,而大数据时代,科学家们海纳百川,来者不拒,极力追求结果的优越性。小数据是狭隘的。小数据是低纬度!如果你是一名大学生话,在漫长且充实的校园生活里,会接触到不同的学习项目,许多项目都会涉及统计工作,在这些比较初级的统计调查中,能对小数据的狭隘管中窥豹。在一次调查过程中,调查者能够收集一个受访者的哪些数据呢——姓名、年龄、职业、住址......一份问卷能包括多少数据呢——大概不过数十个指标而已,而且这些数据绝大部分是历史数据,是截面数据。所以小数据是低维度的。小数据是细致有序的。正如之前提到小数据是精确的一样,小数据也是井然有序的。同样的,请让我用例子来解释这一点。在内容分类方面,几个世纪以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源,。在几十几百的量级,这样有序的检索方法能让你快速的找到自己需要的数据,然而在更高的量级——几千几万几亿......你将迷失于数据海洋而无法自拔,最典型的莫过于图书馆卡片目录。三、什么是大数据?那么大数据是什么?大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策能力、洞察分析能力和流程优化能力来适应海量、高增长率和多样化的信息资产。在上文介绍完小数据之小,此处让我们来谈一谈大数据之大。由于之前已经比较详尽地阐述了小数据的三个特点——精确、狭隘、有序,那么大数据的三个特点也就很明了了——模糊、宽泛、灵活,这三个特点从根本上决定大数据在社会经济生活中的作用。且让我将其分为两个方面——分析、预测。1、分析3大数据是指不用随即分析法这样的捷径,而是采用所有数据的方法。基于样本=总体的原则,大数据在分析领域,有着鲜明的特点。芝加哥一位很有前途的经济学家斯蒂夫通过对日本数十年大量的相扑比赛的相关数据进行分析,得出相当一部分的比赛存在作假现象的结论。日本相扑界的薪金制度十分怪异,只有当选手的胜场不少于负场时,选手才能获得薪水,如果胜场少于负场,那么将颗粒无收。所以,对于一些与薪金相关的关键场次,作假现象便不足为奇了。那么如果采用传统的随机采样分析法,那么将无法得到这样有趣且深刻的结论。2、预测预测可以说是大数据的皇冠,预测是大数据征服世界的必杀技。大数据能预测哪些现象呢?大数据能预测机票未来预期价格,大数据能预测预测流感爆发,大数据能帮助公司知道女孩怀孕,大数据能帮助阿里云知道谁需要贷款......没错,大数据能够看到很多我们看不到的现象,它就像巫师一样工作,像幽灵一样存在,并且永远不知道它的终点在何处。可是要做到这样的预测可并不简单,大数据时代寻找数据永远不是困难的事情,寻找事物与事物之间的关系才是最关的一点。四、大数据真的完美吗?1.大数据是危险的。大数据立志于挖掘样本点与样本点之间的相关性,它的座右铭是:知道人们为什么对这些信息感兴趣可能是有用的,但是这个问题目前并不是很重要。不是很重要=经济价值不大=市场需求不大=针对该领域的研究不多,设想一下,如果牛顿脑袋里装的是大数据思维,那么在被苹果砸中之后,他将不会研究力学问题,而是转身在大数据库中记上一笔——别呆在苹果树下,会疼。人类,这还是你挚爱的大数据吗?2.大数据是非常危险的。没错,大数据可以分析每个受众的兴趣、爱好、性别、家庭背景......没错,它可以给你推荐你所喜爱的书籍、电影、运动、游戏......没错,你可以迅速感受到欢愉,没错,一面厚实的围墙已然将你与世界其它可能隔绝......如果大数据从十七岁开始分析你的行为,得出你的选择倾向,向你提供各种网络小说、青春电影、打击类游戏......那么在你生命的剩余岁月,你将错过海子的苦难、4三傻大闹宝莱坞的励志、围棋的精妙......你将停留在这个年龄无法前进,大数据在满足需求时也默默扼杀了潜在可能,因为它只知道你选了什么,而不知道你潜在的选择是什么。当然,前面对大数据的分析有耸人听闻之嫌,不过我仍然认为适度的谨慎是必要的。五、结语、寄语正如《大数据时代》一书中结语说到:大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的将来。大数据不是万能的,它可以改善我们生活,却不能决定我们的一切,它可以发现问题,却不能解释问题。自然世界仍将美好,太阳仍将东升西落,人类仍将进步。