谈起大数据,我们的第一反应也许是互联网、各种关于数据搜集的软件以及中国政府、专家谈及的大数据运用。比如,在研究一个社会问题中,关于数据方面,就会说“运用大数据技术,我们很容易得到这个结果”......那么什么是大数据?大数据的运用又是什么?关于大数据的发展又是怎么样的?在下面的内容里,会将大数据的起源,兴盛做详细的讲述,希望每个同学在这个过程中真正的理解数据。小数据之历史数据本无大小,但运用数据立场却分出大小,是谓大数据。数据表示的是过去,但表达的是未来,所以观察数据需要有历史观。当今美国的数据文化渗透在社会各个方面,呈现出高效,简洁,以及秩序。这一切最早可以追溯到这个国家建立之初的数据分析要求,谓之初数时代。至此,在历史的长河中一幅波澜壮阔的宏伟画卷惊艳了世界......初数时代:奠定共和克服民主的劣势:用数据分权参众两院权利分衡:众议院按人口比参议院每州两名第一次人口普查:仅询问家几人、几男几女、几黑几白、几大几小,完全的“点人头”。但在黑人问题上将“3∕5”写入宪法,承认种族不平等。第二次人口普查:学者建议收集“出生率、性别、年龄、婚姻状况、健康、职业、寿命”但最终没通过国会谈论。1830年:统计每个家庭的残疾人数。1840年:统计文盲、白痴、精神病患者数量以及各种牲畜的数量,农作物的产量。1850年:普查对象由家庭细化到个人。1860年:全国工厂、农场、学校、教堂的情况,教师、学生、雇员的多少都一一列入普查范围1880年:普查全面改革,扩大为人口、出生死亡率、农业、社会、工业等五个部分。......美国成为世界上最早定期(10年)开展人口普查的国家,并因此开创了现代意义上的人口普查制度。初数时代:奠定共和有数初成:共和反哺数据文化1.人口普查从政治领域不断扩张,蔓延政策制定,后是社会生活。1794年,在美国党政之争初现端倪时,民间就出现了批判的声音,主张通过“事实”和“数据”来营造共识、消除党争。其中当时的教育家诺亚·韦伯斯特和耶鲁大学校长德怀特,他们主张:如果事实是制定政策的基础、知识能够在决策者之间营造共识,那么系统性收集数据的工作,就应该由政府亲自来完成。最终在志同道合者的呼吁之下,最终促使人口普查在19世纪逐渐推进到政策制定领域,在这个过程中,数据开始从政治精英走向平民大众。2.数学教育的普及,数据意识,数据文化逐步形成。美国的建国者认为,共和国的目标不是愚民,而是培养有智识的公民。华盛顿、富兰克林和杰斐逊便是其中的杰出代表。华盛顿的第一份工作是弗吉尼亚州的土地测量员,深知数据对于认识客观世界的重要性,曾组织了美国的第一次农业调查。杰斐逊也曾做过土地测量员,除了是一名政治家还研究密码学、测量学和考古学。在这样一批建国者的推动下,数学教育很快在这个新生的国家普及。3.改革货币体系,统一了重量和测量单位。1831年,法国的史学家、政治家托克维尔在《论美国的民主》中写到“美国人已经习惯了精确的计算”,“他们喜欢秩序井然,没有秩序,事业就不能发达。他们特别重视信誉,信誉是生意健康发展的基础。他们的大脑已经习惯于精确的计算,按常规办事也在他们的头脑中扎根。同一时期,英国哲学家托马斯·汉密尔顿在《美国人及其作风》中总结“我认为,在这群不断猜测、估算、预期和计算的美国人当中,算数就像是一种与生俱来的本能。”比如在1825年,费城的一名医生统计了7077名新生儿的重量,并制作了一张重量分布表,发给新生儿的母亲,以方便她们对比掌握自己孩子的情况。初数时代:奠定共和从1787年到19世纪30年代,这一阶段认为是美国数据历史的初数时代,这是个孕育的时代,可谓是有数初成。在这个时代,数据好比涟漪,静静在历史长河上静静地泛起波纹,把千千万万普通人卷进它的晕圈,冲刷,洗涤,浸泡,使其成为具有数据意识的公民个体。内战时期:终结奴隶制的灯塔用数据远征:谢尔曼将军的“向大海进军”主动切断自己后方补给,带领全体部队全力突进、穿越整个佐治亚州。他试图以数据为“航标”,根据农场、牲畜、集市、车站等重要资源在各地的分布,精心计算,确定最佳的行军路线和在各地的停留时间,沿着这条线路,部队在当地完成补给,遭遇敌方最少的阻击。这被后世历史学家认为整个南北战争中“最为大胆、最为关键的一次行动”,是战争后期重要的转折点,也被称为“毁灭之路”。向大海进军兵家与“向海洋进军”自古中国多良将,也有运用数据的经典案例。孙膑减灶,破庞涓于马陵;虞诩疑兵,平羌军于西凉;林彪临战,细查歼敌缴获......但较之谢尔曼以数据行军千里,决胜沙场,均有不及。这正是因为谢尔曼有数据可用,他人给他提供了大量数据。这种“有数据可用”,源于美国建国之后就开始的、长期的、周期的努力以及强大的制度保障。有没有这种制度化的数据体系,才是近代美国将军和中国将军在数据使用方面拉开差距的根本原因。数据不仅仅应该是一种计算、科技符号,更应该是文化符号。爆发:镀金时代的崛起世纪巅峰:大数据驱动的创新1870美国历史上出现第一件用于数据处理工作的机械设备——西顿制表机。可以同步查阅各张问卷上相应的数据,大大方便了制表工作。1890年,年轻的霍尔瑞斯打开了数据自动化处理的大门;在他的基础上,IBM随之开启了一个打孔卡片的新时代;1951年,人口普查产生的大数据又促成了第一台商用计算机的诞生......这些成就,最终引领美国在全世界率先迈入了信息时代。抽样时代:统计革命的福祉最初的数据调查主要的目标是追求被调查群体的“大”,当时大家都相信,只有更大,才能更准。但随着时间推移这种方法的效率较低以及费用大的缺点的暴露,人们开始寻求新的调查方法。抽样时代:统计革命的福祉1895年,有学者提出抽样的观点,认为只要方法得当,就可以从总体当中抽出一部分有代表性的个体,通过研究部分个体的特点,从而推断出整体的属性,类似中国人所说的“一斑窥豹”、“一叶知秋”。抽样调查很快便被证实实际可用性。盖洛普在1936~2012年19次总统大选预测中,成功预测17次轰动全球。和《乱世佳人》共舞1936年在《乱世佳人》开拍之前,好莱坞对这本畅销小说看法不一,甚至一度有流拍的趋势。原因是在好莱坞出品的以南北战争为题材的电影全部亏本,没有任何一部赚钱。为了知道这部小说在美国民众的流行程度(虽然他们大概估计已有200~300万),好莱坞的电话打到了盖洛普的公司,用数据证明《乱世佳人》到底有多流行。一周之后,他告诉对方,此书非常流行,每10个受访者中,就有8个表示听说过这本书。1937年1月,盖洛普非常肯定的告诉制片人《乱世佳人》已经成为美国有史以来最流行的小说,有1400万美国人读过,其流行程度仅次于《圣经》。但在电影时长、是否分为上下两集、黑色还是彩色,再到演员选取、广告设计,制片人、剧组、发行商吵成一团。特别是制片人选定英国人费雯·丽饰演女主角后,引起了更大的争议。因为涉及美国独立,黑奴解放等重大历史事件,部分南方人认为请外国人有失国格。制片人委托盖洛普调查争议问题的方方面面。通过两年的调查,结果表明,大部分人不反对它分为上下两集;60%的观众想看彩色电影;35%的受访者对女主角的人选表示满意,远远高于不满意的比率(16%)。拍摄方在重大问题的决策中几乎全部听取了盖洛普的意见。最后,盖洛普给片方的结论是,这部电影将有5650万观众,其人数之多,将创有史以来的电影之最。但对于这个数据却没有一个人当真。最后,通过4轮上线,《乱世佳人》一共售出了5997万张电影票,票房毛收入为3400万美元,而1940年美国的人口普查结果为1.3亿人口,也就是说,全国近一半的人观看了这部电影。正如正如了盖洛普预测的那样,这部影片成为美国历史上迄今为止最成功的电影。电影获得了1940年最佳影片,最佳女主角等十项奥斯卡大奖,这部小说也因为注重史实,获得1937年的普利策小说奖。盖洛普成功的法宝就是“科学抽样”,他没有盲目地大面积调查,而是根据民众的人口特点,确定家庭主妇、工人、农民、老人、中年人、年轻人等各色人群在样本中应该占有的份额,再确定电话访问,邮件访问,街头访问等各种调查方式所占的比例。由于样本找的准,所以能以“小”见“大”。抽样时代:统计革命的福祉通过美国波澜壮阔的的数据文化发展,我们对传统的数据(小数据)有了一定的认识。一个数据治国的理念需要几十年甚至是几百年的发展但对数据的使用并不如此。中国现在正处于数据化浪潮之中,何去何从,关键在于对大数据的利用。大数据=传统的小数据+现代的大记录(源于测量)(源于记录)大数据的崛起每个国家都在追求一条自己的道路,这条道路,根植于这个国家人民的文化中。开放的经济、开放的社会和开放的政府,是人类社会之所以能够进步最深厚、最强大的基础。——奥巴马,在联合国大会的演讲,2014.09开放时代:内开放的历程内开放也就是国家内部的“人、财、物、信息”对社会开放。这关系到公民的自由、权利,也是政府管理社会、调控市场、服务经济的发展的有效手段。在数据的时代里,数据将成为重要的生产资料和创新资源,内开放的程度,也将决定一个国家的发展动力,一个社会的创新的活力。开放时代:内开放的历程美国社会经历的内开放三部曲LEHD项目:开放数据的使用权LEHD(工作单位和家庭住址的纵向动态系统)工作职位数据个人数据工作单位数据通过整合,实现了以下目标:•首次把个人住址和个人单位地址联系在一起•可以查询同一街区内有多少雇员上班,为科学估算白日人口打下了基础•可以追踪每个公司的雇员数量几流动来源于州政府的劳工部门•行业、类别•公司职工数量•公司地址来源于州政府的劳工部门•失业保险•社会保险•报税记录主要来源于人口普查局和社会保险局•年龄、性别、种族•个人住址LEHD项目的数据来源和三级政府的数据整合框架从2006年起,普查局为LEHD开发了一个基于地图的互动式界面——OnTheMap,无偿提供给大众使用。只要有一根网线,无论你在世界的哪一个角落,也无论你是哪国人士,甚至无需注册,你都可以随时登陆,查询这些数据。LEDH的真正强大之初,还在于其数据分析的粒度,它可以按地区、邮编、选区、人口普查的片区等各层单位对数据进行层层下钻,甚至连一个居民街区的人口情况都能分析出来。本街区工作人员来源的方向和距离位置除了这些分析,LEHD系统还有一个最大的特点,即提供以时间为跨度的纵向数据分析,这也是该系统被称为“纵向动态”的原因。假如你是小区的管理者和研究者,通过这个系统,你可以轻松的获得关于检测地区工作职位和居民人口的变化。开放时代:内开放的历程数据开放正在从公共领域向商业领域渗透和推进,尤其是商业领域的数据开放,将减少市场运行中的信息不对称,鼓励正面的市场竞争,优化社会资源配置,降低社会运行的成本。在大数据时代,数据就是最重要的生产资料,数据在全社会的自由流动,就代表着生产资料的盘活,知识和创新的自由和流动,内开放3.0将催生人类历史上前所未有的开放社会。大数据时代:通往计算型的智能社会大数据摩尔定律社交媒体数据挖掘人类保存数据的能力增强人类生产数据的能力增强人类使用数据的能力增强价值维度容量维度大数据大数据大数据大容量非结构化数据现代的大数据大价值结构化数据传统的小数据大数据的概念和维度