Car情报局Car情报局人工智能导论IntroductiontoartificialintelligenceCar情报局Car情报局大数据思维Car情报局Car情报局1大数据与人工智能2思维转变之一:样本=总体3思维转变之二:接受数据的混杂性4思维转变之三:数据的相关关系Car情报局Car情报局第1节1大数据与人工智能Car情报局Car情报局3.1大数据与人工智能•事实上人们对数据并不陌生。上古时期的结绳记事、以月之盈亏计算岁月,到后来部落内部以猎物、采摘多寡计算贡献,再到历朝历代的土地农田、人口粮食、马匹军队等各类事项都涉及到大量的数据。这些数据虽然越来越多、越来越大,但是,人们都未曾冠之以“大”字,那是什么事情让“数据”这瓶老酒突然换发了青春并如此时髦起来呢?Car情报局Car情报局Car情报局3.1大数据与人工智能•当互联网开始进一步向外延伸并与世上的很多物品链接之后,这些物体开始不停地将实时变化的各类数据传回到互联网并与人开始互动的时候,物联网诞生了。物联网是个大奇迹,被认为可能是继互联网之后人类最伟大的技术革命。Car情报局Car情报局Car情报局3.1大数据与人工智能•如今,即便是一件物品被人感知到的几天内的各种动态数据,都足以与古代一个王国一年所收集的各类数据相匹抵,那物联网上数以万计亿计的物品呢?是不是数据大得不得了,于是“大数据”产生了。Car情报局Car情报局Car情报局3.1大数据与人工智能•如此浩如云海的数据,如何分类提取和有效处理呢?这个需要强大的技术设计与运算能力,于是有了“云计算”。其中的“技术设计”属于“算法”。“云计算”需要从大量数据中挖掘有用的信息,于是“数据挖掘”产生了。这些被挖掘出来的有用信息去服务城市就叫做“智慧城市”,去服务交通就叫做“智慧交通”,去服务家庭就叫做“智能家居”,去服务于医院就叫做“智能医院”,……于是,智能社会产生了。不过,智能社会要有序、有效地运行,中间必须依托一个“桥梁”和借助于某个工具,那就是“人工智能”。Car情报局Car情报局Car情报局3.1大数据与人工智能•这就是为什么近几年时间内,诸如“人工智能”、“物联网”、“大数据”、“云计算”、“算法”、“数据挖掘”和“智能XX”这些时髦概念突然纷纷冒出来的理由,原来它们都是“同一条线上拴着的蚂蚱”!图3-3一根绳上的蚂蚱Car情报局Car情报局Car情报局3.1大数据与人工智能•万物大数据主要包括人与人、人与物、物与物三者相互作用所产生(制造)的大数据。其中人与人、人与物之间制造出来的数据,有少部分被感知,物与物之间制造出来的数据还根本没法被感知的。•对于人与人、人与物之间被感知到的那部分很小的数据(相对于万物释放的量来说非常小,但是绝对量却非常大),这主要是指在2000年后,因为人类信息交换、信息存储、信息处理三方面能力的大幅增长而产生的数据,这个实际上就是我们日常所听到的“大数据”概念,是以人为中心的狭义大数据,也是实用性(商业、监控或发展等使用)大数据。信息存储、处理等能力的增强为我们利用大数据提供了近乎无限的想象空间。Car情报局Car情报局Car情报局3.1大数据与人工智能•在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。而“大数据”全在于发现和理解信息内容及信息与信息之间的关系。实际上,大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法,这三个转变是相互联系和相互作用的。Car情报局Car情报局Car情报局1小数据时代的随机采样2大数据与乔布斯的癌症治疗3全数据模式:样本=总体第2节Car情报局Car情报局3.2思维转变之一:样本=总体•很长以来,因为记录、储存和分析数据的工具不够好,为了让分析变得简单,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。如今信息技术的条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大大地增加,而且未来会越来越多。•大数据时代的第一个转变,是要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。Car情报局Car情报局Car情报局3.2思维转变之一:样本=总体•在某些方面,人们依然还没有意识到自己拥有了能够收集和处理更大规模数据的能力,还是在信息匮乏的假设下做很多事情。人们甚至发展了一些使用尽可能少的信息的技术,例如统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。Car情报局Car情报局Car情报局3.2.1小数据时代的随机采样•数千年来,政府一直都试图通过收集信息来管理国民,只是到最近,小企业和个人才有可能拥有大规模收集和分类数据的能力,而此前,大规模的计数则是政府的事情。•以人口普查为例,据说古代埃及就曾进行过人口普查,那次由罗马帝国的开国君主恺撒主导实施的人口普查,提出了“每个人都必须纳税”。1086年的《末日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用《圣经》中的《末日审判书》命名,因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样。Car情报局Car情报局Car情报局3.2.1小数据时代的随机采样•然而,人口普查是一项耗资且费时的事情,尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,本意就是推测、估算。Car情报局Car情报局Car情报局3.2.1小数据时代的随机采样•三百多年前,一个名叫约翰·格朗特的英国缝纫用品商提出了一个很有新意的方法,来推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。样本分析法一直都有较大的漏洞,因此,无论是进行人口普查还是其他大数据类的任务,人们还是一直使用清点这种“野蛮”的方法。Car情报局Car情报局Car情报局3.2.1小数据时代的随机采样•美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的,必须获得正确且及时的数据,所以就需要有新技术。后来,是美国发明家赫尔曼•霍尔瑞斯(被称为现代自动计算之父)用他的穿孔卡片制表机成功地在1年时间内完成了人口普查的数据汇总工作。这简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。Car情报局Car情报局Car情报局3.2.1小数据时代的随机采样•这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?有人提出有目的地选择最具代表性的样本是最恰当的方法,后来统计学家们证明,问题的关键是选择样本时的随机性,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。•在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。Car情报局Car情报局Car情报局3.2.1小数据时代的随机采样•随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。Car情报局Car情报局Car情报局3.2.2大数据与乔布斯的癌症治疗•我们来看一下DNA分析。由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为了一门新兴产业。图3-5世界民族基因总图(美国)Car情报局Car情报局Car情报局3.2.2大数据与乔布斯的癌症治疗•从2007年起,硅谷的新兴科技公司23andMe就开始分析人类基因,这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。23andMe希望能通过整合顾客的DNA和健康信息,了解到用其他方式不能获取的新信息。公司对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。这只是该人整个基因密码的样本,还有几十亿个基因碱基对未排序。最后,23andMe只能回答其标注过的基因组表现出来的问题。发现新标注时,该人的DNA必须重新排序,更准确地说,是相关的部分必须重新排列。只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。Car情报局Car情报局Car情报局3.2.2大数据与乔布斯的癌症治疗•苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。他得到的不是一个标记的样本,他得到了包括整个基因密码的数据文档。•对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足够相似。但是,史蒂夫•乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药。乔布斯曾经开玩笑地说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。Car情报局Car情报局Car情报局3.2.3全数据模式:样本=总体•采样的目的是用最少的数据得到更多的信息,而当我们可以处理海量数据的时候,采样就没有什么意义了。如今,计算和制表已经不再困难,感应器、手机导航、网站点击和微信等被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。但是,数据处理技术己经发生了翻天覆地的改变,而我们的方法和思维却没有跟上这种改变。•在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生。如果可能的话,我们会收集所有的数据,即“样本=总体”,这是指我们能对数据进行深度探讨。Car情报局Car情报局Car情报局3.2.3全数据模式:样本=总体•在上面提到的例子中,用采样的方法分析情况正确率可达97%。对于某些事物来说,3%的错误率是可以接受的,但是你可能会失去对某些特定子类别进行进一步研究的能力。•谷歌流感趋势预测不是依赖于随机样本,而是分析了全美国几十亿条互联网检索记录。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况。Car情报局Car情报局Car情报局3.2.3全数据模式:样本=总体•通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹没掉的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。而且,因为交易是即时的,所以你的数据分析也应该是即时的。Car情报局Car情报局Car情报局3.2.3全数据模式:样本=总体•因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以用大数据去论证新的假设。当然,有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择。于是,慢慢地,我们会完全抛弃样本分析。Car情报局Car情报局Car情报局1允许不精确2纷繁的数据越多越好3混杂性是标准途径45%的数字数据与95%的非结构化数据第3节Car情报局Car情报局3.3思维转变之二:接受数据的混杂性•当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。直到今天,我们的数字技术依然建立在精准的基础上。我们假