虽然你并没有见到过买彩票中奖的算命先生,但几乎每个中奖的人都会吹嘘自己拥有了算命先生的能力。有些中奖者,就像赵本山的小品中的人物那样,会声称自己是从梦中获得的灵感来选择号码,还有一些中奖者则会声称自己拥有某种超级预测的能力。但不管这些人如何声称自己拥有超能力,但我们可以相信,还是很少有正常的企业会高薪聘请这类人来帮助企业做市场预测分析。这是因为,随着互联网和计算机的普及,人们做决策时越来越注重“数据驱动”,也就是说更加依赖于客观的统计数据而不是某些人的所谓“判断”。在这个以事实为基础的领域中,常见的词汇都是“分析学”、“大数据”、“商业情报”以及“数据科学”等。统计科学的任务就是在大量微观个体的相互作用中发现可以被辨识的宏观模式,这些模式可以是数学公式,可以是图标,也可以是若干个更为直观的指标或指数,如均值,方差,CPI和PPI等。但是大数据预测分析则更近了一步,它不仅仅是要搞清楚宏观数据下统计规律,更要弄清宏观数据中的精细结构,例如,大数据分析既关心某款手机的销售量,更关心是哪个群体的人会更有可能购买该款手机。互联网和计算机的普遍使用每天都为我们留下海量的数据。数据仿佛只是无数事实和数字的堆砌,每条数据都显得无聊,有的人看到数据就头疼。然而正如库瓦尼先生所说的“数据是一种新型石油”那样,数据中蕴含着巨大的财富。不过数据本身还不是财富,作为原材料的数据只是一个枯燥无味的代码组合。只有通过合理有效的方法提炼出来的规律和知识才是如黄金般珍贵的财富。人的能力有限,不可能同时处理如此海量的数据,幸好现在有了计算机。但是,再强的计算机面对着每天都在指数式增长的海量数据也会感到“内存”有限,再强的CPU都会担心在某一时刻是否会因为温度太高而“自焚”。写到这里,想到了人的免疫系统。由于病毒或者细菌具有超强的变异能力,这使得新的病毒和细菌层出不穷,从理论上会趋于无限。很显然人的免疫系统中不可能储存如此多的病毒或细菌信息。面对着这样的一种情况,密执根大学的JohnH.Holland教授产生了这样的想法:大自然一定有自己的算法。这个想法的伟大之处在于,只要拥有了好的算法(软件),有限的硬件就可以做无限的事情。Holland教授指出:“正是由于适应行为而导致的复杂性,阻碍了当今世界许多重大问题的解决。”事实上,免疫系统遵循着大自然的“节约”原则,任何一个时刻储存的信息都是有限。那些长期没有出现的细菌很病毒将会被淡忘甚至遗忘,而那些最近出现在身体的治病信息则会被储存。因此,大多数人在感冒痊愈后的一段时间不再感冒,这是因为免疫系统记住了这些细菌或病毒的特征,只要出现就坚决消灭。而过了一段时间以后,这些病毒或细菌变异后将以陌生的面孔出现在免疫系统面前,从而蒙混过关,让人得病。Holland教授根据新达尔文主义的基本观点,抽象地分析了自然系统的自适应过程,提出了遗传算法(Geneticalgorithm),并以此来实现系统结构的演化过程。继遗传算法之后,很快有了进化算法、蚁群算法、鱼群算法、涌现算法和stigmergy算法等等自适应的算法。中国古代先哲老子的“道法自然”的理念在各种适应性算法中得到了完美的实现。适应性算法的出现,为一个新的学科——机器学习的诞生奠定了基础。机器学习,就是让电脑自动获取新知识和新能力,持续不断地输入现代社会最重要的非自然的人造资源:数据。输入数据→机器学习→预测→通过经验数据的反馈再学习,通过这样的一个过程将会不断提高机器的预测能力。甚至获得数据本身也可以由机器来完成。例如,当年巴拉巴斯为了获得万维网页超链接数的数据,要他的韩国学生郑浩雄设计了一个网络机器人,用它获得了需要的数据,并对这些数据进行了分析,其结果在1999年的Nature上发表,从而开创了复杂网络研究的新时代。所谓的大数据,我将其定义为与人的行为相关的所有数据。这些行为包括:消费行为、恋爱工作生育和离婚、人的思考和决策、跳槽戒烟辍学等放弃行为、人的疾病和死亡、人的撒谎欺诈盗窃和谋杀等。人们几乎所有的行为都会留下痕迹,这些痕迹就是所谓的数据。通过对这些数据的机器学习和分析可以为预测一群人或者某个人的下一步行动提供指南。例如,好莱坞的影视公司会预测,如果某剧本被制作成影片,它是否会受欢迎。如果受欢迎,主要是什么年龄阶层或社会阶层的人会更加欢迎。对于大学教务处来说,什么样的学生更会倾向于逃课、作弊、辍学等,从而尽早寻找对策进行干预。对于足球队教练来说,他要知道那些运动员会在关键比赛的关键时刻更容易“掉链子”,从而做出有效的换人安排。对于美国总统候选人来说,那些摇摆不定的选民更容易接受什么样宣传媒体和宣传口号,从而提高获胜的机会。西格尔在他写的专著《大数据预测》中提到,计算机在自我学习中发现了一些很有意思的规律,例如:提前退休会缩短寿命;网友约会时,评分越高,配对成功率越低;女歌手蕾哈娜的粉丝大都支持民主党;素食主义者不太容易误机;公共体育活动会导致本地犯罪率上升。机器学习会从这些发现中尝试建立预测能力,通过对数字的挖掘和试错,运用统计学方法和计算机科学方法实现这种预测。