因素空间理论在大数据中的应用汪培庄辽宁工程技术大学(在大数据与数据科学进展主题论坛上的发言稿,经过整理)我国数据与机器智能科学工作者肩负着引领大数据时代浪潮的重任,这是关乎我们能否顺利实现中国梦的大事。无论多困难,我们一定要争取走向前列。作为在信息革命领域里头曾经撕杀过的一名老兵,我曾经打造一个理论,就等这一天来接受新的考验,这个理论就是因素空间。一、因素空间的历史贡献87年7月,日本学者山川烈在东京召开的国际模糊系统大会展厅里摆着一台机器,明确写着FUZZYCOMPUTER的字样,用一个倒摆控制来作演示。日本的《朝日新闻》连续三天报导,说这是后五代计算机。88年5月,《光明日报》报导“北师大汪培庄教授指导博士研究生研制出国际第二台模糊推理机”,速度从每秒1千万次提高到1千五百万次推理,体积缩小不到他的十分之一。这是中国当时在国际信息革命争夺战中所打的一次漂亮仗。胜利的直接原因是我用因素空间建立了随机集与模糊落影理论,从数学上远强于日本。60年代在教概率论课的时候,我就在黑板上画了一个因素空间的图像。丢一枚硬币,为什么事先不能断定它究竟会是哪一面朝上呢?原因是,像‘手的动作’等这样一些因素难以掌握和控制。当因素空间可操控的维度不充分时,由于因果律的破缺而出现了随机性。因素空间是联系随机性与确定性的桥梁。二者可以相互转化,就看因素空间的维度如何掌控。柯尔莫哥洛夫所提出的基本空间就是一个因素空间,没有因素空间的思想,就不能把一个随机变量定义成为一个必然性的映射,就只能谈古典概率而无法诱导出分布函数和分布密度,就没有概率论的现代化。70年代我搞模糊集研究,Zadeh只把模糊集定义成论域上的一条曲线,论域被当作一个不定义的名词而无人问津,我把论域看成是一个因素空间。用它来探讨模糊性的真谛。因素空间又成为联系模糊性与清晰性的一座桥梁。我发现这两个桥梁之间有一种特殊的关系:用数学描述主观因素比客观因素要难,要上升一个层次,把集合论提升到它的幂,即集合的集合之上,形象地说,要从地面提到天上。我提出:地上的模糊性可以转化为天上的随机性。像隶属度、信度等这一类带有主观性的度量都不像概率那样满足可加性,它们都是非可加性测度。都需要绕到天上搞可加测度,再落下来得到非可加测度。我在85年北师大出版社出版的《模糊集与随机集落影》一书中,以高难度的工作,把序,拓扑和测度这三种基本数学结构都提到幂上,建立了主观性度量的一般数学理论,占领了定性事物量化的理论制高点,直到现在还没有被国外所超越。Shefer的信度理论和Matheron的随机集在我书里只需少量篇幅就可被点注清楚。当今所涉猎的三种超拓扑都在我8种超拓扑的囊括之中。所以,我亲身体验到因素空间理论的重要性。这个胜仗实际上是钱老指导的,钱老在1986年2月13号给我写了一封信,说“文稿收到:山川烈的工作说明他也在研究智能机的问题,也以为模糊推理是个途径,并且动手研制元件了。所以我们国家也要有人搞元件,你校有人吗?你知道有什么人在搞模糊元件吗?”实际上是在钱老的指示下,我们才做了这个事情。等这个事情完成后,钱老把我和几位研究生叫到他的办公室,一边看录像一边谈话。他说:“五十年代搞两弹是有了理论而去干的问题,现在搞智能计算机比那时难,最伤脑筋的事情就是还没有真正的理论。人工智能搞了这么多年,还没有摸索出真正的理论。”钱老特别强调数学,因为工业革命的数学准备是牛顿的微积分(还有他的前人),计算机是先有数学构想才搞出来的。在他说话的时候,人工智能已搞了多年,但真正起作用的数学工具仍是以概率论为基础的统计方法,这是不能长久的。我领会到钱老的高瞻远瞩,从钱老讲话以后,我就带领研究生集中精力研究因素空间。其主要结果发表于以下三本书中:1.汪培庄,李洪兴,知识表示的数学理论,天津科技出版社,19942.刘增良,因素神经网络理论,北师大出版社,19903.汪培庄,李洪兴,模糊系统理论与模糊计算机,科学出版社,1995书1介绍的就是因素空间理论,书2是将因素空间用于神经网络,书3介绍的是模糊集与因素空间在模糊推理机及模糊计算机研制中的综合运用。我们力图把模糊推理的机制加以提炼,期望在计算机已有的数值运算中心处理器之外再加一个模糊推理的中心处理器,以便研制出智能计算机。一些基本的智能器件的数学构思都写了,就等相应的物化元器件的诞生。就在我们把注意力集中在中心处理器的研制上的时候,一个新的浪潮悄然而至,开始了智能网络的新时代。当全球的电脑都联网以后,什么叫作一台计算机?这似乎需要重新定义。无论如何,中心处理器已被边缘化,原来处于衬托和附属地位的数据软件主导着信息的传输和运作。1989年出现的KDD和后继的数据挖掘标志着机器智能的重心已经从第五代计算机的研制转向数据智能化。大数据浪潮的迅猛势头是智能网络时代威力的表现和先声,智能网络时代的核心竞争在于人机认知体的诞生。各种人机认知体将会形成一个个自组织的生态系统,掌握和影响着人类生活的方方面面,这是一个不以人们意志为转移的严峻事实。你不能阻挡它,只能诱导它。这里才是钱老所说的机器智能的国际争夺的新制高点!由于我认识的片面性和自满情绪,没有及时调整方向,贻误了战机。我们曾经占领的高地已被丢失。回头看一下国际智能数据中较早兴起的两个数学流派,形式概念分析和粗糙集,他们所研究的正是因素空间的样本分析。但是,他们都说不清道不明样本的母体分布是什么?因素空间既然是信息描述的普适框架,而数据又是信息的载体,因素空间自然能为数据分析提供母体理论,成为数据科学的理论基础。因素空间的正式论文和所说的这两个数学理论原来都是在1982这一年同年发表的,这不仅仅是一种巧合,历史在召唤我们,要把失去的阵地重新夺回来!二、因素空间的内容、意义和方法什么是因素?因素是事物的质根。例如,男,女是人的一对质性,性别就是二者的质根,性别就是一个因素。红,黄,蓝,白,黑,…是事物的一组质性,颜色是它们的质根,颜色也是一个因素。每一个质根都统帅一系列质性,所以基因是比质性高一层的东西。它提纲挈领,如果一个因素带两个质性,10个因素带出的综合质性是多少呢?是2的十次方。不能把因素与质性相混淆。质性就是属性,为什么不用属性这个现成的名称而要用新词呢?原因在于:属性一词在数据库中的出现,是从英语‘Attribute’一词翻译过来的。而英语中的这一词汇在国外有两种不同的用法。Will在形式概念分析中用Attribute指质性,例如,他对科教片“生物与水”进行概念提取时,列举鱼和水草都是‘在水中生活’,狗和豆都‘在陆地上生活’。他把‘在水中生活’与‘在陆地上生活’列为两个不同的Attribute。可见,他用Attribute指质性,而不是指‘生物栖性’这一质根。而在粗糙集中,Attribute指的不是质性而是质根。例如,在讲按属性分类时把积木玩具按颜色,形状和体积来分类,在那里,Attribute指的是颜色,形状和体积,它们都是质根。这两种不同的用法混淆了质性与质根的界限。我国计算机界的同仁们已注意这种混淆的情况,强调:‘颜色’与‘红’‘黄’‘蓝’不能混淆,若把红,黄,蓝等叫做属性,那颜色就不能再叫属性,而改称属性名;若把颜色叫属性,那么,红,黄,蓝等就不能再叫属性,而改称属性值。我们希望能采取前一种叫法。因为,因素就是属性的属性,它是同类属性之名。这样一来,我们就有两种协调一致,统一共存,彼此等价的叫法。有利于学科的交叉与发展。基因是生物学中的质根,每个基因都有一串挂钩,每个挂钩指定一个生物属性值。孟德尔最早把基因叫做因素(Mendelianfactor),因素是广义的基因。孟德尔发现基因,找到了解开生命体的钥匙,我们强调了因素,便可找到打开对万事万物进行描述的一把钥匙。基因就是认知之因,是事物形成与被认识的基本要素。什么是因素空间?因素空间是以因素(属性名)为轴的坐标架,任何事物都可被抽象成因素空间的一个点。它是信息描述的普适性框架。因素之间存在着分析与综合的运算,在数学上形成一个布尔代数。因素空间被数学地定义成满足一定公理的以布尔代数为指标集的集合族。笛卡尔的坐标系可以看成特殊的因素空间,但是因素空间的这些坐标维数是可以变的。在任何时候,我们总是要用尽可能少的维度来处理事物。也就是要不断转换主要因素和次要因素。因素空间的坐标轴不一定是欧式实轴,对非结构的事物一样处理。因素空间理论还有因素藤,它是嵌入式的。因素空间中的一个点,可以放大成一个新的因素空间。若用表格形式表示因素空间的一组样本点,则这个点可用新因素空间的概念符号来表示。因素空间的根本目的是要为信息描述提供普遍的框架,为思维科学奠定严格的数学基础。在当前,它要为数据科学提供数学理论基础。为构建人机认知体的巨大工程效力。因素空间与数据科学何关系?在现行的关系数据库表中,除掉对象列,一个信息系统就是因素空间的一组样本点。因素空间就是承载其母体的平台。因素空间把Codd用以建立关系库的一般关系进一步明确规定为反映诸因素的属性组态的一种特定关系,叫做背景关系。它决定了母体所含的全部认知信息,决定了概念与推理的提取。用因素空间来处理关系数据库,在概念提取和因果推理这两个环节上比起现有方法,道理简单,算法快捷。由于背景关系决定一切,而背景关系就是所有样本关系的并集,所以,具有相同表头的表格可以对行(对象)拼接,特别适合分布、分时的运算。数据越大,越有办法。按照徐宗本教授对大数据算法的界定,因素空间很适于建立某一类(与知识表示相关的)大数据算法。因素空间的核心内容在哪里?首先,人的思维活动归根结底是概念的划分。人生出来,世界是混沌一团,叫零概念,内涵为空。随着知识的增加,概念越分越细。从上位概念到下位概念,外延越来越小,内涵则是在继承上位概念的内涵之后又补充一些新的属性描述。从上位概念到下位概念的分解过程就是人类认知的一个认知单元。概念划分离不开因素。每个认知单元都对应着一组因素,叫做单元因素。这组单元因素构成一个因素空间。叫做认知单元空间。因素空间的认知单元空间直接而完整地用数学描述了人的认知单元。以一个上位概念的外延为论域U的认知单元空间被记为({Xf}f∈F;U),这里,有一组单元因素f1,⋯,fn综合而成因素F=f1∨⋯∨fn。每一个因素fi又被定义成一个映射fi:U→Xfi,其中Xfi是U中对象在因素fi下一切可能的属性值的集合,叫做因素fi的状态空间。因素F也被定义成一个映射F:U→F,其中XF是U中对象在综合因素F下一切可能的属性值的集合,叫做综合状态空间。记R={x=(x1,x2,⋯,xn)∈XF|∃u∈U;x=F(u)}(i.e.x1=f1(u),⋯,xn=fn(u)),叫做认知单元的背景空间,也叫做诸单元因素f1,⋯,fn}间的背景关系。背景关系是对诸因素间属性组态的一种限制,它要求每一种搭配必须是实际存在的,亦即,在论域$U$中存在着一个对象$u$具有此种组态。背景关系决定了下位概念的划分。在综合因素F的状态空间XF中的一个超矩形a=a1×⋯×an在U中确定了一个概念的外延E={u∈U|F(u)∈a},其内涵可用定性语言描述为:“在第i因素下具有属性值ai(i=1,⋯,n)”。这里,ai都取为定性的语言值。这样的超矩形必须整个地被背景关系R所包含,而且不能再扩张,其分解完全由背景关系所确定。单元因素间互为因果,我们可将综合因素F分解为条件因素与结果因素两个部分:F=f∨g设X=Xf和Y=Xg分别是因素f,g的状态空间,我们来讨论它们之间的因果关系。一个极端情形是:所有组态都不虚空,R=X×Y,在这种情况下,因素f,g被定义成相互独立,独立因素之间没有有意义的因果推理。因果推理发生于背景的约束之中。基本定理:背景关系R决定了因素f,g之间的全部恒真推理句。注意f,g本身可以是复杂因素,X,Y可以是任意高维的,这个定理就很有效力。它抬高了背景关系的地位。背景关系是对形式背景的拓广,Will所提出的形式背景成为我们因素库理论的中心。基本定理告诉我们:掌握了背景关系,就掌握了因素之间的全部推理知识。因素空间推理的核心就在确定R之形!一张关系数据库表