云模型1云模型•随着不确定性研究的深入,越来越多的科学家相信不确定性是这个世界的魅力所在,只有不确定性本身才是确定的,随机性和模糊性是最基本的。针对概率论和模糊数学在处理不确定性方面的不足,1995年我国工程院院士李德毅在概率论和模糊数学的基础上提出了云的概念,已成功应用到自然语言处理、数据挖掘、决策分析、智能控制、图像处理等众多领域。2主要内容31云的定义和特性2云模型的类型3云发生器4虚拟云5云变换6基于云模型的不确定推理1云的定义和特性4云是用语言值表示的某个定性概念与其定量表示之间的不确定性转换模型。它主要反映客观世界中事物或人类知识中概念的两种不确定性:模糊性(边界的亦此亦彼性)和随机性(发生的概率),并把二者完全集成在一起,构成定性和定量相互间的映射。因为在数域空间中,云既不是一个确定的概率密度函数,也不是一条明晰的隶属曲线,而是一朵可伸缩、无边沿、有弹性、近视无边、远观像云的一对多的数学映射图象,与自然现象中的云有着相似的不确定性质,所以借用“云”来命名这个数据——概念之间的数学转换理论。云的基本定义5T是U空间上的定性概念,若元素x(x∈X)对T的隶属度CT(x)∈[0,1]是一有稳定倾向的随机数(式F1.1),则概念T从论域U到区间[0,1]的映射在数域空间的分布,称为云(Cloud)。设U是一个用精确数值表示的定量论域,6这个定义还可以推广到N维云。即若U是N维论域,X∈U,则N维元素x=(x1,x2,…,xn)(x∈X)对T的隶属的确定度CT(x)∈[0,1]也是一有稳定倾向的随机数(式F1.1)。由此,如果在给定论域的数域空间中,x为(xl,x2,…,xn),那么一个云滴的严格表达,应为一个由自变量的论域空间坐标及其对概念的确定度的数值对,即:7从云的基本定义中可以看出,论域U上的概念T从论域U到区间[0,1]的映射是一对多的关系。即论域中某一元素与它对概念T的隶属度之间的映射是一对多的转换,而不是传统的模糊隶属函数中的一对一关系。表达概念T的云由许许多多的云滴组成,每个云滴均是这个定性概念映射到数域空间的一个点,即定性概念的语言值在数量上的一次具体样例实现。这种实现带有不确定性,模型同时给出这个点能够代表该定性概念的确定程度。每个云滴都是随机产生的,而且每个云滴代表该定性概念的确定程度也是模糊的,始终在细微变化着。8这种一个定量数值属于一个定性概念语言的不确定变化,在每个云滴表现出来时,也许不会剧烈影响到云的整体特征。即某一个特定的云滴可能无足轻重。但是,一定数量的云滴的整体分布特性就体现了云映射的模糊性和随机性,也就是说,云的整体形状反映了在用定量数值表示定性概念时的不确定特性。例如,“滑坡体向南位移20毫米左右”就是一个空间概念,而“滑坡体向南位移20毫米”就是一个空间数据,是该定性概念在论域中的一次具体定量实现,经过云映射,这个云滴代表该定性概念的确定程度是1。可是,这种实现也可能是“滑坡体向南位移19毫米”等数据,代表该定性概念的确定程度也可能是0.9等。所有的这些实现积累到一定数量,经过云映射,在论域空间中就形成一朵云,表达“滑坡体向南位移20毫米左右”这个概念。9因此,云把模糊性和随机性有效地完全集成在一起,研究自然语言中的最基本的语言值所蕴含的不确定性的普遍规律,使得有可能从语言值表达的定性信息中获得定量数据的范围和分布规律。也有可能把精确数值有效转换为恰当的定性语言值。云的数字特征10云的数字特征反映了定性概念的定量特性,用期望Ex(Expectedvalue)、熵En(Entropy)和超熵He(Hyperentropy)三个数值来表征(图F1.1)。云的数字特征是描述云模型、产生虚拟云、实现云计算、完成云变换的数值基础,也是利用云技术从含有不确定性的空间数据库或空间数据仓库中发现空间知识的基础。11[1]期望Ex:是在数域空间中最能够代表定性概念的点值,反映了这个概念的云滴群的云重心。[2]熵En:原是统计热力学的概念,度量物理系统的无组织程度,即序的不确定性的表现强弱。在云模型中,熵被用来综合度量定性概念的模糊度和概率,揭示了模糊性和随机性的关联性。熵具有双重作用,体现了定性概念的亦此亦彼性的裕度和出现多寡。它一方面直接地反映了在数域空间中可被概念接受的元素范围,即模糊度,是定性概念亦此亦彼性的度量;另一方面还反映了在数域空间中的点能够代表这个概念的概率,表示定性概念的云滴出现的随机性。[3]超熵He:是熵的不确定度量,即熵的熵.反映了在数域空间代表该语言值的所有点的不确定度的凝聚性,即云滴的凝聚度。超熵的大小间接地表示了云的离散程度和厚度。12云的数字特征的独特之处在于仅仅用三个数值就可以勾画出由成千上万的云滴构成的整个云来,把定性表示的语言值中的模糊性和随机性完全集成到一起。能够极大地节省存储资源和计算资源。13上图显示了具有不同数字特征的云模型,其中图[1]和图[2]的期望不同,[1]和[3]的熵不同,[1]和[4]的超熵不同。而且,与研究不确定性的和数学工具相比,一朵云在计算机中存储的只是三个数字特征,能够极大地节省存储资源和计算资源。云的3En规则14在论域U内,X中的任一小区间上的元素△x对定性概念T的贡献△C为:显然,论域上所有元素对概念T的总贡献C为:所以对于论域X中的定性概念T有贡献的定量值,主要落在区间[Ex-3En,Ex+3En]。因此,可以忽略[Ex-3En,Ex+3En]区间之外的定量值对定性概念T的贡献。15例如,正态云的数学期望曲线(Mathematicalexpectedcurve)由期望和熵便可确定:不难看出,对于某一定性概念或知识,其相应的云对象中位于[Ex-3En。Ex+3En]之外的云滴元素是小概率事件,一般均可忽略(图F1.1)。而且,在实际运用中,常常可以找到类似x’的元素并得到;En=(x’一E)/3,从而节省计算量。云的可视化16可视化将抽象的云模型利用一定的技术和设备表示为人的眼睛可以直接感知的图形、图像或影像等,是云模型应用于空间数据挖掘和知识发现的重要内容。云图有三种可视化方法17下图是由10000个云滴生成的“靠近坐标原点”概念的云。[1]带有灰度的点:给出云滴在数域空间(一维、二维或多维)的位置,用一个点表示一个云滴,并用该点的灰度表示出这个云滴能够代表概念的确定度。任何一个云滴都可以在一定程度上代表这个概念。[2]带有尺度的圈或球:用数域里的一个圈或球表示一个云滴,其心反映云滴在数域的位置,且圈或球的大小表示出这个云滴能够代表概念的确定度。[3]N+1维:N维空间的点表示云滴在数域的位置,另一维表示这个云滴能够代表概念的确定度。[1]带有灰度的点[2]带有尺度的圈或球[3]N+1维云图的三种可视化方法云的数学外延18从不同角度、用不同的方法认识云,可以得到不同的理解。[1]随机数集:对于每一元素,其隶属度都是遵循某一分布规律的随机数。云是符合该分布的随机数的集合。并且云的厚度是不均匀的,云的顶端及两端尾部最窄,而腰部最厚。[2]隶属曲线簇:对于任一模糊子集,都可给出对应的隶属函数,这些隶属函数曲线构成一个曲线簇。每条曲线的超熵是随机的,但整个曲线簇显现出一定的整体规律性,即腰部最发散,而顶部和底部则相对集中。曲线簇可看作云的一个近似,当曲线数目趋向无穷时,即形成云。[3]α截集:沿用模糊集中的α截集概念。α截集的宽度反映了模糊集的α水平截集所覆盖的论域中的元素集合的大小。对于云而言,其α截集的宽度不固定。具有随机性,宽度的随机变化体现了超熵符合某一随机分布规律。[1]随机数集[2]隶属曲线簇[3]α截集19由此可见,云克服了常用定性定量转换中的、和人类的认知过程相悖的夹心饼干式的强硬规定性和确定性的弊端,且在数域空间中灵活伸缩。同时,云模型兼顾了现实世界的随机性和模糊性,拥有自己的理论基础,是一个十分严格的数学方法。它不是“随机+模糊”,也不是“模糊+随机”,更不是“二次模糊”,而是把定性概念的模糊性和随机性有机地结合在一起,实现了定性语言值与定量数值之间的自然转换。可以用云来解释概率论(只有随机性)和模糊集合(只有模糊性)等数学理论。2云模型的类型20云模型(Cloudmodel)是定性定量转换的基本模型,既是用语言值表示的定性概念与其定量表示之间的不确定转换模型,也是各种云技术的核心。它的最小单位是基云,对应于自然语言中最基本的语言值——语言原子,或思维的基本单位——原子概念。云模型把模糊性和随机性完全集成在一起,可以研究自然语言中的语言原子所蕴含的不确定性的普遍规律,使得有可能从语言值表达的定性信息中获得定量数据的范围和分布规律,也有可能把精确数值转换为恰当的定性语言值。正态云模型21正态云模型是基本的云模型,是表征语言原子的有力工具之一。正态分布具有普适性,大量社会和自然科学中定性知识的云的期望曲线都近似服从正态或半正态分布。在论域空间中.正态云模型的某一点的隶属度分布符合统计学意义上的正态分布规律,以云的稳定倾向——云期望曲线上的点为期望值。由期望和熵便可确定具有正态分布形式的云期望曲线方程:22正态云模型包括完整云、左半云和右半云。完整云表示具有完备特征的定性概念,而半云模型则主要表示具有单侧特征的定性概念,例如完整云表示“距离”,右半云表示“很小”左半云表示“很大”,如图。[1]正态云及其左、右半升云和左、右半降云衍生云模型23衍生云模型是在正态云模型的基础上,增加某个或某些参数,根据不同用途生成的不同形态的云模型。首先,尽管正态云模型具有广泛的适用性,但是由于自然语言和现实空间世界具有多样性,它并不能满足所有的情况。例如,许多概念的云是不对称的,且其云中心不是一个单一的值。而是包含论域中的部分元素。为此,有必要生成实现Γ云、三角形云、梯形云等多种衍生云模型。24[2]Γ云及其左、右半升云和左、右半降云[3]正态梯形云和三角梯形云[4]三角云、频谱云和N维云(N=2)3云发生器25云发生器(Cloudgenerator,简称CG)指被软件模块化或硬件固化了的云模型的生成算法。云发生器建立起定性和定量之间相互联系、相互依存、性中有量、量中有性的映射关系,主要包括正向云发生器、逆向云发生器、X条件云发生器和Y条件云发生器。云发生器是构造不确定性推理的基础,由多个云发生器按照一定的规律有机地集成一起构成的云的不确定性推理器,是基于云模型的SDMKD的基本工具。因正态云模型是基本云模型,故主要以正态云模型为例研究云发生器:26云发生器正向云发生器27正向云发生器(Forwardcloudgenerator)是用语言值描述的某个基本概念与其数值表示之间的不确定性转换模型,是从定性到定量的映射。它根据云的数字特征产生云滴,积累到一定数量汇聚为云(图)。正向云发生器实现了从语言值表达的定性信息中获得定量数据的范围和分布规律,是一个前向的、直接的过程,其输入为表示定性概念的期望值Ex、熵En和超熵He,云滴数量N。输出是N个云滴在数域空间的定量位置及每个云滴代表该概念的确定度。28正向云发生器的具体算法为:其中,NORM(Ex,En’)为生成以Ex为期望值,Eni’为方差的正态随机数的函数。给定正态云的三个数字特征值(Ex,En,He),上述算法可以生成任意个云滴组成的正态云模型。逆向云发生器29逆向云发生器(Backwardcloudgenerator)是实现数值和其语言值之间的不确定性转换模型,是从定量到定性的映射。它将一定数量的精确数据有效转换为以恰当的定性语言值{Ex,En,He}表示的概念,并据此代表这些精确数据所反映的云滴的整体(图F1.5[2])。云滴对应的精确数据的数量越多,反映的概念越确切。通过正向云发生器和逆向云发生器。云模型就建立起了定性和定量之间相互联系、相互依存,性中有量、量中有性的映射关系。逆向云发生器的传统算法是基于数理统计的样本均值和样本方差的均值算法,简称均值法。30基于均值法的逆向云发生器的输入是N个云滴在数域空间的精确位置和每个云滴代表该概念的确定度,输出是这N个云滴