刘坤2020/5/201粗糙集理论及其应用2020/5/202主要内容粗糙集发展历程粗糙集的基本理论介绍粗糙集对集合理论的扩展粗糙集的属性约简算法研究2020/5/203粗糙集发展历程1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学家,在研究信息系统逻辑特性的基础上,提出了粗糙集理论的思想。在最初的几年里,由于大多数研究论文是用波兰文发表的,所以未引起国际计算机界的重视,研究地域仅限于东欧各国。1982年,Pawlak发表经典论文《Roughsets》,标志着该理论正式诞生。1991年,Pawlak的第一本关于粗糙集理论的专著《Roughsets:theoreticalaspectsofreasoningaboutdata》;2020/5/204粗糙集发展历程1992年,Slowinski主编的《Intelligencedecisionsupport:handbookofapplicationsandadvancesofroughsetstheory》的出版,奠定了粗糙集理论的基础,有力地推动了国际粗糙集理论与应用的深入研究。1992年,在波兰召开了第一届国际粗糙集理论研讨会,有15篇论文发表在1993年第18卷的《Foundationofcomputinganddecisionsciences》上。1995年,Pawlak等人在《ACMCommunications》上发表“Roughsets”,极大地扩大了该理论的国际影响。2020/5/205粗糙集发展历程1996~1999年,分别在日本、美国、美国、日本召开了第4-7届粗糙集理论国际研讨会。2001~2002,中国分别在重庆、苏州召开第一、二届粗糙集与软计算学术会议。2001年至今,每年召开CRSSC。2003年,在重庆召开粗糙集与软计算国际研讨会。2004年,在瑞典召开RSCTC国际会议(偶数年会)。2005年,在加拿大召开RSFDGrC国际会议(奇数年会)。2006年至今,每年召开RSKT。……2020/5/206主要内容粗糙集发展历程粗糙集的基本理论介绍粗糙集的属性约简算法研究2020/5/207粗糙集的基本理论介绍1980年,德国数学家克莱因在《数学:确定性的丧失》中指出:数学也存在不确定性问题。确定问题的研究经典的数学工具,如集合论不确定问题的研究拓展的数学工具,如概率论、模糊集、粗糙集等2020/5/208粗糙集的基本理论介绍不确定性随机性模糊性不完整性不稳定性不一致性……主要的特性2020/5/209粗糙集的基本理论介绍随机性:由于条件不能决定结果而表现出来的不确定性,反映了因果律的问题。解决随机性问题的典型数学方法是概率论。模糊性:由于概念外延边界的不清晰而表现出的不确定性,反映了排中律的问题。解决模糊性的典型数学方法是模糊集理论。2020/5/2010粗糙集的基本理论介绍自然界中大部分事物所呈现的信息都是:不完整的、不精确的、模糊的、含糊不清的经典集合论和逻辑方法无法准确的描述和解决这些问题。粗糙集理论的提出,主要是为了描述并处理“含糊”信息2020/5/2011粗糙集的基本理论介绍(1)经典集合特点:集合的边界没有宽度每个元素要么属于S,要么不属于,具有确定性。2020/5/2012粗糙集的基本理论介绍(2)“含糊”问题的提出1904年,谓词逻辑创始人G.Frege首次提出将含糊性归结到“边界线区域”在论域上存在一些个体,既不能被分到某一子集上,也不能被分到该子集的补集上。2020/5/2013粗糙集的基本理论介绍(3)模糊集合的提出1965年,美国Zadeh教授首次提出个体x与集合S的关系——x以一定的程度属于S。2020/5/2014粗糙集的基本理论介绍模糊集虽然解决了边界域元素的“亦此亦彼”的现象,但:未给出计算含糊元素数目的数学公式未给出描述含糊元素隶属度的形式化方法隶属度函数本身不确定2020/5/2015粗糙集的基本理论介绍粗糙集运用集合论中的“等价关系(不可区分关系)”,将边界线区域定义为“上相似集”与“下相似集”的差集在“真”、“假”二值之间的“含糊度”可计算给出了含糊元素数目的计算公式2020/5/2016粗糙集的基本理论介绍边界线的不确定性模糊集用隶属度(非精确方法)来描述粗糙集用精确的边界线(上、下近似集)来描述相互补充2020/5/2017粗糙集的基本理论介绍主要优点除数据集之外,无需任何先验知识(或信息)对不确定性的描述与处理相对客观用于分类,发现不准确数据或噪声数据内的结构联系……【说明】:Bayes理论(先验分布)、证据理论(隶属度函数)等都需要先验知识,具有很大的主观性。2020/5/2018粗糙集理论在知识发现中的作用在数据预处理过程中,粗糙集理论可以用于对特征更准确的提取在数据准备过程中,利用粗糙集理论的数据约简特性,对数据集进行降维操作。在数据挖掘阶段,可将粗糙集理论用于分类规则的发现。在解释与评估过程中,粗糙集理论可用于对所得到的结果进行统计评估。2020/5/2019粗糙集理论的基本概念“知识”的定义使用等价关系集R对离散表示的空间U进行划分,知识就是R对U划分的结果。“知识库”的形式化定义等价关系集R中所有可能的关系对U的划分表示为:K=(U,R)2020/5/2020粗糙集理论的基本概念“信息系统”的形式化定义S={U,A,V,f},U:对象的有限集A:属性的有限集,A=CD,C是条件属性子集,D是决策属性子集V:,Vp是属性P的域f:U×A→V是总函数,使得对每个xiU,qA,有f(xi,q)Vq一个关系数据库可看作一个信息系统,其“列”为“属性”,“行”为“对象”。PApVV2020/5/2021粗糙集理论的基本概念设PA,xi,xjU,定义二元关系INDP称为等价关系:称xi,xj在S中关于属性集P是等价的,当且仅当p(xi)=p(xj)对所有的pP成立,即xi,xj不能用P中的属性加以区别。)}()(,|),{()(jijixpxpPpUUxxPIND2020/5/2022等价关系示例:factweatherroadtimeaccident1mistyicydayyes2foggyicynightyes3mistynoticynightyes4sunnyicydayno5foggynoticyduskyes6mistynoticynightno2020/5/2023等价关系示例:可知,U={1,2,3,4,5,6}R=2{weather,road,time,accident}若P={weather,road},则[x]IND(P)=[x]IND{weather}[x]INP{road}={{1,3,6},{2,5},{4}}{{1,2,4},{3,5,6}}={{1},{2},{4},{3,6},{5}}2020/5/2024集合的上近似&下近似在信息系统S={U,A,V,f}中,设XU是个体全域上的子集,PA,则X的下和上近似集及边界区域分别为:}:/{XYPUYXP}:/{XYPUYXPXPXPXBndP)(•X是XU上必然被分类的那些元素的集合,即包含在X内的最大可定义集;•X是U上可能被分类的那些元素的集合,即包含X的最小可定义集。PP,则X是可定义的,否则是不可定义的,即粗糙的•若2020/5/2025集合的上近似&下近似上、下近似集将论域U划分成三个区域:正域、边界域和负域,其定义如下:XPXPXBndP)(•BndP(X)是既不能在XU上被分类,又不能在U-X上被分类的那些元素的集合。2020/5/2026集合的上、下近似概念示意图XAprAXAprAX2020/5/2027上、下近似关系举例:X1={u|Flu(u)=yes}={u2,u3,u6,u7}RX1={u2,u3}={u2,u3,u6,u7,u5,u8}X2={u|Flu(u)=no}={u1,u4,u5,u8}RX2={u1,u4}={u1,u4,u5,u8,u6,u7}X2RUHeadacheTemp.FluU1YesNormalNoU2YesHighYesU3YesVery-highYesU4NoNormalNoU5NNNoooHHHiiiggghhhNNNoooU6NoVery-highYesU7NNNoooHHHiiiggghhhYYYeeesssU8NoVery-highNo由R={Headache,Temp.}划分出来的等价类有:{u1},{u2},{u3},{u4},{u5,u7},{u6,u8}.X1R2020/5/2028近似精度&分类质量设S={U,A,V,f}为一信息系统,且XU,PA,则S上X的近似精度为:)()()()()(XPcardXPcardXXXPPP注:card(X)表示集合X中元素个数设S为一信息系统,PA,且令={X1,X2,…,Xn}是U的一个分类(子集族),其中XiU,则的P-下近似和P-上近似分别表示为:},,,{21nXPXPXPP},,,{21nXPXPXPP2020/5/2029近似精度&分类质量由属性子集PA确定的分类的分类质量为:)()()(1UcardXPcardiniP分类质量表示通过属性子集P正确分类的对象数与信息系统中所有对象数的比值。这是评价属性子集P的重要性的关键指标之一。2020/5/2030属性约简&“核”属性约简(AttributeReduction):在一个信息系统S中,设是S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分类质量,即存在RPQ,使得R()=P(),称之为属性集P的-约简,记作REDU(P)。所有-约简的交集称为-核,即CORE(P)=REDU(P),核是信息系统中一系列最重要的属性之一。【说明】:在大多数情况下,分类是由几个甚至一个属性来决定的,而不是由关系数据库中的所有属性的微小差异来决定。属性约简及核的概念为提取系统中重要属性及其值提供了有力的数学工具,而且这种约简是本着不破坏原始数据集的分类质量的,通俗地说,它是完全“保真”的。2020/5/2031主要内容粗糙集发展历程粗糙集的基本理论介绍粗糙集的属性约简算法研究2020/5/2032利用启发式搜索进行属性约简几个概念:正区域:在信息系统S=(U,CD,V,f)中,设D*={X1,X2,…,Xm},属性子集PC关于决策属性D的“正区域”定义为:}:{)(*DXXBDPOSPP关于D的正区域表示那些根据属性子集P就能分入正确类别的所有对象。2020/5/2033利用启发式搜索进行属性约简相关程度:条件属性子集PC与决策属性D的相关程度(也称依赖程度)定义为:)())((),(UcardDPOScardDPkP显然,0k(P,D)1。k(P,D)为计算条件属性子集P与决策属性D之间的相关程度提供了非常有力的手段。2020/5/2034利用启发式搜索进行属性约简有效值:一个属性pPC的有效值(significantvalue)定义为:)},{(),(),,(DpPKDPkDPpSGF)())(())((}{UcardDPOScardDPOScardpPP【说明】:属性p的有效值越大,说明其对条件属性与决策属性之间的影响越大,即其重要性也越大。2020/5/2035利用启发式搜索进行属性约简算法步骤:第1步.∀a∈A:计算邻域关系Νa;第2步.将∅赋给red;第3步.对任意ai∈A-red,计算//此处定义K∅(D)=0第4步.如果SIG(ak,red,D)0,将redUak赋给red,返回第3步;否则,返回red,结束。观看演示)()(),,(DKDKDredaSIGredaredii利用启发式搜索进行属性约简2020/5/2036利用启发式搜索进行属性约简第1步.∀a∈A:计算邻域