关联分析概述关联系数与关联度应用实例社会系统、经济系统、农业系统、生态系统等抽象系统包含有多种因素,这些因素哪些是主要的,哪些是次要的,哪些影响大,哪些影响小,那些需要抑制,那些需要发展,那些事潜在的,哪些是明显的,这些都是因素分析的内容。例如在社会系统中,人口是一种重要的子系统。影响人口发展变化的有社会因素,如计划生育、社会治安、社会道德风尚、社会的生活方式等。影响人口发展变化的因素还有经济的,如社会福利、社会保险;还有医疗的,如医疗条件、医疗水平等。总之,人口是多种因素互相关联、互相制约的子系统。这些因素的分析对于控制人口、发展生产是必要的。因素分析的基本方法过去采用的主要是统计的方法,如回归分析,回归分析虽然是一种较通用的方法,但大都只用于少因素的、线性的。对于多因素的,非线性的则难以处理。灰色系统理论考虑到回归分析方法的种种弊病和不足,采用关联分析的方法来作系统分析。作为一个发展变化的系统,关联度分析事实上是动态过程发展态势的量化分析。即发展态势的量化比较分析。以下我们就介绍一种衡量因素间关联程度大小的量化方法。数据列的表示方式关联系数计算公式关联系数计算关联度无量纲化数列的增值性做关联分析先要指定参考数据列。参考数据列常记为,记第1个时刻的值为,第2个时刻的值为,第k个时刻的值为。因此,参考序列可表示为关联分析中被比较数列常记为,类似参考序列的表示方法,有,,0x0(1)x0(2)x0()xk0x0000((1),(2),())xxxxn12,,,kxxx0x1111((1),(2),())xxxxn((1),(2),())kkkkxxxxn对于一个参考数据列,有几个比较数列的情况。可以用下述关系表示各比较曲线与参考曲线在各点(时刻)的差。式中,是第个时刻比较曲线与参考曲线的相对差值,它称为对在时刻的关联系数。其中,是分辨系数,记为一般在0与1之间选取;0x12,,,nxxx0min((min))0.5max((max))()()()0.5max((max))iiiiiiiikxkxk()ikkix0xix0xk0.5min((min))ii0min(min()())iikxkxk=max((max))ii0max(max()())iikxkxk=虽然两级最大差与最小差容易求出,但一般不能计算关联系数,这是由于作关联度计算的数列的量纲最好是相同的,当量纲不同时要化为无量纲。此外还要求所有数列有公共交点。为了解决这两个问题,计算关联系数之前,先将数列作初值化处理,即用每一个数列的第一个数除其它数,这样既可使数列无量纲又可得到公共交点即第1点。(1)ix()ixk(1)ix[例]关联系数的计算给出已出初值化的序列如下:下面分三步计算关联系数:第一步求差序列各个时刻与的绝对差如下0(1,1.1,2,2.25,3,4)x1(1,1.166,1.834,2,2.314,3)x2(1,1.125,1.075,1.375,1.625,1.75)x3(1,1,0.7,0.8,0.9,1.2)xix0x序号12345600.0660.1660.250.686100.0250.9250.8751.3752.2500.11.31.452.12.8第二步求两级最小差与最大差容易求出第三步计算关联系数将数据代入关联系数计算公式,得101()()xkxk202()()xkxk303()()xkxk0min(min()())0iikxkxk0max(max()())2.8iikxkxk000.52.81.4()()()0.52.8()1.4iiikxkxkk令,我们有因此,我们有序号12345600.0660.1660.250.68611i()ik1(1)1(2)1(3)1(4)1(5)1(6)111.41.4(1)1(1)1.401.4111.41.4(2)0.955(2)1.40.0661.4作关联系数在各个时刻的值的集合,得关联系数序111.41.4(3)0.894(3)1.40.1661.4111.41.4(4)0.848(4)1.40.251.4111.41.4(5)0.679(5)1.40.6861.4111.41.4(6)0.583(6)1.411.41()k11111111((1),(2),(3),(4),(5),(6))(1,0.955,0.894,0.848,0.679,0.583)同理有2222222((1),(2),(3),(4),(5),(6))(1,0.982,0.602,0.615,0.797,0.383)3333333((1),(2),(3),(4),(5),(6))(1,0.933,0.52,0,49,0.4,0.34)关联系数的数很多,信息过于分散,不便于比较,为此有必要将各个时刻关联系数集中为一个值,求平均值便是做这种信息处理集中处理的一种方法。关联度的一般表达式为:11()NiikrkN无量纲化的方法常用的有初值化与均值化,区间相对值化。初值化是指所有数据均用第1个数据除,然后得到一个新的数列,这个新的数列即是各个不同时刻的值相对于第一个时刻的值的百分比。经济序列中常用此法处理。均值化处理则是用平均值去除所有数据,以得到一个占平均值百分比的数列。数列的增值性是指原来两数列发展态势相同,经初值化后,初值大的发展态势变慢了,初值小的发展态势相对增大。所谓增值性是指:作为经济序列,指“初值”放在银行内,经过一定的时间后,由于利息引起的增值。作为资金序列,指在正常经营下,资金周转一定时间后带来的利益。作为价格上涨的情况,指初值的折算货物经一定时间后价格上涨所带来的增值。作为其他数列,指不同初值经一定时间后所引起的不同效果。比如微分方程的解,在相同指数下,初始值大的曲线可能是衰减的,而初始值小的曲线是上升的。因此增值性大的数列要保持相对的发展速率则应有更大的绝对发展速率。[例]山西省汾河上游的输沙量与降雨径流的灰色关联分析汾河是山西省的主要河流,在汾河下游距太原市100多公里的西山修建了汾河水库。该水库不但对农业灌溉、防洪蓄水、鱼类养殖等起着很大作用,并且还为太原市的用水提供了保证。建库以来,人们经常在考虑如何防止库容被泥沙淤塞,使水库能长期有效为工农业生产与人民生活服务。影响泥沙输入水库的因素较多,比如降雨量、径流量、植被覆盖率等。在这些因素中哪些是主要的,哪些是次要的有待研究和量化分析。以输沙量为参考数列,以年径流量为,平均年降雨量为平均汛期降雨量为则相应的关联系数序列如下:0x1x2x3x1()(1,0.4,0.4,0.32,0.86,0.23,0.29,0.2,0.53,0.45,0.17,0.29,0.73,0.36,0.27,0.31,0.35k0.44,0.42,0.34,0.61,0.51,0.36,0.4,0.23,0.34,0.33)2()(1,0.24,0.17,0.17,0.29,0.22,0.15,0.1,0.24,0.14,0.1,0.2,0.22,0.14,0.2,0.18.0.21,k0.1,0.22,0.16,0.21,0.13,0.13,0.23,0.17,0.19,0.14)3()(1,0.26,0.17,0.2,0.32,0.19,0.16,0.11,0.23,0.18,0.1,0.27,0.25,0.16,0.24,0.22,0.23k0.1,0.25,0.16,0.23,0.21,0.13,0.24,0.17,0.26,0.19)根据关联系数求关联度得(年径流量与输沙量的关联程度)(年平均降雨量与输沙量的关联程度)(平均汛期降雨量与输沙量的关联程度)相应的关联序为上述关联序表明对输沙量影响最大的是年径流量,其次是汛期降雨量,再其次是平均年降雨量。实际上,强度大的暴雨冲刷力大,难以被土壤吸收,从而在地表形成径流,造成水土流失,引起河道泥沙流量的形成10.41r20.21r30.23r132rrr而暴雨又大多在汛期,因此径流量是引起河道输沙的综合因素,所以径流量大反映了雨强大,反映了水土保持较差,反映了水土流失较严重,反映了汛期雨量较大。而汛期的降雨量可能是雨强较大的的降雨量,也可能是雨强较小的降雨量。而平均年降雨量则与雨强、水土保持、水土流失无直接关系。