6-10今有6个铅弹头,用“中子活化”方法测得7种微量元素的含量数据(见表1)。(1)试用多种系统聚类法对6个弹头进行分类;并比较分类结果;(2)试用多种方法对7种微量元素进行分类。表1微量元素含量数据元素样品号Ag(银)(X1)Al(铝)Cu(铜)Ca(钙)Sb(锑)Bi(铋)Sn(锡)(X2)(X3)(X4)(X5)(X6)(X7)10.057985.5150347.1021.9108586174261.6920.084413.9700347.2019.71079472000244030.072171.153054.853.05238601445949740.150101.7020307.5015.030122901461638055.744002.8540229.609.657809912661252060.213000.7058240.3013.910898028204135问题求解1对6个弹头进行分类对数据进行标准化变换,样品间距离定义为欧式距离,系统聚类的方法分别使用类平均法(AVE)、中间距离法(MID)、可变类平均法(FLE)和离差平方合法(WARD)。使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录1)。1.1类平均法图1类平均聚类法相关矩阵特征值图图2类平均聚类分析法聚类历史图由图2可知,NCL=1时半偏R2最大且伪F统计量在NCL=2,5时和伪t方统计量在NCL=1,4时较大。因此,将6个弹头分为两类(2)(2)121,2,4,6,3,5GG。SAS绘制的谱系聚类图如图3所示。2图3类平均聚类分析法谱系聚类图1.2中间距离法图4中间距离聚类法相关矩阵特征值图图5中间距离聚类法聚类历史图由图5可知,中间距离法与类平均法结果一致。因此,也将6个弹头分为两类(2)(2)121,2,4,6,3,5GG。SAS绘制的谱系聚类图如图6所示。3图6中间距离聚类法谱系聚类图1.3可变类平均法图7可变类平均聚类法分析结果图图8可变类平均聚类法聚类历史图由图8可知,可变类平均法(=0.25)输出结果与前两种方法稍有不同,NCL=1时半偏R2最大且伪F统计量在NCL=2时次大,NCL=5时最大;而伪t方统计量在NCL=1时最大。因此,分类结4果与之前相同,将6个弹头分为两类(2)(2)121,2,4,6,3,5GG。SAS绘制的谱系聚类图如图9所示。图9可变类平均聚类法谱系聚类图1.4离差平方和法图10离差平方和聚类法相关矩阵特征值图图11离差平方和聚类法聚类历史由图11可知,离差平方和法输出结果与可变类平均法结果一致。SAS绘制的NCL=2时离差平方和法谱系聚类图和分类结果如下所示。5图12离差平方和聚类法谱系聚类图图13离差平方和聚类法聚类结果图1.5综合分析综上所述,四种分类方法得到的结果一致,都是将6个弹头分为两类(2)(2)121,2,4,6,3,5GG。四种方法中,类平均法和中间距离法结果相近;可变类平均法和离差平方和法得到结果相近且更加准确(伪t方统计量在NCL=1时最大)。2对7种元素进行分类同问题1,系统聚类的方法分别使用类平均法(AVE)、中间距离法(MID)、可变类平均法(FLE)和离差平方合法(WARD)。使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录2)。2.1类平均法图147种元素类平均法聚类历史图6由图14可知,NCL=1,2时半偏R2较大;伪F统计量在NCL=4,5,6时较大;而伪t方统计量在NCL=3,4时较大。因此,较合适的分法是将7种元素分为四类和五类。SAS绘制的谱系聚类图如下所示。图157种元素类平均法谱系聚类图2.2中间距离法图167种元素中间距离法聚类历史图由图16可知,中间距离法聚类结果中NCL=1,2时半偏R2较大;伪F统计量在NCL=4,5,6时较大;而伪t方统计量在NCL=3,4时较大。因此,与类平均法相同,较合适的分法是将7种元素分为四类和五类。SAS绘制的谱系聚类图如下所示。7图177种元素中间距离法谱系聚类图2.3可变类平均法图187种元素可变类平均法聚类历史图由图18可知,可变类平均法聚类结果与前两种方法结果相同,较合适的分法是将7种元素分为四类和五类。SAS绘制的谱系聚类图如下所示。图197种元素可变类平均法谱系聚类图82.4离差平方和法图207种元素离差平方和法聚类历史图由图20可知,离差平方和法聚类结果与前三种方法结果也相同,较合适的分法是将7种元素分为四类和五类。SAS绘制的NCL=4,5时的谱系聚类图和分类结果图如下所示。图217种元素离差平方和法谱系聚类图图22分为四类时7种元素聚类结果图9图23分为五类时7种元素聚类结果图2.4综合分析综上所述,四种分类方法结果相同,合适的分法是将7种元素分为四类和五类。分为四类时,分类结果如下(4)(4)(4)(4)1234,,,,,,GAgAlCaCuGBiGSbGSn;分为五类时,分类结果如下(5)(5)(5)(5)(5)12345,,,,,GAgAlCaGCuGBiGSbGSn,。106-11设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据见表2,试用几种系统聚类方法进行聚类分析,给出综合的分析结果,并与实际情况进行比较。表2岩石化学成分的含量数据类型序号CuAgBi类型序号CuAgBi含矿12.580.900.95不含矿82.251.981.0622.901.231.0092.161.801.0633.551.151.00102.331.741.1042.351.150.79111.961.481.0453.541.850.79121.941.401.0062.702.231.30133.001.301.0072.701.700.48142.781.701.48问题求解1多种系统聚类方法分析数据系统聚类的方法分别使用类平均法(AVE)、可变类平均法(FLE)和离差平方合法(WARD)。使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录3)。1.1类平均法图1类平均法聚类历史由图1可知,类平均法聚类结果中NCL=1时半偏R2最大,NCL1时半偏R2明显减小且缓慢递减;伪F统计量在NCL=2时的值大于NCL=3时的值;而伪t方统计量在NCL=1时的值明显大于NCL=2时的值。因此,将14块岩石标本分为两组较为合适。SAS绘制的谱系聚类图及聚类结果图如下所示。11图2类平均法谱系聚类图图3类平均法聚类结果图1.2可变类平均法12图4可变类平均法聚类历史由图4可知,可变类平均法聚类结果同类平均法结果基本一致。因此,将14块岩石标本分为两组较为合适。SAS绘制的谱系聚类图如下所示,聚类结果与类平均法相同(见图3)。图5可变类平均法谱系聚类图1.3离差平方和法图6离差平方和法聚类历史13由图6可知,离差平方和法聚类结果同前两种方法基本一致。因此,同样将14块岩石标本分为两组较为合适。SAS绘制的谱系聚类图如下所示,聚类结果见图8。图7离差平方和法谱系聚类图图8离差平方和法聚类结果2综合分析综上所述,三种系统聚类法得到的聚类结果完全一致。分类结果如下(2)(2)121,2345713,68910111214GG,,,,,,,,,,,。因此,可以发现样品6、13分类有误。样品13应当归为G1含矿类;而样品6应当归为G2不含矿。146-12某城市的环保监测站于1982年在全市均匀地布置了16个监测点,每日三次定时抽取大气样品,测量大气中二氧化硫,氮氧化物和飘尘的含量。前后5天,每个取样点(监测点)对每重污染元素实测15次,取15次实测值的平均作为该养点大气污染元素的含量数据见表3。试用几种系统聚类方法进行聚类分析,并给出综合的分析结果。表3大气污染数据污染元素样品号二氧化硫(X1)氮氧化物(X2)飘尘(X3)类别10.0450.0430.265220.0660.0390.264230.0940.0610.194240.0030.0030.102350.0480.0150.106360.2100.0660.263170.0860.0720.274280.1960.0720.211190.1870.0820.3011100.0530.0600.2092110.0200.0080.1123120.0350.0150.1703130.2050.0680.2841140.0880.0580.2152150.1010.0520.181160.0450.0050.122问题求解1系统聚类分析系统聚类的方法分别使用类平均法(AVE)和离差平方合法(WARD)。使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录4)。1.1类平均法图1类平均法聚类历史图15由图1可知,类平均法聚类结果中NCL=1,2时半偏R2分别为最大、次大;伪F统计量在NCL=3,4时分别为最大、次大(NCL6);而伪t方统计量在NCL=1,2时的值分别为最大、次大。因此,将16个样品划分为三组较为合适。SAS绘制的谱系聚类图及聚类结果图如下所示。图2类平均法谱系聚类图图3类平均法聚类结果图1.2离差平方和法16图4离差平方和法聚类历史图由图4可知,离差平方和法聚类结果与类平均法一致。NCL=1,2时半偏R2分别为最大、次大;伪F统计量在NCL=3,4时分别为最大、次大(NCL6);而伪t方统计量在NCL=1,2时的值分别为最大、次大。因此,将16个样品划分为三组较为合适。SAS绘制的谱系聚类图及聚类结果图如下所示。图5离差平方和法谱系聚类图图6离差平方和法聚类结果图2综合分析离差平方和法与平均法分类结果相同(3)(3)(3)1236,8,9,13,1,2,3,7,10,14,15,4,5,11,12,16GGG。17原始的样品分组情况如表4所示。表4样品原始分组情况样品号类别样品号类别617281102911421314312532211332123表1中样品的原始分组与离差平方和法和类平均法进行系统聚类分析得到的结果完全一致。因此,可以认为离差平方和法和类平均法得到的分类能有效应用到样品15、16,它们应分别归为2、3类。附录_____________________________________1(6-10问题1SAS程序)datad610;inputgroup$x1-x7@@;cards;10.057985.515347.121.918586174261.6920.084413.97347.219.7179472000244030.072171.15354.853.05238601445949740.15011.702307.515.03122901461638055.7442.854229.69.657809912661252060.2130.7058240.313.91898028204135;procprintdata=d610;run;procclusterdata=d610method=avestdpseudocccouttree=b610;varx1-x7;idgroup;proctreedata=b610horizontalgraphics;title'使用类平均法的谱系聚类图';run;title;procclusterdata=d610method=medstdpseudocccouttree=b610;varx1-x7;idgroup;proctreedata=b610horizontalgraphics;title'使用中间距离法的谱系聚类图';run;title;procclusterdata=d610method=flestdpseudocccouttree=b610;varx1-x7;idgroup;proctreedata=b610horizontalgr