应用多元统计分析第六章习题解答

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

应用多元统计分析第六章部分习题解答2第六章聚类分析6-1证明下列结论:(1)两个距离的和所组成的函数仍是距离;(2)一个正常数乘上一个距离所组成的函数仍是距离;(3)设d为一个距离,c0为常数,则仍是一个距离;(4)两个距离的乘积所组成的函数不一定是距离;cddd*.3.,)1(:)2()1()2()1(个条件满足作为距离所要求的以下来验证令为距离和设证明dddddd3第六章聚类分析①②③(2)设d是距离,a0为正常数.令d*=ad,显然有;,,;0,0***)()(*jidcdcdddXXcddjijiijijijjiijij对一切时且仅当①②4第六章聚类分析.,,,)(***jkiddcdcdddccddkjikkjikkjikijij对一切③故d*=ad是一个距离.(3)设d为一个距离,c0为常数,显然有②①5第六章聚类分析.,,)0,0()/(11/11***jkiddddcddcddcdddcdddcddddddcdccdddkjikkjikkjkjikikkjikkjkjikikkjikkjikkjikijijijij对一切因故d*是一个距离.③6第六章聚类分析..,2.,)4(**)2()1(*)2()1(不一定是距离下面用反例来说明式但不一定满足三角不等个条件虽满足前令是距离和设ddddddd7第六章聚类分析6-2试证明二值变量的相关系数为(6.2.2)式,夹角余弦为(6.2.3)式.证明:设变量Xi和Xj是二值变量,它们的n次观测值记为xti,xtj(t=1,…,n).xti,xtj的值或为0,或为1.由二值变量的列联表(表6.5)可知:变量Xi取值1的观测次数为a+b,取值0的观测次数为c+d;变量Xi和Xj取值均为1的观测次数为a,取值均为0的观测次数为d等等。利用两定量变量相关系数的公式:ntjtjntitintjtjitiijxxxxxxxxr12121)()())((8第六章聚类分析nbcadcabadcbaancabaannncanbanaxxnxxxxxxntjitjtintjtjiti)])(()([1)])(([1))((11))((1)]([)()(212212dcbanbannbanbanbaxnxxxntitintiti9第六章聚类分析))((1)]([)()(212212dbcancanncancancaxnxxxntjtjntjtj))(())(()()())(()7(12121dbcadcbabcadxxxxxxxxCntjtjntitintjtjitiij故二值变量的相关系数为:(6.2.2)10第六章聚类分析利用两定量变量夹角余弦的公式:nttjnttinttjtiijxxxx12121cos,1nttjtiaxxcaxbaxnttjntti1212,其中故有)3.2.6())((cos)9(cabaacijij11第六章聚类分析6-3下面是5个样品两两间的距离阵0853601071096040)1()0(DD试用最长距离法、类平均法作系统聚类,并画出谱系聚类图.解:用最长距离法:①合并{X(1),X(4)}=CL4,并类距离D1=1.408107053090)5()3()2()2(CLXXXD12第六章聚类分析②合并{X(2),X(5)}=CL3,并类距离D2=3.340890100)3()3(CLCLXD③合并{CL3,CL4}=CL2,并类距离D3=8.20100)3()4(CLXD④所有样品合并为一类CL1,并类距离D4=10.13第六章聚类分析NameofObservationorClusterX3X5X2X4X1MaximumDistanceBetweenClusters012345678910最长距离法的谱系聚类图如下:14第六章聚类分析0853601071096040)1()0(DD①合并{X(1),X(4)}=CL4,并类距离D1=1.4021002136265053090)5()3()2(222)2(CLXXXD用类平均法:15第六章聚类分析②合并{X(2),X(5)}=CL3,并类距离D2=3.34041652106021360)3()3(CLCLXD③合并{CL3,CL4}=CL2,并类距离D3=(165/4)1/2.2021210)3()4(CLXD④所有样品合并为一类CL1,并类距离D4=(121/2)1/2.16第六章聚类分析类平均法的谱系聚类图如下:NameofObservationorClusterX3X5X2X4X1AverageDistanceBetweenClusters01234567817第六章聚类分析6-4利用距离平方的递推公式来证明当γ=0,αp≥0,αq≥0,αp+αq+β≥1时,系统聚类中的类平均法、可变类平均法、可变法、Ward法的单调性.||222222qkpkpqqkqpkpkrDDDDDD证明:设第L次合并Gp和Gq为新类Gr后,并类距离DL=Dpq,且必有Dpq2≤Dij2.新类Gr与其它类Gk的距离平方的递推公式,当γ=0,αp≥0,αq≥0,αp+αq+β≥1时222222)(pqpqqppqqkqpkpkrDDDDDD这表明新的距离矩阵中类间的距离均≥Dpq=DL,故有DL+1≥DL,即相应的聚类法有单调性.18第六章聚类分析对于类平均法,因110,0,0,0rqrpqprqqrppnnnnnnnn故类平均法具有单调性。对于可变类平均法,因11)1()1()1(,0)1(,0)1(,0rqrpqprqqrppnnnnnnnn故可变类平均法具有单调性。19第六章聚类分析对于可变法,因112121)1(,021,021,0qpqp故可变法具有单调性。对于离差平方和法,因11,0,0,0krkkrqkkrpkqpkrqkqkrpkpnnnnnnnnnnnnnnnnnnn故离差平方和法具有单调性。20第六章聚类分析6-5试从定义直接证明最长和最短距离法的单调性.证明:先考虑最短距离法:设第L步从类间距离矩阵)1()1(LijLDD)1()1(minLijLpqDD故合并Gp和Gq为一新类Gr,这时第L步的并类距离:)1(LpqLDD且新类Gr与其它类Gk的距离由递推公式可知),(),min()()1()1()1()(qpkDDDDDLLpqLqkLpkLrk设第L+1步从类间距离矩阵出发,)()(LijLDD21第六章聚类分析),,,(),()1()()1()(qprjiDDDqpkDDDLLijLijLLpqLrk因故第L+1步的并类距离:,)min()(1LLijLDDD即最短距离法具有单调性.类似地,可以证明最长距离法也具有单调性.22第六章聚类分析6-6设A,B,C为平面上三个点,它们之间的距离为将三个点看成三个二维样品,试用此例说明中间距离法和重心法不具有单调性.0.1,1.1222BCACABddd解:按中间距离法,取β=-1/4,将B和C合并为一类后,并类距离D1=1,而A与新类Gr={B,C}的类间平方距离为85.025.01.1125.0)1.11.1(5.041)(212222BCACABArDDDD23第六章聚类分析故中间距离法不具有单调性。按重心法,将B和C合并为一类后,并类距离D1=1,而A与新类Gr={B,C}的类间平方距离为85.025.01.1125.01.15.01.15.02222BCrCrBACrCABrBArDnnnnDnnDnnD当把A与{B,C}并为一类时,并类距离121922.085.0DD24第六章聚类分析故重心法法不具有单调性。并类过程如下:当把A与{B,C}并为一类时,并类距离121922.085.0DD0085.0000.101.11.10)3()2()1(DGADCBADrABC25第六章聚类分析22222pqrqpqkrqpkrprkDnnnDnnDnnD解一:利用如果样品间的距离定义为欧氏距离,则有')()()()()()()(2)()'(qrqprpkrqprkrkrkXnnXnnXnnnXXXXD6-7试推导重心法的距离递推公式(6.3.2);)()()(1qqpprrXnXnnX26)()'()()'()()'()()'()()'()()'()()()()()()(2)()()()()()(2222222)()()()(2)()()()(2)()(2)()(22pqqkqkrqpqppkpkrqpqkrqpkrppkqkrqpqkpkrqpqkrqpkrprkXXXXXXnnnXXXXXXnnnDnnDnnXXXXnnnXXXXnnnXXnnXXnnD第六章聚类分析272222)()()()(2)()()()(222222222222)()'()()'(pqrqpqkrqpkrpqpqkrqpqppkrqpqkrqppkrqpqkrqpkrprkDnnnDnnDnnXXXXnnnXXXXnnnDnnnDnnnDnnDnnD第六章聚类分析28第六章聚类分析)()()(1qqpprrXnXnnX解二:因样品间的距离定义为欧氏距离,利用)()(2)()()()(22)()()()()()()()()()()()()(22122)(1)()'(qqqqpqpppprqkrqpkrpkkqqpprkrkrkrkXXnXXnnXXnnXXnnXXnnXXXnXnnXXXXXD29第六章聚类分析);(1);(11222222)()()()()()(qprprrppqrqrrqkkqkkprkknnnnnnnnnnnnnnXXnXXnnXX利用)2()2()2()()()()()()(2)()()()()()()()()()()()(2qqqppprqpqqqkkkrqpppkkkrprkXXXXXXnnnXXXXXXnnXXXXXXnnD30第六章聚类分析2222)()()()(2)()()()()()()()(2)()()()()()(pqrqpqkrqpkrpqpqprqpqkqkrqpkpkrprkDnnnDnnDnnXXXXnnnXXXXnnXXXXnnD故有31第六章聚类分析6-8试推导Ward法的距离递推公式(6.3.3);解:Ward法把两类合并后增加的离差平方和看成类间的平方距离,即把类Gp和Gq的平方距离定义).(2qprpq利用Wr的定义:)()()()()()()()()(1)()()()()()(1)()()()()()(1)()()(rqtntrqtrp

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功