Chap5复习及实践练习基本内容:1.距离判别2.Bayes判别3.Fisher判别函数4.逐步判别Fisher判别法距离判别法Bayes判别法逐步判别法训练样本→训练集检测样本→检测集判别准则判别效率学习检测评价•距离判别法优点:简单,便于使用不足之处:第一判别方法与总体各自出现的概率的大小无关第二判别方法与错判之后所造成的损失无关•Bayes判别法优点:错判率较小不足之处:需要获取总体的分布及参数值,实现困难实际问题中有时也没必要知道其分布Chap5判别分析方法之优缺点方法之优缺点•Fisher判别优点:可以分类,也可以分离不足之处:一般需假定各组的协方差阵相等逐步判别优点:对每个变量的地位进行评判不足之处:需结合Bayes判别一起使用Chap5判别分析Bayes判别的基本思想:将Bayes统计思想用在了判别分析上:假设已知样本出现在各个总体Gi的概率即先验概率P(Gi)的,在此基础上根据样本的信息,确定所观察到的样本属于各个总体Gi的概率(即后验概率).该判别法根据后验概率对样本进行归类.距离判别基本思想:根据样本和不同总体的距离判定该样品所属的类别.样本和总体的距离由距离函数来度量.费希尔判别的基本思想:是投影(或降维):少数几个Fisher判别函数代替原始的p个变量用逐步判别基本思想:类似逐步回归,将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除.以确保每次引入新的变量之前回归方程中只包含显著性变量.这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止.以保证最后所得到的解释变量集是最优的.费希尔判别函数特殊情形7对于两组的判别,费希尔判别等价于协差阵相等的距离判别,对两个正态组,它也等价于协差阵相等且先验概率和误判代价也均相同的贝叶斯判别.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有[填空1][填空2]作答正常使用填空题需3.0以上版本雨课堂填空题2分聚类分析是建立一种分类方法,它将一批样本或变量按照它们在性质上的[填空1]进行科学的分类.作答正常使用填空题需3.0以上版本雨课堂填空题1分判别分类方法有[填空1]作答正常使用填空题需3.0以上版本雨课堂填空题1分作答正常使用填空题需3.0以上版本雨课堂需考虑[填空1]是Bayes判别不同于其他判别法的关键所在填空题1分Fisher判别法就是要找一个由p个变量组成的[填空1]使得各自组内点的[填空2]尽可能接近,而不同组间点的尽可能疏远作答正常使用填空题需3.0以上版本雨课堂填空题2分判别分析中,若两个总体的协差阵相等,则[填空1]判别与[填空2]判别等价作答正常使用填空题需3.0以上版本雨课堂填空题2分费希尔判别一般需假定各组的[填空1]相等作答正常使用填空题需3.0以上版本雨课堂填空题1分简述判别分析的目标作答正常使用主观题需2.0以上版本雨课堂主观题10分简述判别分析与假设检验的区别作答正常使用主观题需2.0以上版本雨课堂主观题10分简述费希尔判别的基本思想作答正常使用主观题需2.0以上版本雨课堂主观题10分18例1设有两个正态总体12,GG,已知:1222324112532411(),(),,−====−13=X1)建立距离判别法的判别准则2)判断:样品应归属于哪一类?解(1)19例2已知两总体的概率密度分别为且总体的先验分布为12()),(fxfx和120604.,.,==qq误判损失为2141212(),()==cc0x1)建立Bayes判别准则2)假设有一新样品满足10036().=fx20024().,=fx和判定0x的归属问题.解(1)20例3设有两个正态总体12,GG,且121224116219=====,,,1205.,==qq而其先验概率分布为试用Bayes判别法确定样本应归属于哪一类?解由Bayes判别法知1112122424()()exp[()()]exp()()−==−−++TfxWxxxxfx112123912421124811624ˆ(),,()−−−=+==−=−=−33213122215(|),()exp()(|)=====qCdeWxdeqC235=XG其中误判代价为42112(),()==CeCe;35=X例4某种产品的生产厂家有12家,其中7家的产品受消费者欢迎,属于畅销品,定义为1类;5家的产品不大受消费者欢迎,属于滞销品,定义为2类.将12家的产品的式样,包装和耐久性进行了评估后,得分资料,今有一新得厂家,得分为(6,4,5),该厂的产品是否受欢迎.解由原始数据计算得12121283.27,3.8,64.04.811.23.2,10.8210xxxxxx==−=+=1246214.81.206181,1.28.89,21160910AA−=−=−−故该厂产品受欢迎.'112()()()5.3450330,pwxxxsxx−=−−=11.880.720.20.61971170.989970.10890.722.680.8,0.989970.47477280.161391,0.20.82.60.10890.1613910.4426512ppss−−−==−−−−Prociml;X1={987,766,878,855,993,897,756};X2={444,366,633,245,122};i1=j(7,1);I2=j(5,1);X1bar=t(x1)*i1/7;X2bar=t(x2)*i2/5;A1=t(x1)*x1-7*x1bar*T(x1bar);A2=t(x2)*x2-5*x2bar*T(x2bar);Sp=(a1+a2)/10;Sp1=inv(sp);X0={6,4,5};W=t(x1bar-x2bar)*inv(sp)*(x0-(x1bar-x2bar));Printx1barx2bara1a2spsp1w;dataa;inputtype$x1x2x3@@;cards;198717661878185519931897175624442366263322452122;procprint;proccandiscdata=aout=outcansimpledistanceanova;classtype;varx1x2x3;procprintdata=outcan;run;典型判别过程名输出数据到数据集outcan输出组间距离输出一元方差分析Total-SampleStandardVariableNSumMeanVarianceDeviationx11272.000006.000007.818182.7961x21268.000005.666675.151522.2697x31262.000005.166673.424241.8505RawCanonicalCoefficientVariableCan1x10.6638029449x20.0626766729x30.2315780967ClassMeansonCanonicalVariablestypeCan111.6041565342-2.245819148Obstypex1x2x3Can1判类119872.562211217660.877681318782.067311418551.247231519931.698581618971.961091717560.81500182444-1.70224292366-1.777532102633-0.668892112245-2.798272122122-4.282162无错判.例5费希尔于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子.数据是对3种鸢尾花:刚毛鸢尾花(第Ⅰ组)、变色鸢尾花(第Ⅱ组)和弗吉尼亚鸢尾花(第Ⅲ组)各抽取一个容量为50的样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据列于下表编号组别x1x2x3x4编号组别x1x2x3x41Ⅰ503314276Ⅲ582751192Ⅲ6428562277Ⅱ572942133Ⅱ6528461578Ⅲ723058164Ⅲ6731562479Ⅰ54341545Ⅲ6328511580Ⅰ52411516Ⅰ463414381Ⅲ713059217Ⅲ6931512382Ⅲ643155188Ⅱ6222451583Ⅲ603048189Ⅱ5932481884Ⅲ6329561810Ⅰ463610285Ⅱ49243310⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮66Ⅱ56304515141Ⅱ5523401367Ⅱ58274110142Ⅱ6630441468Ⅰ5034164143Ⅱ6828481469Ⅰ4632142144Ⅰ543417270Ⅱ60294515145Ⅰ513715471Ⅱ57263510146Ⅰ523515272Ⅰ5744154147Ⅲ5828512473Ⅰ5036142148Ⅱ6730501774Ⅲ77306123149Ⅲ6333602575Ⅲ63345624150Ⅰ5337152鸢尾花数据本题中,n1=n2=n3=50,n=n1+n2+n3=150.经计算123000005.659.3665.8834.2827.729.74,,14.6242.655.522.4613.262.26===xxx3101058.4333.57337.5811.993===iiixnxn()()31==−−iiiiHnxxxx000000000006321.2131995.26716524.847127.9331995.2671134.4935723.962293.26716524.845723.964371.2818677.47127.9332293.26718677.4841.333−−−−=−−()()311===−−inijiijiijExxxx0000000000000000000000000003895.621363.2462.46564.51363.1696.2812.848.842462.46812.82722.26627.18564.548.84627.18615.66=E−1H的正特征值个数s≤min(k−1,p)=min(2,4)=2,可求得两个正特征值λ1=32.192,λ2=0.285相应的标准化特征向量00000013.581.818.1123.4595.5622.17814.9656.388.772.94321.5129.1421.4973.4227.54911.846−−−−−−−=−−EH000000000000012.83.2.153.216.22.93.281.284tt−−==−,所以,中心化的费希尔判别式为()()()()()()()()()()12000000000000000001123421234.8358.433.1533.573.2237.58.28111.993.258.433.2163.573.9337.58.28411.993ytxxxxxxytxxxxxx=−=−−−−+−+−=−=−+−−−+−11000021311222327.681.8255.7