应用多元统计分析 - 北京大学

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1应用多元统计分析第五章判别分析北大数学学院有时需要建立一种规则,需要你根据看到性状,来判别个体的属性或类别比如让你根据人的某些外在特征判别人的年龄组(老中青)或民族你可能说这很容易,你的判别依据是什么?如果这活让计算机来完成呢?可能很困难,即使让计算机判断人的性别也比较困难。2北大数学学院3第五章判别分析什么是判别分析在气象学中,由气象资料判断明天是阴天还是晴天,是有雨还是无雨.在市场预测中,由调查资料判断下季度(或下个月)产品是畅销、平常或滞销.在环境科学中,由气象条件,污染浓度等判断该地区是属严重污染,一般污染还是无污染.在地质勘探中,由岩石标本的多种特征判断地层的地质年代,是有矿还是无矿,是富矿还是贫矿.在体育运动中,由运动员的多项运动指标来判定游泳运动员的苗子是适合练蛙泳,仰泳还是自由泳等北大数学学院样本数据4npnnnppxxxyxxxyxxxy,,,,,,,,,,,,21222212112111•xi1,xi2,…,xin表示个体性状•yi表示个体类别,取有限个值。)()(2)(1)(2)(22)(211)(12)(11,,,,,,,,,imnininimiiimiiiiixxxxxxxxxki,,2,1北大数学学院判别分析的目的根据样本数据建立模型y=f(x1,x2,…,xm)根据这个模型对未来个体的类别进行判别使得预测的准确率较高判别的思想就是看一个样品和那个类长得比较“象”,和哪个类“象”就判别为哪一类。但是“象”与“不象”,确是仁者见仁,智者见智。不同的人来说,结果可不完全相同。但是还是能认同“较为合理”的结果。5北大数学学院6第五章判别分析目录§5.1距离判别§5.2Bayes(贝叶斯)判别法及广义平方距离判别法§5.3Fisher(费歇)判别§5.4判别效果的检验及各变量判别能力的检验§5.5逐步判别北大数学学院7第五章§5.1距离判别法距离判别的基本思想是:样品和哪个总体距离最近,就判它属哪个总体.距离判别也称为直观判别法.我们在具体讨论距离判别法之前,应给出合理的距离的定义.北大数学学院8第五章§5.1距离判别法马氏距离已知有两个类G1和G2,比如G1是设备A生产的产品,G2是设备B生产的同类产品.设备A的产品质量高(如考察指标为耐磨度X),其平均耐磨度μ1=80,反映设备精度的方差σ2(1)=0.25;设备B的产品质量稍差,其平均耐磨度μ2=75,反映设备精度的方差σ2(2)=4.今有一产品X0,测得耐磨度x0=78,试判断该产品是哪一台设备生产的?直观地看,x0与μ1(设备A)的绝对距离近些,按距离最近的原则是否应把该产品X0判断为设备A生产的?北大数学学院9第五章§5.1距离判别法马氏距离考虑一种相对于分散性的距离.记X0与G1,G2的相对平方距离为d21(x0)或d22(x0),则:d21(x0)===16=42d22(x0)===2.25=1.52因为d2(x0)=1.54=d1(x0),按这种距离准则应判X0为设备B生产的.(x0-μ1)2σ2(1)(78-80)20.25(x0-μ2)2σ2(2)(78-75)24北大数学学院10第五章§5.1距离判别法马氏距离设备B生产的产品质量较分散,出现x0为78的可能性仍较大;而设备A生产的产品质量较集中,出现x0为78的可能性较小.判X0为设备B的产品更合理.这种相对于分散性的距离就是本节介绍的马氏距离.北大数学学院11第五章§5.1距离判别法马氏距离2)2(1)1(222)2(212)1()()(xxxx.)()(*def21)2(1)1(2)1(2)2(1xxx一般地,我们假设G1的分布为N(μ(1),σ21),G2的分布为N(μ(2),σ22),则利用相对距离的定义,可以找出分界点μ*(不妨设μ(2)μ(1)),当μ(2)xμ(1)时,而按这种距离最近的判别准则为:.,,*2*1xGxxGx当判当判北大数学学院12第五章§5.1距离判别法利用马氏距离对两个一维正态总体判别归类示意图利用马氏距离对两个一维正态总体判别归类令:(μ*=79为到两总体相对距离相等的分界点)x0=78μ*=79判x0∈G2.北大数学学院13第五章§5.1距离判别法两总体判别:简例1简例1:记二维正态总体N2((i),)为Gi(i=1,2)(两总体协差阵相同),已知来自Gi(i=1,2)的样本数据阵为(1)试求两总体的样本组内离差阵A1,A2和合并样本协差阵S.(2)今有样品x0=(2,8)′,试问按马氏距离准则样品x0应判归哪一类.3,42,2.549375,1038310412221)2(23)1(24nnmkXX北大数学学院14第五章§5.1距离判别法两总体判别:简例1(1)解:8222~)~(,2021018222~)~(,00200121)2()2(2)2(23)1()1(1)1(24~~XXAXXAXX.74,103)2()1(XX北大数学学院15第五章§5.1距离判别法两总体判别:简例1,411154164445121,16444822282222121AnnSAAAA故为样本合并组内离差阵11141251114544825,25483251641115412SS而且北大数学学院16第五章§5.1距离判别法两总体判别:简例14167.512135171,21251211141251,2)()()()2(01)2(0022XxSXxxd(2)解一:计算马氏距离5362,11252111141252,1)()()()1(01)1(0021XxSXxxd.),()(10022021Gxxdxd故判因北大数学学院17第五章§5.1距离判别法两总体判别:简例1因而其中,21125311114125)(5.85.37410321)(21)2()1(1)2()1(*XXSaXXX).5.132(12521)5.8,5.3(125)(2121XXXXXW(2)解二:计算线性判别函数W(X)aXXXYXYXdXdXW)()()()]()([21)(*212122.,0245)5.13822(125)(100GxxW故判由于北大数学学院18第五章§5.1距离判别法应用例子例5.1.1(盐泉含钾性判别)某地区经勘探证明A盆地是一个钾盐矿区,B盆地是一个钠盐矿区,其他盐盆地是否含钾盐有待作出判断.今从A,B两盆地各抽取5个盐泉样品;从其他盆地抽得8个盐泉样品,18个盐泉的特征数值见表5.1.试对后8个待判盐泉进行含钾性判别.北大数学学院19第五章§5.1距离判别法应用例子北大数学学院20第五章§5.1距离判别法应用例子解一A盆地和B盆地看作两个不同的总体,并假定两总体协差阵相等.本例中变量个数m=4,两类总体各有5个训练样品(n1=n2=5),另有8个待判样品.用SAS/STAT软件中的DISCRIM过程进行判别归类.(1)首先用DATA步生成SAS数据集D511.SAS程序如下:北大数学学院21第五章§5.1距离判别法应用例子的sas程序datad511;inputx1-x4group$;cards;13.852.797.8049.60A…………2.181.061.2220.60B…………8.853.385.1726.10.…………15.002.705.0264.00.;procprint;run;北大数学学院22第五章§5.1距离判别法应用例子的sas程序(2)调用DISCRIM过程对含钾和不含钾的A、B两类盆地的10个样品特征测量值用距离判别的方法,建立线性判别函数,并对已知类别的样品和待判样品进行判别归类.procdiscrimdata=d511simlpepcovwsscppsscpdistancelist;classgroup;varx1-x4;run;北大数学学院24第五章§5.1距离判别法应用例子的结果分析选项WSSCP产生的结果两总体的样本离差阵A1和A2北大数学学院25第五章§5.1距离判别法应用例子的结果分析选项PSSCP产生的结果选项PCOV产生的结果合并的样本组内离差阵A=A1+A2合并样本协差阵S=A/(n1+n2-2)北大数学学院26第五章§5.1距离判别法应用例子的结果分析组间马氏距离d2(1,2)=37.03检验H0:(1)=(2)的F统计量F=14.46p=0.0059北大数学学院27第五章§5.1距离判别法应用例子的结果分析线性判别函数Y1(X)Y2(X)线性判别函数W(X)=Y1(X)-Y2(X)W(X)=-37.08458+4.74305X1+4.19183X2--8.58924X3+0.72548X4北大数学学院28第五章§5.1距离判别法应用例子的结果分析第2,3,6,7,8五个盐泉为含钾盐泉,第1,4,5为不含钾盐泉,

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功