齐工-多元统计分析实验-上机作业

gujiv1v2v3
0 ℃
2021-01-06

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

多元统计分析实验学院：理学院班级：统计15-2学号：201511081066姓名：孙瑶第1章多元正态分布1.1从某企业全部职工中随机抽取一容量为6的样本，该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示：职工编号目前工资（美元）受教育年限（年）初始工资（美元）工作经验（月）12345657000420021450219004500028350151612815827000187501200013200021000120001443638119013826设职工总体的以上变量服从多元正态分布，根据样本资料利用SPSS软件求出均值向量和协方差矩阵的最大似然估计。注1：最大似然估计公式为：11ˆniinμXX，11ˆ()()niiinΣXXXX；1，建立数据集1-12，利用SPSS“分析”—“描述统计”—“描述”可计算样本均值向量分析后结果如下3，利用SPSS“分析”—“相关”—“双变量”可计算样本协方差阵与样本相关系数，设置如下图：输出结果：结果分析：̂=（2965012.333337125152.5）样本协方差矩阵Σ=()接下来可以根据题目给出的公式11ˆniinμXX，11ˆ()()niiinΣXXXX；求出最大似然估计了。第3章聚类分析实验原理：1．聚类分析：首先，每个样品（或变量）先聚成一块，然后，选择距离公式计算类与类之间的距离，把距离相近的样品（或变量）先聚成类，距离较远的后聚成类，该过程一直进行下去，每个样品（或变量）总能聚到合适的类中，最后，所有的样品（或变量）聚成一类。2．K-均值聚类法：与系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的，但是两者的差别也是很明显的：系统聚类对不同的类数产生一系列的聚类结果。而K均值法只能产生指数类数的聚类结果。具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K均值法确定类数的参考。3.1下表是15个上市公司2001年的一些主要财务指标，使用系统聚类法和K－均值法利用SPSS软件分别对这些公司进行聚类，并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74系统聚类分析：1，录入数据，建立数据集3.1。利用SPSS“分析”—“分类”命令→“系统聚类分析”，绘制勾选树状图，其余默认。方法转换值更改为Z得分,其余设置默认。继续后得到如下表1和图1,2：结果分析：表1是对每一阶段的聚类结果的反应。图1是冰状图，图2是树状图。是反应样品聚类情况的图，可以从图中得出分类情况。如果分成2类，则1-12公司是一类，13号公司单独一类；如果选择分为三类，则分成{13}，{1,14}，{2,3,4,5,6,7,8,9,10,11,12,15}。从表1中可知，13号公司负债率最高，净利润增长最低，1号和14号主要财务指标比较好，可以推测出系统聚类是根据经营状况分类的。K均值分析：1，进行K均值分析分析→分类→K均值分类数设定3，得到如下表格K均值聚类法结果分析：表格3出示聚类中心，表示初种类的重心，也就是种子点。表5表示最终聚类中心，不难看出1类资产负债率高，3类的各项指标都很好。数据集输出结果可知,1类{13}，2类{8}，3类{1,2,3,4,5,6,7,8,9,10,11,12,14,15}与系统聚类法的结果不完全相同，K均值聚类法把8单独作为一类。数据分析得知8公司负债率比较高，净利润增长较低，与其他公司有较大区别，单独分为一类比较合理。3.2下表是2003年我国省会城市和计划单列市的主要经济指标：人均GDP1x（元）、人均工业产值2x（元）、客运总量3x（万人）、货运总量4x（万吨）、地方财政预算内收入5x（亿元）、固定资产投资总额6x（亿元）、在岗职工占总人口的比例7x（％）、在岗职工人均工资额8x（元）、城乡居民年底储蓄余额9x（亿元）。试利用SPSS软件进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。城市1x2x3x4x5x6x7x8x9x北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家庄15134131591184310008494169.5123061044太原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈阳23268154466612146368155714.8149611423大连2914527615110012108111140714.7175601310长春18630210456999108924629412.513870831哈尔滨148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.4221901134杭州3266749823213491681515071711.8246671466宁波3254347904249381379713955510.9236911060合肥106211171460344641362458.313901359福州2228121310968082506737611.815053876厦门5359093126444130557023838.619024397南昌142219205572844543121011.013913483济南23437226345810143547642913.516027758青岛2470535506146663055312054814.515335908郑州16674140231070978476637312.7135381048武汉212781708311882166108062317.4137301286长沙15446887310609106316043410.016987705广州48220554042975128859275108925.1288053727深圳19183834751910989679329187569.6310532199南宁8176339070165893361708.313171451海口1644214553132843304129916.514819284重庆71905076582903245016211876.5124401897成都17914928972793287989078811.9152741494贵阳11046103501851153184023115.812181345昆明16215116015126123386034214.614255709西安1314089131141393926544615.9135051211兰州1445917136220955812120318.013489468西宁706656052788203787610.114629175银川1178711013214621271213421.913497193乌鲁木齐22508171372188127544118026.116509420南宁31886331683052030671593200037.8253126441海口264334373235073467920593418.8186481825资料来源：《中国统计年鉴2004》1.建立数据集点击分析→系统聚类进入对话框2.将X1-X9选入变量框城市选入标注个案框中。输出框保持默认选中统计量和图。统计量按钮保持默认设置，绘制按钮选中树状图，其余不变。方法按钮，在转换值选择Z得分，其余默认。保存按钮保持默认。点击继续3.结果分析表2聚类表是对每一阶段聚类结果的反应。如第一行表示第2个与第37个样品聚为一类，其他以此类推。图1的冰状图，图2树状图，是反应样品聚类情况的图，从雨中可以得到分类分组情况。如果选择分为2类，则深圳一类其他一类；如果选择分成三类，则1类{深圳}，2类{北京、南宁、广州、上海}3类为剩余其他城市。从数据可以得知，深圳各项经济指标比较好，而北京、南宁、广州、上海的各项经济指标在国内属于平均水平以上，所以聚为一类。该分组可以从经济发展状况做分类，1是发展最发达的地区，2是发展较为发达的地区，3是发展一般的地区。第4章判别分析实验原理：1.Fisher判别：亦称典则判别，是根据线性Fisher函数值进行判别，通常用于梁祝判别问题，使用此准则要求各组变量的均值有显著性差异。该方法的基本思想是投影，即将原来在R维空间的自变量组合投影到维度较低的D维空间去，然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小，而不同类间投影的离差尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制，应用范围比较广。另外，用该判别方法建立的判别方差可以直接用手工计算的方法进行新样品的判别，这在许多时候是非常方便的。2.Bayes判别法：设有两个总体，它们的先验概率分别为q1、q2，各总体的密度函数为f1(x)、f2(x)，在观测到一个样本x的情况下，可用贝叶斯公式计算它来自第k个总体的后验概率为：一种常用判别准则是：对于待判样本x，如果在所有的P(Gk/x)中P(Gh/x)是最大的，则判定x属于第h总体。通常会以样本的频率作为各总体的先验概率。4.距离判别法：其基本思想是由训练样品得出每个分类的重心坐标，然后对新样品求出它们离各个类别重心的距离远近，从而归入离得最近的类。也就是根据个案离母体远近进行判别。最常用的距离是马氏距离，偶尔也采用欧式距离。距离判别的特点是直观、简单，适合于对自变量均为连续变量的情况下进行分类，且它对变量的分布类型无严格要求，特别是并不严格要求总体协方差阵相等。4.1银行的贷款部门需要判别每个客户的信用好坏（是否未履行还贷责任），以决定是否给予贷款。可以根据贷款申请人的年龄（𝑋1）、受教育程度（𝑋2）、现在所从事工作的年数（𝑋3）、未变更住址的年数（𝑋4）、收入（𝑋5）、负债收入比例（𝑋6）、信用卡债务（𝑋7）、其它债务（𝑋8）等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据。⑴根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则；⑵某客户的如上情况资料为（53，1，9，18，50，11.20，2.02，3.58），对其