精品文档精品文档课程设计报告课程名称多元统计分析专业统计学班级统计学0901学号200910020109姓名李宗藩指导教师戴婷2011年12月19日精品文档精品文档湖南工程学院课程设计任务书课程名称多元统计分析课题多元统计分析专业班级统计学0901学生姓名李宗藩学号200910020109指导老师戴婷审批任务书下达日期2011年12月19日任务完成日期2011年12月30日精品文档精品文档精品文档精品文档目录一:课程设计准备……………………………………………………………3(1)建立数据库…………………………………………………………3(2)分析数据库…………………………………………………………3二:聚类分析和判别分析……………………………………………………3(1)聚类分析的步骤………………………………………………3(2)判别分析的步骤………………………………………………3(3)聚类分析的结果………………………………………………4(4)判别分析的的结果及分析…………………………………4三:因子分析……………………………………………………………………10(1)是否可进行因子分析的判断………………………………10(2)因子分析的步骤………………………………………………10(3)因子分析的结果及其分析……………………………………11四:参考文献…………………………………………………………………16五:总结…………………………………………………………………………17六:评分表……………………………………………………………………18七:附录表……………………………………………………………………19精品文档精品文档一:课程设计准备(1):建立和打开数据库建立或打开数据文件,数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已经存在的数据文件。《2010年各地区按主要行业分的全社会固定资产投资》。(2):分析数据库样本数据来自中国2010年各地区按主要行业分的全社会固定资产投资,见附表。在这里选取了我国的三十一个省份作为样本,描述固定资产投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业(x5),交通运输、储蓄和邮政业(x6),信息传输、计算机服务和软件业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),房地产业(x11),租赁和商务服务业(x12),科学研究、技术服务、地质勘察(x13),水利、环境、公共设施(x14),居民服务和其他服务业(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、娱乐业(x18),公共管理和社会组织(x19)。二:聚类分析和判别分析(一)聚类分析的步骤1.按Analyze→Classify→K-means-cluster顺序单击菜单项,打开聚类分析主对话框。2.选择分析变量送到右边的Variables栏中。3.在“NumberofCluster”中选择3,在Method选项中选择“Classifyonly”4.单击Save按钮,在对话框栏内选择Clustermembership选项,5.单击Option按钮,,在对话框Statistics栏内选择Initialclustercenters选项,在对话框MissingValues栏内选择Excludecaseslistwise选项(二)判别分析的步骤1.按Analyze→Classify→Discriminant顺序单击菜单项,打开判别分析主对话框。精品文档精品文档2.主对话框左边的矩形框中选定分类变量,并用上面一个箭头按钮将其移到“GroupingVariable”框中。然后用其下面的“DefineRange”输入最小变量和最大变量3.选择判别变量送到右边的Independents栏中。在主对话框中选择“Enterindependentstogether”4.在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框,在对话框Description栏内选择Means选项,在对话框FunctionCoefficints栏内选择Fisher’s和unstandardized选项,在对话框Matrices栏内选择Within-groupscovariance选项。5.在主对话框中单击“classification”按钮,打开选择分类参数与分类结果对话框,除系统默认之外,在对话框Display栏内选择和Casewiseresults选项和Summarytable选项,在对话框Plots栏内选择三种。6.在主对话框中单击“Save...”可打开选择将各样品的判别结果保存于数据文件的对话框,选中“Predictedgroupmembership”可保存各样品的预报(判别)分类;选中“Discriminantscores”可保存各样品的典型判别函数值;选中“Probabilitiesofgroupmembership”可保存各样品的后验概率。(三)聚类分析的结果快速聚类整理表:类别地区第一类北京天津山西内蒙古黑龙江上海广西海南重庆贵州云南西藏陕西甘肃青海宁夏新疆第二类河北辽宁吉林浙江安徽福建江西河南湖北湖南广东四川第三类江苏山东(四):判别分析的的结果各类的均值:地区第一类均值第二类均值第三类均值农、林、牧、渔业153.8799299.0844344.9445采矿业271.5194289.2842304.3328制造业749.01123381.79678649.0746电力、燃气及水的生产和供应业354.5886571.5384605.5636建筑业40.036568.7633243.34精品文档精品文档交通运输、储蓄和邮政业470.2504847.42081026.35信息传输、计算机服务和软件业61.2263110.7646109.4647批发和零售业63.6769236.4418606.5013住宿和餐饮业33.4261130.2939246.8029金融业6.890517.4316.9265房地产业859.60592225.91174017.1351租赁和商务、服务业34.325390.568182.916科学研究、技术服务和地质勘查业23.25245.3526126.5754水利、环境和公共设施管理业366.3587905.9471311.6814居民服务和其他服务业10.086734.8087106.375教育68.6707157.3901232.5481卫生、社会保障和社会福利业30.953792.5174111.1115文化、体育和娱乐业38.15499.1365272.5649公共管理和社会组织109.5961158.9508477.9933Eigenvalues(特征值)FunctionEigenvalue%ofVarianceCumulative%CanonicalCorrelation156.435(a)89.189.1.99126.893(a)10.9100.0.935aFirst2canonicaldiscriminantfunctionswereusedintheanalysis.两个典型判别分析,特征值(Eigenvalue)分别为56.435和6.89,典型相关系数(CanonicalCorrelation)分别为0.991和0.935,Wilks'LambdaTestofFunction(s)Wilks'LambdaChi-squaredfSig.1through2.002116.21738.0002.12739.25418.003根据Wilks'Lambda表,可知:=0.002和0.127很小,近视分布=116.217和39.254,相伴概率为7.418568558275e-010和0.03,小于0.01,高度显著,所以各类的样本均值向量有显著性差异,因此判别有效。ClassificationFunctionCoefficients分类函数系数ClusterNumberofCase123农、林、牧、渔业.006-.088-.482采矿业.005.003-.071制造业.001.010.062电力、燃气及水的生产和供应业-.001-.023-.065建筑业.017.061.266精品文档精品文档交通运输、储蓄和邮政业.012.055.279信息传输、计算机服务和软件业-.021-.013.427批发和零售业-.019.108.807住宿和餐饮业.040.266.443金融业-.022-.248-4.632房地产业.001-.006-.032租赁和商务、服务业.020-.010-.546科学研究、技术服务和地质勘查业-.009-.265-.699水利、环境和公共设施管理业-.009-.058-.278居民服务和其他服务业-.028.1482.607教育.011.1161.310卫生、社会保障和社会福利业-.039.242-2.637文化、体育和娱乐业-.018-.084.096公共管理和社会组织.006.002.084农、林、牧、渔业-3.782-30.072-451.326Fisher'slineardiscriminantfunctionsStandardizedCanonicalDiscriminantFunctionCoefficientsFunction12农、林、牧、渔业-2.655.588采矿业-.631-.486制造业1.775.157电力、燃气及水的生产和供应业-.574.608建筑业.574-.064交通运输、储蓄和邮政业2.729-.096信息传输、计算机服务和软件业.829.680批发和零售业2.457.017住宿和餐饮业.446-.959金融业-1.115-.695房地产业-.858.321租赁和商务、服务业-.872-.523科学研究、技术服务和地质勘查业-.587.697水利、环境和公共设施管理业-2.348.366居民服务和其他服务业1.335.691教育2.5821.113精品文档精品文档卫生、社会保障和社会福利业-2.159-3.450文化、体育和娱乐业.161.800公共管理和社会组织.315.396判别函数123456789101112131415161718191-2.655X-0.631X+1.775X-0.574X+0.574X+2.729X+0.829X+2.457X+0.446X-1.115X-0.858X-0.872X-0.587X-2.348X+1.335X+2.582X-2.159X+0.161X+0.315XY=FunctionsatGroupCentroids(各组重心的函数值)ClusterNumberofCaseFunction121-3.6831.8632.905-3.124325.8812.909UnstandardizedcanonicaldiscriminantfunctionsevaluatedatgroupmeansCasewiseStatistics(各数据统计量)地区ActualGroupHighestGroupSecondHighestGroupDiscriminantScoresPredictedGroup2P(G=g|D=d)SquaredMahalanobisDistancetoCentroidGroupP(G=g|D=d)SquaredMahalanobisDistancetoCentroidFunction1Function2pdf北京110.44221.0001.63320.00064.846-4.4992.846天津110.61121.0000.98520.00055.535-3.5542.847河北220.47121.0001.50810.00063.4861.943-3.779山西110.03721.0006.57220.00028.774-1.1201.844内蒙古110.2