一、对我国30个省市自治区农村居民生活水平作聚类分析1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中抽取30个样本,指标数据如下:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农村居民家庭人均纯收入(元)耕地面积2008(万公顷)农村私营企业就业人数(万人)北京98.2793.04128869254.813262231.7153.9天津103.0348.3178144936.710075441.18.0河北99.70441.7538673844.959586317.380.9山西100.43168.7145003663.947364055.851.7内蒙古99.8333.1744864460.855307147.218.4辽宁102.90162.0557394489.569084085.399.5吉林103.7771.6546634147.462375534.621.2黑龙江98.07126.4545364391.2621111830.142.8上海102.232.121360910210.513978244.0258.4江苏99.92284.5581966542.991184763.8569.8浙江100.25513.7598788928.9113031920.9398.3安徽99.08412.4844474013.352855730.2105.9福建98.04176.3568795498.374271330.1113.1江西96.81236.5343973911.657892827.1173.2山东101.23566.9057334807.269907515.3273.6河南99.07729.4740613682.255247926.4137.7湖北96.30210.0647584090.858324664.166.4湖南90.61298.4145134310.456223789.4104.5广东94.95337.4458805515.678902830.7124.4广西89.25248.8035613455.345434217.589.0海南101.9126.2238463446.25275727.55.3重庆88.9980.1236523624.652772235.936.7675四川96.94456.1047483897.550875947.4140.3贵州96.11137.2229262852.534724485.325.4云南96.50158.9736033398.339526072.141.3陕西95.83151.7936833793.841054050.31.7甘肃100.2297.3329752942.034254658.822.0青海94.6163.6336843863542.710.511.4宁夏99.3929.51389446751107.143.616.7新疆92.8779.3535903457.946434124.618.7数据来源:《中国统计年鉴2010》.2、将数据进行标准化变换:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农村居民家庭人均纯收入(元)耕地面积2008(万公顷)农村私营企业就业人数(万人)北京0.09-0.672.822.532.37-1.360.37天津1.33-0.910.920.151.30-1.29-0.78河北0.471.24-0.56-0.46-0.070.84-0.21山西0.65-0.25-0.33-0.56-0.480.02-0.44内蒙古0.50-0.99-0.33-0.12-0.211.15-0.70辽宁1.30-0.290.14-0.100.250.03-0.06吉林1.52-0.78-0.26-0.290.020.56-0.68黑龙江0.04-0.48-0.31-0.150.012.84-0.51上海1.12-1.163.093.062.60-1.361.20江苏0.520.381.061.040.980.283.66浙江0.611.641.692.351.71-0.752.31安徽0.301.08-0.35-0.36-0.300.63-0.01福建0.04-0.210.570.460.42-0.970.05江西-0.280.12-0.36-0.42-0.13-0.420.52山东0.861.930.140.080.271.281.32河南0.302.82-0.49-0.55-0.221.430.24湖北-0.42-0.03-0.23-0.32-0.110.24-0.32湖南-1.890.46-0.32-0.20-0.18-0.07-0.02广东-0.770.670.190.470.57-0.420.14广西-2.240.19-0.68-0.67-0.540.08-0.14海南1.04-1.03-0.57-0.68-0.30-1.18-0.81重庆-2.31-0.74-0.64-0.58-0.30-0.64-0.56四川-0.251.32-0.23-0.43-0.360.710.26贵州-0.46-0.42-0.92-1.00-0.900.18-0.65云南-0.36-0.31-0.66-0.70-0.740.75-0.52陕西-0.54-0.34-0.63-0.48-0.690.02-0.83甘肃0.60-0.64-0.90-0.96-0.920.24-0.67青海-0.85-0.83-0.63-0.45-1.88-1.44-0.76宁夏0.39-1.01-0.550.00-1.69-1.43-0.71新疆-1.30-0.74-0.67-0.67-0.510.05-0.703、用K-均值聚类法对样本进行分类如下:聚类成员案例号地区聚类距离1北京11069.192天津23060.353河北3920.654山西41506.425内蒙古3577.126辽宁22453.897吉林31487.958黑龙江35006.419上海12094.3810江苏22853.4211浙江13015.1412安徽31204.4913福建21612.4614江西41880.4015山东32088.5516河南31282.2717湖北32230.1518湖南42053.3519广东21119.9820广西41412.1421海南42541.0522重庆41423.5123四川31138.1424贵州42025.4125云南32196.6326陕西41127.9127甘肃42123.6728青海44568.6029宁夏44247.1230新疆41360.50分四类的情况下,最终分类结果如下:第一类:北京、上海、浙江。第二类:天津、、辽宁、、福建、甘肃、江苏、广东。第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。二、判别分析针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:案例数目实际组预测组p1110.9982220.5753330.9974440.3615330.8366220.2347330.7878330.0979110.52110220.43911110.48612330.99213220.73914440.41515330.24416330.40617330.38718440.42119220.33320440.9521440.28522440.45323330.95124440.3372534**0.27826440.63227440.27828440.22229440.12430440.981**.错误分类的案例从上可知,只有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别:已知判别函数系数和组质心处函数如下:标准化的典型判别式函数系数函数123农产品价格指数0.180.3980.394农村住宅投资0.4930.687-0.197农村居民价格水平0.0870.3620.243生活消费支出1.0040.094-0.817人均纯收入0.381-0.2820.565耕地面积-0.0411.019-0.235就业人数-0.631-0.7420.802组质心处的函数函数组号123110.678-0.369-0.62821.747-0.7511.1753-0.9621.899-0.0324-2.595-1.177-0.306判别函数分别为:Y1=0.18x1+0.493x2+0.087x3+1.004x4+0.381x5-0.041x6-0.631x7Y2=0.398x1+0.687x2+0.362x3+0.094x4-0.282x5+1.019x6-0.742x7Y3=0.394x1-0.197x2+0.243x3-0.817x4+0.565x5-0.235x6+0.802x7将西藏的指标数据代入函数得:Y1=-1.08671Y2=-0.62213Y3=-0.84188计算Y值与不同类别均值之间的距离分别为:D1=138.5182756D2=12.11433124D3=7.027544292D4=2.869979346经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。三,因子分析:分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:(1)各指标的相关系数阵:从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。(2)检验:由上表可知:巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为0.如果显著性水平a为0.05,由于显著性水平小于0.05,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析(3)各指标的贡献率如下表:从中可以看出,各个指标的贡献率都在百分之五十之上比较高。从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的68%,累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量CorrelationMatrix1.000.356.296.351.187.3561.000.968.922.584.296.9681.000.864.625.351.922.8641.000.578.187.584.625.5781.000农产品价格指数农村居民消费消费支出庭人均纯收入业就业人数Correlation农产品价格指数农村居民消费消费支出庭人均纯收入业就业人数KMOandBartlett'sTest.701145.58510.000Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.Approx.Chi-SquaredfSig.Bartlett'sTestofSphericityCommunalities1.000.9791.000.9381.000.9231.000.8781.000.598农产品价格指数农村居民消费消费支出庭人均纯收入业就业人数InitialExtractionExtractionMethod:PrincipalComponentAnalysis.TotalVarianceExplained3.44968.97368.9733.44968.97368.9733.