运用spss软件解决数学建模-楼盘的分类问题-论文-附有答案

beachboyye
0 ℃
2021-06-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

楼盘的分类问题摘要本文结合统计学和因子分析学，对给出的楼盘指标信息进行系统聚类分析，利用spss、excel软件求解，得出楼盘分类类别、物业分类因素排名。问题一：对表1的数据进行统计分析，建立了系统聚类分析模型，对楼盘进行了分类。由于各因素的量纲不同，对其量纲化统一处理。最终得到楼盘的物业类别，具体结果如下：类别物业楼盘第1类甲级住宅1、7、9、10、12、14、15、16、17、22、25、26、31、32、34、36、39、44、45、47、48、49、50、51、52、57、59、60、65、66、67、69、70、72第2类别墅2、55第3类公寓3、4、5、6、8、11、13、18、19、21、24、28、33、35、37、38、41、42、43、46、53、54、56、63、64、68第4类甲级公寓20、27、30、58第5类经济适用房23、71第6类普通住宅29、40、61、62、73问题二：我们采用了主成分分析法，利用spss软件对6种物业类别11个指标值进行了比较，根据其特征贡献率的不同，判断其影响程度的大小。贡献率越高，影响越大。在11个指标中，某些指标对物业类别的分类影响甚微，以至产生干扰，因此我们可以筛选某些变量，先筛选的变量影响最小，然后从小到大依次排序，得出各种楼盘影响因素的顺序。以普通住宅为例,得到结果如下：均价、原装修、车位、配套、总套数、绿化率、物业费、户型、位置、总占地、物状。本模型具有较强的适用性和普遍性，可以为决策者提供多种决策方案，具有较强的实用价值。关键字：系统聚类分析SPSS软件主成分分析法欧式距离特征值累积贡献率一、问题的背景21世纪是世界城市化高度发展的世纪。据联合国人居中心预测，2010年将达到55%，2025年达到65%，其中发达国家将达到83%。发展中国家将达到61%。我国目前的城市化水平约在30%左右，不仅远落后于发达国家，也落后于发展中国家的平均水平，滞后于相对社会经济发展，需要迅速加以提高。随着我国城市化进程的加快，人们在城市购房自然成为人人所关心的头等大事，那么我们就必要了解房产情况；面对眼花缭乱的楼盘信息，如何根据自己的实际情况，选择属于自己的物业呢？针对人们的需求，开发商该如何投资建设，又该考虑建哪些物业及关于楼盘该如何定价呢？解决这类问题是有很大的现实意义的。二、问题的提出与重述根据商品房个性化，一般可以将商品房自高至低划分为6种物业类别，分别为：别墅、甲级公寓、公寓、甲级住宅、普通住宅、经济适用房。现得到某城市一届房交会数据（见附表1），我们就此信息将解决以下问题：（1）给出表1各楼盘的物业类别；（2）关于该城市楼盘各物业类别，找出影响各物业类别的主要因素(或因素顺序)；三、基本假设（1）在人为的推测和软件的基础之上考虑，会出现许多的误差，假设误差极小。（2）在进行定级、评分的时候，各数值不受人为因素的影响，假设没有过大的差别。（3）各个楼盘的各个指标数的波动极微，其改变对结果的影响可以忽略不计；（5）表1中的各个指标值相互独立；（6）各数值不受人为因素的影响。四、主要变量符号说明'ijx：标准化后的数据矩阵（73,...,2,1i；11,...,2,1j）；ijx：原始数据矩阵（73,...,2,1i；11,...,2,1j）；ijd：楼盘i与楼盘j间的距离；R：相关矩阵；U：主成分；五、问题的分析问题一：根据已知的数据对给定的73个楼盘进行分类，分成别墅、甲级公寓、公寓、甲级住宅、普通住宅、经济适用房6种物业类别。相当于将这73个楼盘通过聚类，分成6个类别。因此本文从聚类分析的角度对楼盘进行分类。每种物业类别的的区别是根据不同的户型、物业、配套设施等11项指标信息来判断。根据房地产方面的专业知识对物业结构进行初步的概念上的区分，以便对此后的模型的建立有一定的较专业的认识。由于是看不到的房子的质量，楼盘环境，期房相对现房一般来说是要便宜。问题二：在问题一的基础上比较各影响因素程度的大小。考虑到用主成分分析法，引入了贡献率的概念，是指有效或有用成果数量与资源消耗及占用量之比，即产出量与投入量之比，或所得量与所费量之比，计算式如下：贡献率（%）=某因素贡献量（增量或增长程度）/总贡献量（总增量或增长程度）×100%主成分分析法是一种数学变换的方法,把给定的相关变量通过线性变换成不相关的变量，这些新的变量按照方差依次递减的顺序排列。变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，且与第一变量不相关，称为第二主成分。以次类推，I个变量就有I个主成分。主成分分析实际上是一种降维方法。用较少的变量去解释原来资料中的大部分差异，将许多相关性高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中的差异的几个新变量，即所谓主成分，并用以解释数据的综合性指标。运用主成分分析法便可以顺利地找出影响各物业类别的主要因素，得出因素顺序。六、问题1的模型建立与求解建立系统聚类模型：首先，将数据进行标准化，考虑到在实际问题中，不同类型的数据一般有不同的量纲。为了使含有不同量纲的数据能进行同等比较，通常需要对数据作以下变换：jjijijsxxx'，其中：731731iijjxx，7312731ijijjxxs）（经上述变换后消除了量纲的影响。然后，计算73个楼盘之间的距离矩阵。根据标准化指标数据，我们选择计算楼盘之间的欧氏距离矩阵，公式如下：1112)(tjtitijxxd其次，进行系统聚类，其步骤如下：（1）初始聚类：将每个楼盘看作一类别，则各类之间的距离即等于各样点之间的距离。（2）合并距离最短的两类为一个新的类别。（3）计算新类别与此时待合并的各类之间的距离。对于不同的系统聚类方法，其具体计算距离的递推公式不同，下面用的是离差平方和法。假设类pG与类qG合并成新类rG，则rG与任一类iG的距离递推公式为：2222pqiriipirqiipirpiirDnnnDnnnnDnnnnD如果分类比较合理，则同类样品之间的离差平方和较小，类与类之间的离差平方和较大。事实证明，综合比较各种聚类方法，发现本题运用离差平方法的效果较好。（4）聚类结束。将所有的样点合并为一个大类，否则就回到第3步继续。聚类结束后，根据并类结构画出聚类分析关系图，建立模型1。图1：基于系统聚类分析模型进行物业类别判断的程序框图通过spss运行将73个房屋进行了划分为六个类别。此外，还要确定各个类别的物业类型。通过对各个指标值的区别比较，可以很准确的得到结果，因为我们起初标准化计算距离构成73个类合并类类间距离聚类假设均价为最为主要因素，于是我们利用这点进行如下分析：由于楼盘2、55的均价明显高于其他楼盘，因此可以判定第2类物业是别墅。楼盘23、71的套数明显对于其他楼盘，且均价较低，物业费也不高，故判定第5类。为经济适用房。楼盘20、27、30、58略低于别墅，属于第4类。为甲级公寓。楼盘3、4、5、6、8、11、13、18、19、21…等属于第3类公寓，为公寓。楼盘1、7、9、10、12、14、15、16、17…等属于第1类物业，为甲级住宅。楼盘29、40、61、62、73则属于第6类物业，为普通住宅。可以得到以下的结果：类别物业楼盘第1类甲级住宅1、7、9、10、12、14、15、16、17、22、25、26、31、32、34、36、39、44、45、47、48、49、50、51、52、57、59、60、65、66、67、69、70、72第2类别墅2、55第3类公寓3、4、5、6、8、11、13、18、19、21、24、28、33、35、37、38、41、42、43、46、53、54、56、63、64、68第4类甲级公寓20、27、30、58第5类经济适用房23、71第6类普通住宅29、40、61、62、73七、问题2的模型建立与求解在实际研究和应用中，由于指标较多，再加上指标之间有一定的相关性，容易造成信息重叠，而一旦随意减少变量又会损失很多信息，可能产生错误结论。而主成分分析法(PrincipalComponentAnalysis)可以将多个指标简化成少数几个不相关的综合指标，达到降低数据空间维度、简化系统结构的目的。表1为利用SPSS对附录表l中的11个原始评价指标、73个评价对象(楼盘)数据计算出来的相关系数矩阵的特征值及其贡献率。表1中，ExtractionSum$ofSquaredI卫adings为因子提取结果，是未经旋转的因子载荷的平方和。它给出了特征值大于1的前四个因子，可以看出前四个成分所解释的方差占总方差的67.865％，具有较好的代表性，因此我们确定提取前四个主成分，这在一定程度上减少了原始数据的复杂性。表一楼盘分类指标数据TotalVarianceExplained主成分InitialEigenvaluesExtractionSumsofSquaredLoadings特征值%贡献率累计贡献率%特征值%贡献率累计贡献率%13.34530.41030.4103.34530.41030.41021.89517.22547.6341.89517.22547.63431.15110.46558.0991.15110.46558.09941.0749.76567.8641.0749.76567.8645.9328.47376.3366.8017.28283.6197.7076.42890.0468.4163.77893.8249.3903.54797.37110.2171.96899.33911.073.661100.000ExtractionMethod:PrincipalComponentAnalysis.1110987654321ComponentNumber43210EigenvalueScreePlot图一特征值碎石图由旋转后的因子得出的碎石图可以看出，因子l与因子2，以及因子2与因子3之间的特征值之差值比较大，而因子4以后的特征值之间的差值都比较小。因此可以进一步得出：保留3个因子将能够概括绝大部分信息，因此我们提出3个因子比较合适。通过对前三个因子的计算，可以得到四个主成分的线性表达式，如表3。ComponentMatrix(a)Component1234V1-.214-.042.538-.671V2.521-.533.286.307V3-.548.623.258.297V4-.590.410.248.472V5-.193.438-.567-.085V6.533.169-.174-.194V7.098.685.086-.349V8.716.358-.221.010V9.588.021-.189.173V10.728.404.313.058V11.812.266.331.134ExtractionMethod:PrincipalComponentAnalysis.a4componentsextracted.RotatedComponentMatrix(a)Component1234V1-.095-.041-.045.880V2.196-.251-.770-.190V3-.029.871.275.086V4-.179.871.088-.058V5-.041.034.712-.222V6.477-.357.149-.053V7.467.160.496.346V8.724-.261.175-.260V9.447-.272-.091-.361V10.879.015-.143.039V11.876-.051-.294-.033ExtractionMethod:PrincipalComponentAnalysis.RotationMethod:VarimaxwithKaiserNormalization.aRotationconvergedin6iterations.从旋转后的因子可以看出，因子1l主要与楼盘扩散指标、学科影响指标、总被引频次和引用楼盘数相关，