楼盘的分类问题摘要本文结合统计学和因子分析学,对给出的楼盘指标信息进行系统聚类分析,利用spss、excel软件求解,得出楼盘分类类别、物业分类因素排名。问题一:对表1的数据进行统计分析,建立了系统聚类分析模型,对楼盘进行了分类。由于各因素的量纲不同,对其量纲化统一处理。最终得到楼盘的物业类别,具体结果如下:类别物业楼盘第1类甲级住宅1、7、9、10、12、14、15、16、17、22、25、26、31、32、34、36、39、44、45、47、48、49、50、51、52、57、59、60、65、66、67、69、70、72第2类别墅2、55第3类公寓3、4、5、6、8、11、13、18、19、21、24、28、33、35、37、38、41、42、43、46、53、54、56、63、64、68第4类甲级公寓20、27、30、58第5类经济适用房23、71第6类普通住宅29、40、61、62、73问题二:我们采用了主成分分析法,利用spss软件对6种物业类别11个指标值进行了比较,根据其特征贡献率的不同,判断其影响程度的大小。贡献率越高,影响越大。在11个指标中,某些指标对物业类别的分类影响甚微,以至产生干扰,因此我们可以筛选某些变量,先筛选的变量影响最小,然后从小到大依次排序,得出各种楼盘影响因素的顺序。以普通住宅为例,得到结果如下:均价、原装修、车位、配套、总套数、绿化率、物业费、户型、位置、总占地、物状。本模型具有较强的适用性和普遍性,可以为决策者提供多种决策方案,具有较强的实用价值。关键字:系统聚类分析SPSS软件主成分分析法欧式距离特征值累积贡献率一、问题的背景21世纪是世界城市化高度发展的世纪。据联合国人居中心预测,2010年将达到55%,2025年达到65%,其中发达国家将达到83%。发展中国家将达到61%。我国目前的城市化水平约在30%左右,不仅远落后于发达国家,也落后于发展中国家的平均水平,滞后于相对社会经济发展,需要迅速加以提高。随着我国城市化进程的加快,人们在城市购房自然成为人人所关心的头等大事,那么我们就必要了解房产情况;面对眼花缭乱的楼盘信息,如何根据自己的实际情况,选择属于自己的物业呢?针对人们的需求,开发商该如何投资建设,又该考虑建哪些物业及关于楼盘该如何定价呢?解决这类问题是有很大的现实意义的。二、问题的提出与重述根据商品房个性化,一般可以将商品房自高至低划分为6种物业类别,分别为:别墅、甲级公寓、公寓、甲级住宅、普通住宅、经济适用房。现得到某城市一届房交会数据(见附表1),我们就此信息将解决以下问题:(1)给出表1各楼盘的物业类别;(2)关于该城市楼盘各物业类别,找出影响各物业类别的主要因素(或因素顺序);三、基本假设(1)在人为的推测和软件的基础之上考虑,会出现许多的误差,假设误差极小。(2)在进行定级、评分的时候,各数值不受人为因素的影响,假设没有过大的差别。(3)各个楼盘的各个指标数的波动极微,其改变对结果的影响可以忽略不计;(5)表1中的各个指标值相互独立;(6)各数值不受人为因素的影响。四、主要变量符号说明'ijx:标准化后的数据矩阵(73,...,2,1i;11,...,2,1j);ijx:原始数据矩阵(73,...,2,1i;11,...,2,1j);ijd:楼盘i与楼盘j间的距离;R:相关矩阵;U:主成分;五、问题的分析问题一:根据已知的数据对给定的73个楼盘进行分类,分成别墅、甲级公寓、公寓、甲级住宅、普通住宅、经济适用房6种物业类别。相当于将这73个楼盘通过聚类,分成6个类别。因此本文从聚类分析的角度对楼盘进行分类。每种物业类别的的区别是根据不同的户型、物业、配套设施等11项指标信息来判断。根据房地产方面的专业知识对物业结构进行初步的概念上的区分,以便对此后的模型的建立有一定的较专业的认识。由于是看不到的房子的质量,楼盘环境,期房相对现房一般来说是要便宜。问题二:在问题一的基础上比较各影响因素程度的大小。考虑到用主成分分析法,引入了贡献率的概念,是指有效或有用成果数量与资源消耗及占用量之比,即产出量与投入量之比,或所得量与所费量之比,计算式如下:贡献率(%)=某因素贡献量(增量或增长程度)/总贡献量(总增量或增长程度)×100%主成分分析法是一种数学变换的方法,把给定的相关变量通过线性变换成不相关的变量,这些新的变量按照方差依次递减的顺序排列。变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,且与第一变量不相关,称为第二主成分。以次类推,I个变量就有I个主成分。主成分分析实际上是一种降维方法。用较少的变量去解释原来资料中的大部分差异,将许多相关性高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的差异的几个新变量,即所谓主成分,并用以解释数据的综合性指标。运用主成分分析法便可以顺利地找出影响各物业类别的主要因素,得出因素顺序。六、问题1的模型建立与求解建立系统聚类模型:首先,将数据进行标准化,考虑到在实际问题中,不同类型的数据一般有不同的量纲。为了使含有不同量纲的数据能进行同等比较,通常需要对数据作以下变换:jjijijsxxx',其中:731731iijjxx,7312731ijijjxxs)(经上述变换后消除了量纲的影响。然后,计算73个楼盘之间的距离矩阵。根据标准化指标数据,我们选择计算楼盘之间的欧氏距离矩阵,公式如下:1112)(tjtitijxxd其次,进行系统聚类,其步骤如下:(1)初始聚类:将每个楼盘看作一类别,则各类之间的距离即等于各样点之间的距离。(2)合并距离最短的两类为一个新的类别。(3)计算新类别与此时待合并的各类之间的距离。对于不同的系统聚类方法,其具体计算距离的递推公式不同,下面用的是离差平方和法。假设类pG与类qG合并成新类rG,则rG与任一类iG的距离递推公式为:2222pqiriipirqiipirpiirDnnnDnnnnDnnnnD如果分类比较合理,则同类样品之间的离差平方和较小,类与类之间的离差平方和较大。事实证明,综合比较各种聚类方法,发现本题运用离差平方法的效果较好。(4)聚类结束。将所有的样点合并为一个大类,否则就回到第3步继续。聚类结束后,根据并类结构画出聚类分析关系图,建立模型1。图1:基于系统聚类分析模型进行物业类别判断的程序框图通过spss运行将73个房屋进行了划分为六个类别。此外,还要确定各个类别的物业类型。通过对各个指标值的区别比较,可以很准确的得到结果,因为我们起初标准化计算距离构成73个类合并类类间距离聚类假设均价为最为主要因素,于是我们利用这点进行如下分析:由于楼盘2、55的均价明显高于其他楼盘,因此可以判定第2类物业是别墅。楼盘23、71的套数明显对于其他楼盘,且均价较低,物业费也不高,故判定第5类。为经济适用房。楼盘20、27、30、58略低于别墅,属于第4类。为甲级公寓。楼盘3、4、5、6、8、11、13、18、19、21…等属于第3类公寓,为公寓。楼盘1、7、9、10、12、14、15、16、17…等属于第1类物业,为甲级住宅。楼盘29、40、61、62、73则属于第6类物业,为普通住宅。可以得到以下的结果:类别物业楼盘第1类甲级住宅1、7、9、10、12、14、15、16、17、22、25、26、31、32、34、36、39、44、45、47、48、49、50、51、52、57、59、60、65、66、67、69、70、72第2类别墅2、55第3类公寓3、4、5、6、8、11、13、18、19、21、24、28、33、35、37、38、41、42、43、46、53、54、56、63、64、68第4类甲级公寓20、27、30、58第5类经济适用房23、71第6类普通住宅29、40、61、62、73七、问题2的模型建立与求解在实际研究和应用中,由于指标较多,再加上指标之间有一定的相关性,容易造成信息重叠,而一旦随意减少变量又会损失很多信息,可能产生错误结论。而主成分分析法(PrincipalComponentAnalysis)可以将多个指标简化成少数几个不相关的综合指标,达到降低数据空间维度、简化系统结构的目的。表1为利用SPSS对附录表l中的11个原始评价指标、73个评价对象(楼盘)数据计算出来的相关系数矩阵的特征值及其贡献率。表1中,ExtractionSum$ofSquaredI卫adings为因子提取结果,是未经旋转的因子载荷的平方和。它给出了特征值大于1的前四个因子,可以看出前四个成分所解释的方差占总方差的67.865%,具有较好的代表性,因此我们确定提取前四个主成分,这在一定程度上减少了原始数据的复杂性。表一楼盘分类指标数据TotalVarianceExplained主成分InitialEigenvaluesExtractionSumsofSquaredLoadings特征值%贡献率累计贡献率%特征值%贡献率累计贡献率%13.34530.41030.4103.34530.41030.41021.89517.22547.6341.89517.22547.63431.15110.46558.0991.15110.46558.09941.0749.76567.8641.0749.76567.8645.9328.47376.3366.8017.28283.6197.7076.42890.0468.4163.77893.8249.3903.54797.37110.2171.96899.33911.073.661100.000ExtractionMethod:PrincipalComponentAnalysis.1110987654321ComponentNumber43210EigenvalueScreePlot图一特征值碎石图由旋转后的因子得出的碎石图可以看出,因子l与因子2,以及因子2与因子3之间的特征值之差值比较大,而因子4以后的特征值之间的差值都比较小。因此可以进一步得出:保留3个因子将能够概括绝大部分信息,因此我们提出3个因子比较合适。通过对前三个因子的计算,可以得到四个主成分的线性表达式,如表3。ComponentMatrix(a)Component1234V1-.214-.042.538-.671V2.521-.533.286.307V3-.548.623.258.297V4-.590.410.248.472V5-.193.438-.567-.085V6.533.169-.174-.194V7.098.685.086-.349V8.716.358-.221.010V9.588.021-.189.173V10.728.404.313.058V11.812.266.331.134ExtractionMethod:PrincipalComponentAnalysis.a4componentsextracted.RotatedComponentMatrix(a)Component1234V1-.095-.041-.045.880V2.196-.251-.770-.190V3-.029.871.275.086V4-.179.871.088-.058V5-.041.034.712-.222V6.477-.357.149-.053V7.467.160.496.346V8.724-.261.175-.260V9.447-.272-.091-.361V10.879.015-.143.039V11.876-.051-.294-.033ExtractionMethod:PrincipalComponentAnalysis.RotationMethod:VarimaxwithKaiserNormalization.aRotationconvergedin6iterations.从旋转后的因子可以看出,因子1l主要与楼盘扩散指标、学科影响指标、总被引频次和引用楼盘数相关,