(5)基于随机森林的合肥城区商品房定价模型探索(安徽省统计局参加全国建模比赛作品)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1基于随机森林的合肥市城区商品房定价模型探索安徽省统计局摘要房地产定价方法是房地产经营过程中的核心与实务。如何定价既影响到房地产企业的销售和利润,也关系到消费者的切身利益。本文利用搜房网、365地产网及百度地图卫星遥感等互联网数据,以目前合肥市城区在售的全部楼盘为研究对象,选取环线、公交、地铁、物业、绿化等15个变量,涵盖区位交通、楼盘品质、周边配套、邻近环境等内容,通过对楼盘均价建立随机森林算法模型,试图找出影响定价的主要因素对其模拟,并结合探索性分析对楼盘分类,建立判别模型。此外,基于模型的拟合结果,结合聚类对奇异点楼盘进行分析。结果表明,随机森林方法稳健性较高,有助于在房地产定价应用中提供参考。关键词:房地产定价随机森林判别模型互联网数据一、问题的提出房地产价格一直是大家关注的热点问题。为什么同一个城市,楼盘价格有高有低?为什么随着时间推移,有些楼盘价格持续看涨,有些却大幅促销?商品房作为老百姓的必需品,也是投资品,其价格的一涨一跌牵动着每一位消费者的心,也关系到社会的和谐和稳定。由于房地产资产规模较大,且具有较强的异质性、不易流动性、2不可分割性,其交易信息与数据难以获得,致使对房地产资产的定价研究难度较大,房地产定价模型和方法的研究没有像房地产市场那样得到应有的重视和发展,国内外房地产定价的研究也不多,如何科学定价困扰了专家学者与业内人士。大多数房地产企业按照一般商品模式定价,然而,仅从开发成本角度考虑易导致定价偏低,有利于销售却未体现区位优势和投资潜力,过高的价格又会导致销售不佳。因此,房地产定价模型研究就成为房地产价格未来走势的重要工具。在当今大数据时代,互联网数据获取之便捷以及计算机应用的大量普及,让我们不禁思考,能否运用数据挖掘方法从从纷繁复杂的互联网数据中寻找到房地产定价的一般模式?二、相关研究综述在商品房定价时,定价人员必须考虑开发商成本,同时也要考虑一些相关因素,如楼层、建筑面积、区位、交通、物业管理等。传统的定价方法有:成本加利润法、市场价法和差别定价法。国内外学者以市场竞争、销售博弈、供求理论为基础,根据供需双方之间的市场博弈行为对房地产定价,以影响房地产价格的因素作用波动进行价格调节。2002年LeungB.Y.P,HuiE.C.M.以香港迪斯尼乐园为案例,把定价理论(OPT)运用到房地产定价的策略,阐述了这种定价策略方法的实际应用。2003年FrancisK.Cheung,ShawnNi和AlanSiu对于香港不稳定的房地产市场是否与基于消费者的资产定价模型相一致做出了分析。近年来,部分学者将神经网络、随机森林、支持向量机等新技术运用到房地产价格评估。2001年NguyenNghiep得出了人工神经网络方法对住宅价格预测效果好于多元线性回归的结论,2010年K.C.Lama,C.Y.Yua和C.K.Lama使用支持向量机预测房产价格,并与多元回归、神经网络等方法进行比较。在国内,2007年惠彦涛使用Bp3神经网络模型对影响住宅价格因素进行分析,张鑫使用支持向量机对杭州二手房价格进行评估,2010年罗党、时亚楠基于灰色BP神经网络组合模型对郑州市商品房价格展开预测。现有研究表明,从数据本身出发的算法模型有很好的预测效果。三、研究设计(一)研究对象本文的研究对象为合肥市城区(瑶海区、庐阳区、包河区、蜀山区、政务区、高新区、经开区、新站区、滨湖新区)2014年在售的住宅用楼盘,产权为70年,包括多层、小高层和高层,不包括别墅。(二)变量选取从理论上看,对住宅价格评估主要有两方面,一是基于开发成本估价,包括土地出让金、建安工程费用、基础设施配套、广告宣传、税费等,二是基于楼盘的属性特征估价,包括区位交通、配套设施、周边环境、管理水平等,表现为消费者效用的满足程度。在现实生活中,住宅价格远远高于开发成本,特别在很多一、二线城市和省会城市,区位优势明显、周边配套齐全的楼盘可谓“寸土寸金”,楼盘所具备的“居住属性”才是价格的决定性因素。此外,从地租理论角度看,楼盘的“居住属性”与土地出让金成本密切相关。因此,在研究省会合肥市的楼盘定价时,我们认为楼盘的区位、配套、环境等属性能够完全解释价格的变化。目前,国内外对房地产价格评估的指标主要集中在楼盘品质、区位交通和周边环境三个方面,我们在这些研究的基础上,从指标对价格解释程度出发,并依据系统性、全面性、数据的可得性、可量化性等原则,选取了装修水平x1、环线位置x2、至城市中心乘车时间x3、距离邻近商圈距离x4、容积率x5、物业费标准x6、公共交通x7、绿化率x8、地铁规划x9、楼层情况x10、配套设施x11、商场数量x12、距公园湖山4距离x13、区域环境得分x14、建筑面积x15等15项指标作为自变量。1.区位交通类指标有4项,环线位置、至城市中心乘车时间描述了楼盘的地理位置,而公交和地铁作为城市主要出行工具,体现了居民出行的便捷程度。2.楼盘品质是消费者关注的重点,共有6项。其中,容积率、绿化率关系到居住的舒适度,物业费标准与物业公司品牌密切相关,并受到部分对价格较敏感消费者的关注,精装或毛坯对定价影响明显。此外,部分消费者对楼层高度也具有偏好。3.周边配套类有3项,距离商圈距离远近、周边商场的多少关系到购物的便捷与否,周边学校、医院、银行等设施则为居民提供了教育、医疗、理财等重要服务。4.邻近环境类有2项,“距公园湖山距离”被定义为从小区到邻近的公园、湖、山的路程距离,同样决定了楼盘的综合品质,区域环境评分是对楼盘所在区域绿化、空气、卫生、噪音情况的综合评分。表1“居住属性”变量列表居住属性选用变量区位交通环线位置、至城市中心乘车时间、公共交通、地铁规划楼盘品质装修水平、容积率、物业费标准、绿化率、楼层情况、建筑面积周边配套与邻近商圈距离、商场数量、配套设施邻近环境距公园湖山距离、区域环境得分(三)数据来源及预处理合肥市在售楼盘相关情况,包括均价、环线位置、公共交通、地铁规划等12项变量数据均取自搜房网、合肥365地产家居网和合肥家园网,共计156个样本数据。至城市中心乘车时间、与离邻近商圈距离、距公园湖山距离3项变量数据取自百度地5图,区域环境评分是基于合肥市环保局监测数据的综合评分。需要说明的是:1.楼盘均价为2014年7月份当月价格。部分楼盘因销售尾盘大幅调整价格,我们对这些楼盘价格作了相应修正,采用了该楼盘本年度主要销售时间内的定价。2.地铁规划、装修水平为虚拟变量,具有地铁规划或精装修为1,否则为0。环线位置分为一环内、二环内和二环外三级,相应地赋值为1分、0.8分和0.6分。配套设施包括幼儿园、小学、初中、高中、医院、银行六个分项,具备一项得0.1分,最高为0.6分。3、我们以百度地图为工具,将合肥市传统意义上的市中心淮河路步行街作为终点坐标,查询各楼盘乘公交所花费的时间,记录为“至城市中心乘车时间”数据。选取包括环城公园、森林公园、植物园、蜀峰湾公园、大蜀山、天鹅湖等在内的多个公园、湖、山作为终点坐标,计算与附近楼盘间的距离,记录为“距公园湖山距离”数据。选取逍遥津、天鹅湖万达、明珠广场、双岗、滨湖世纪金源等多个重要商圈作为终点坐标,计算与附近楼盘间的距离,记录为“与邻近商圈距离”。4、我们根据合肥市环保局的监测数据,对各区域绿化、空气、卫生、噪音进行评分。其中,政务区为第一档,蜀山区、高新区和滨湖新区为第二档,经开区、庐阳区、包河区为第三档,瑶海区和新站区为第四档,分别赋值0.9分、0.8分、0.7分和0.6分。5、个别楼盘存在物业费标准、楼层数据缺失情况,对于后者,我们根据合肥房产开发的一般情况,将多层、小高层和高层分别按照6层、18层和30层进行补值。对于前者,我们将在运用随机森林的rfImpute函数进行插值处理。四、模型构建(一)数据探索性分析61.变量基本情况使用R软件中的describe和summary函数对数据进行初步分析。summary()函数列出了因变量价格与7个自变量的基本情况,样本中合肥住宅价格最高的为15000元/平米,最低的为5100元/平米,平均价格为7978元/平米,中位数为7800元/平米。describe()函数列出了所有变量的平均值、中位数、四分位数等,并显示最低、最高共计10个离散值。从输出结果可知,X6(物业费标准)有5个缺失值。表2探索性分析部分输出结果yx1x2x3Min.:5100Min.:0.00000Min.:0.6000Min.:5.001stQu.:69381stQu.:0.000001stQu.:0.60001stQu.:40.00Median:7800Median:0.00000Median:0.6000Median:60.00Mean:7978Mean:0.08333Mean:0.6923Mean:59.443rdQu.:86863rdQu.:0.000003rdQu.:0.80003rdQu.:80.00Max.:15000Max.:1.00000Max.:1.0000Max.:120.00x4x5x6x7Min.:0.100Min.:1.000Min.:0.450Min.:1.0001stQu.:1.8001stQu.:2.5001stQu.:1.2001stQu.:3.000Median:3.150Median:3.000Median:1.400Median:4.000Mean:3.647Mean:3.195Mean:1.361Mean:4.9293rdQu.:5.3003rdQu.:3.5003rdQu.:1.4403rdQu.:7.000Max.:12.500Max.:9.500Max.:3.980Max.:17.000x6nmissinguniqueMean0.050.10.250.50.750.90.951515401.3610.71.11.21.41.441.441.8752.楼盘价格分布对合肥城区楼盘价格绘制密度直方图。以千元位分界线,合肥在售楼盘主要有10个价位水平,大部分价格在6000-10000元/平米区间内,数量达到136个。其中77000-8000元/平米的楼盘有44个,占全部在售楼盘的28.2%,万元以上楼盘有9个,6000元以下的有11个。对各价位水平分别绘制箱线图,结果显示,6000-7000价位的楼盘价格数据明显呈现右偏趋势,而7000-8000、8000-9000价位的楼盘价格数据呈现左偏趋势。图1楼盘价格分布情况3.变量相关性分析在R软件中加载rattle软件包和ellipse软件包,计算变量间相关系数并绘制相关图。图中,圆形的宽窄表示相关性的高低,圆形倾斜方向代表相关性的正负,可以清晰的看到,楼盘价格y与装修水平x1、环线位置x2、物业费标准x6、公共交通x7等变量呈较明显的正相关关系,与“至城市中心乘车时间”x3、“与邻近商圈距离”x4呈较明显的负相关关系,但与绿化率x8、地铁规划x9、楼层情况x10、配套设施x11、建筑面积x15等变量间关系不是很明显。自变量环线位置x2与“至城市中心乘车时间”x3为负相关,而与公共交通x7为正相关。8yx1x2x3x4x5x6x7x8x9x10x11x12x13x14x15yx1x2x3x4x5x6x7x8x9x10x11x12x13x14x15图2变量相关性分析(二)缺失值插补取自互联网的156个样本中,有5个缺少物业费标准数据,对缺失数据的处理方法有删除、均值插补、回归插补等多种方法。我们采用R软件randomForest包的rfImpute()函数对缺失值进行插值。rfImpute()函数是利用随机森林模型中的临近矩阵对将要进行模型建立的数据中存在的缺失值进行插值,经过多次迭代不断修正,得到最优的拟合值。使用的rfImpute()函数,对13个样本的缺失值进行插值,将结果代替缺失值,补充进原数据集中:表3使用rfImpute()函数插值结果$czyx6379001.263782001.1219168001.21112194001.18913186001.5189(三)随机森林模型

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功