垃圾减量分类活动中社会及个体因素的量化分析队员1:刘文杰,队员2:杨森,队员3:阳东升,2013年6月1日摘要随着城镇化水平进程加快、人们生活水平提高和生活观念的改变,城市生活垃圾处理正在成为一个挑战性的难题。为定量研究深圳市垃圾减量分类试点工作的若干问题,本文采用主成分分析法(PCA),将统计的各个因素的量化数据用SPSS软件,在a=0.05的显著性水平下筛选出2个主成分(累计百分比98.556%)。最后,以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型∑。分析该模型即可量化描述各个因素对垃圾减量分类的影响。在构建的减量分类模型基础上,我们运用数据挖掘的思想对附录2,3的各垃圾组分的数量变化和相关性进行分析。发现“其他垃圾”的反比特性;通过数据拟合我们得出政府各项激励措施和减量分类效果之间的正相关关系。第三问中我们利用关联分析法指出下一步垃圾减量分类工作应该在教育宣传、环保投入和城市总人口数的调节方面投入更多成本和精力。为了减轻抽样检测的工作负担,提高采样效率,我们设计出一套基于分层抽样和聚类处理的多原则数据抽样法,依据不同区域人口的梯度差计算各区占总人口Psum的比重W,以此来指导采样点的设置;采用回归分析的思想对变化小的垃圾采样点进行回归分析,并用F检验进行通过性筛选,通过计算我们发现有13,16,21三个站点是可以剔除的。综合分析本文模型中目的因子受各影响因子的影响程度,结合目前深圳市的垃圾减量分类工作,深圳市未来5年应当注重教育宣传、环保投入和城市总人口数的调整。根据区间估计思想,算出未来五年各个影响因子的权重变化区间,由各权重的最大值和最小值修正减量分类模型,分别预测五年后实施的最好与最坏结果。最后,就本文模型对垃圾分类工作的分析,向深圳市政府开展下一步垃圾处理工作提出合理化建议。关键词:主成分分析,分层抽样,聚类处理,数据挖掘,区间估计一、问题重述随着经济的大力发展和人们生活水平的显著提高,人们的生活方式和生活理念也发生了相应的改变,人们更加追求清洁舒适的生活环境。然而,城市生活垃圾处理正在成为一个挑战性的难题。传统的垃圾处理方式,如填埋、焚烧等已不能持久地解决问题,各种整治技术必须与减量化、无害化、回收利用等措施结合起来,才能标本兼治、经济持久。在垃圾处理方面,台湾经过十几年的探索和实践,取得了显著成效,其采取的措施主要有源头减量和资源回收。这些措施对我们处理生活垃圾具有很重要的借鉴意义。其中,从源头对垃圾进行减量分类收集是必须且关键的一个环节。然而目前对这一环节的研究改良主要依靠的还是经验总结型的定性分析,主要原因是缺少描述“社会因素”和“个体因素”及其相互作用的量化模型,难以开展具有一定精度的量化分析工作。因此,本文以深圳市的垃圾减量分类试点工作的实践资料和自己收集的资料为基础,,探讨以量化模型描述垃圾减量分类活动“社会因素”、“个体因素”及其相互关系,旨在提高城市生活垃圾产量的预测精度,给城市垃圾减量分类工作中的资源投入决策活动提供有益的辅助支持手段。研究问题如下:1、构建量化模型描述深圳天景花园、阳光家园垃圾减量分类过程,模型应能以量化参数描述社会因素以及个体因素,并在后续的进一步研究过程中通过调整相关参数来修正模型。2、基于构建的减量分类模型,分析试点小区四类垃圾组分本身的数量存在的相关性。各项激励措施与减量分类效果存在的相关性及原因。3、根据构建的减量分类模型,分析深圳现有的统计基础数据及颗粒度是否足够,应该在哪些数据的获取中投放更多的成本和精力。在减量分类模式大面积推广时,如何设置少量抽样数据来检测一定区域内减量分类工作的效果。4、基于构建的减量分类模型,指出深圳未来5年推进减量分类工作关键措施,并预测措施实施的最好与最坏结果。根据分析和结论,向深圳市政府提供一份建议书,建议政府加强垃圾分类的推力度并增加与垃圾分类宣传推广的投入。二、问题分析2.1问题一:通过分析问题一发现,该减量分类模型受多个因素影响,这些因素之间又有多个层次、多种相关性,为了更科学合理的以量化参数描述社会因素和个人因素,在统计获得各影响因素(如政府对垃圾分类的激励程度,居民家庭收入水平等)并进行数值拟合之后,我们采用主成分分析法(PCA),利用SPSS构建主成分综合模型,分析各影响因子(即社会因素和个人因素)对目标因子(即城市日常垃圾产量)的影响。首先,利用统计法收集影响垃圾减量分类的各个社会因素和个人因素,利用SPSS将原始数据标准化处理后得到相关系数矩阵R。第二,利用主成分分析的思想处理相关系数矩阵R,将计算出来的特征值排序,,筛选出特征值大于的前m个主成分,由主成分载荷矩阵L求得各个主成分表达式。最后,以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型∑,分析该模型即可量化描述各个因素对垃圾减量分类的影响。2.2问题二:基于构建的减量分类模型,分析四类垃圾组分的数量随时间变化趋势线发现,某个阶段数量有明显波动,经过分析排除特殊值后计算垃圾组分的相关系数,得出四类垃圾本身的相关性。然后拟合近三个月的数据,得出政府激励措施和减量分类效果之间的关系。2.3问题三:分析深圳现有垃圾减量分类督导过程,利用《生活垃圾采样和物理分析方法(CJ/T313-2009)》的国家规范说明其目前统计的基础数据分项及颗粒度是否足够,分析对比目前统计数据的获取和本文模型下个影响因子的贡献率,利用关联分析法指出哪些数据获取需要投入更多成本和经历。最后,基于目前的主流抽样检测方法,设计出一套基于分层抽样和聚类处理的多原则数据抽样法科学的适合垃圾减量分类工作的简便式抽样策略。i021p02.4问题四:综合分析本文模型中目的因子受各影响因子的影响程度,结合目前深圳市的垃圾减量分类工作,指出该市未来5年推进减量分类工作关键措施,并构建预测模型措施实施的最好与最坏结果。2.5问题五:综合我们的分析和结论,向深圳市政府提供一份建议书,对其目前的垃圾处理工作提出切实可行的合理化建议。三、问题假设1.问题一中的统计数据多数来自《深圳统计年鉴(2012)》,假设该数据来源准确可靠,个别数据误差带来的影响忽略不计。2.假设主成分分析法中设定的元素可以全面准确的刻画垃圾减量分类过程。3.根据CPA的基本思想,主成分综合模型中确定主成分时,自第一主成分算起,以累计方差占比不低于95%为限,仅保留前r<n个主成分。4.假设在一段时间内居民生活消费产生的垃圾是恒定的,处于平稳状态。5.假设目前深圳市的垃圾减量分类工作基本完全按照预定方案施行,实际效果和预计效果没有很大偏差。6.过年放假等特殊时期对小区人口的影响导致统计数据不具有代表性,在分析过程中舍去。7.政府部门采集数据完全按照标准执行,即没有伪造,篡改数据的情况。8.在“减少抽样次数”分析时,我们假设政府已经按照问题一分析搜集了相应的数据。9.在较短的一段时间内,政府环保政策和投入变化是规划好的,即现阶段的统计数据能有效预测未来趋势。四、符号说明:政府教育力度(万)2:深圳市经济发展水平(GDP亿元)3:政府对垃圾分类的激励程度(万元)4:总人口数(万人)5:户籍类型(户籍/非户籍比例)6:居民生活水平(人均GDP万元)7:家庭结构(平均每户人口数):垃圾减量分类效果rij:原变量xi与xj的相关系数(i,j=1,2,„,p)λ:各影响因子的特征值m:主因子个数A:主成分1的特征向量B:主成分2的特征向量五、模型建立与求解5.1.基于主成分分析的主成分综合模型分析深圳市的垃圾处理工作发现,垃圾减量分类过程受多种因素的综合影响,我们从社会和个人两个角度出发,提取出与垃圾分类有关的六个主要因素,分别是:政府教育力度,深圳市经济发展水平,政府对垃圾分类的激励程度,人口因素(包括总人口数和户籍类型),居民生活水平和家庭结构。将搜集到的六个因素的原始数据利用SPSS进行标准化处理,得到相关系数矩阵,运用主成分分析法,求得特征值进而获得各个影响因素的权重,最后可以分析社会因素和个人因素对垃圾减量分类过程的影响。5.1.1.影响因子量化影响垃圾分类效果的因素有很多,综合起来主要有社会因素和个人因素两大类,结合深圳市具体情况,我们选取政府教育力度,深圳市经济发展水平,政府对垃圾分类的激励程度,人口因素(包括总人口数和户籍类型),居民生活水平和家庭结构这六大因素作为影响因子。首先,根据《深圳统计年鉴2012》统计得出深圳市2000—2010年的教育支出,总GDP,人均GDP,环保投入,总人口数,户籍和非户籍比例,平均每户人口数最为之前选取的六个因素的量化数据,具体数据统计图如下表:表一:影响因子原始数据表年份政府教育力度(教育支出万元)深圳市经济发展水平(GDP亿元)居民生活水平(人均GDP万元)政府激励程度(环保投入万元)总人口数目(万人)户籍/非户籍比例家庭结构(平均每户人口数)200017974421873.118761421701.20.17813.2138200122360124823.42548861724.60.18223.2095200227816029693.9765881760746.60.18683.1176200334603135854.6063713595778.30.19393.1741200443046242825.3471537346800.80.20623.1731200553549549515.98127515010827.80.21983.1912200666615658146.6743230671871.10.2263.2073200782869868027.45530962669912.40.23283.27342008103090077878.160079128052954.30.2393.3992009128244082018.2421282616499950.24273.45872010159535595829.23833453462710370.2423.51395.1.2.获得影响因子的相关系数利用SPSS将所获得原始数据标准化处理后得到相关系数矩阵,相关系数求解公式如下:其中,rij(i,j=1,2,„,p)为原变量xi与xj的相关系数,rij=rji具体相关系数矩阵如下表:nknkjkjikinkjkjikiijxxxxxxxxr11221)()())((表二:相关系数矩阵a政府教育力度(教育支出万元)深圳市经济发展水平(GDP亿元)居民生活水平(人均GDP万元)政府对垃圾分类的激励程度(环保投入万元)总人口数目(万人)户籍/非户籍比例家庭结构(平均每户人口数)相关政府教育力度(教育支出万元)1.000.982.957.909.983.907.936深圳市经济发展水平(GDP亿元).9821.000.994.822.998.966.881居民生活水平(人均GDP万元).957.9941.000.764.991.985.831政府对垃圾分类的激励程度(环保投入万元).909.822.7641.000.823.662.902总人口数目(万人).983.998.991.8231.000.964.884户籍/非户籍比例.907.966.985.662.9641.000.768家庭结构(平均每户人口数).936.881.831.902.884.7681.000由表二可以看出,政府教育力度、深圳市经济发展水平、居民生活水平和政府激励程度之间存在极其显著的相关关系,总人口数、家庭结构和户籍非户籍比例存在显著地相关关系,因此,这六个影响因子之间存在信息重叠。可以从中提取主成分进行分析。5.1.3.提取主成分主成分个数提取原则为主成分对应的特征值大于的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标。如果特征值小于,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于作为纳入标准。当然,的选取要具体问题具体分析,