基于R语言数据挖掘课程期末论文

47851503
0 ℃
2020-07-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘技术与实验课程论文西安欧亚学院数据挖掘技术与实验课程论文学生姓名王川学生学号13130302110317所在分院金融学院专业经济统计学班级统本统计13级管理统计方向提交日期二〇一六年6月25日题目全国近20年来人口增长原因分析数据挖掘技术与实验课程论文摘要在“二胎政策”全面实施的背景下，我国人口增长形势将继续持续下去。而影响人口的增长的因素有人口出生率、婚姻登记数量、居民消费水平、参加生育保险人数和医疗发展程度有关。对这些数据进行相关分析，结果显示这些因素和人口数量的增长可用多元线性回归方程表示，同时可用多因素方差分析，研究这些因素的不同水平是否对人口的增长产生显著影响。R软件是一种开源的免费数据分析软件，功能强大，是数据分析工作者的首选软件之一。关键词：R语言；多元线性回归分析；方差分析。数据挖掘技术与实验课程论文目录引言............................................................11.1选题的背景和意义..................................11.2研究方法与思路....................................1正文...................................................22.1前言..............................................22.2数据分析..........................................22.2.1数据预处理......................................22.2.2回归分析.........................................42.2.3方差分析.........................................8结论...................................................13参考文献...............................................13数据挖掘技术与实验课程论文I引言1.1选题的背景和意义二孩政策，是中国实行的一种计划生育政策，规定符合条件的夫妇允许生育“二胎”。因为是二孩政策，故第一胎为多孩时，不可生第二胎。2011年11月，中国各地全面实施双独二孩政策；2013年12月，中国实施单独二孩政策；2015年10月，中国共产党第十八届中央委员会第五次全体会议公报指出：坚持计划生育基本国策，积极开展应对人口老龄化行动，实施全面二孩政策。在经历了迅速从高生育率到低生育率的转变之后，我国人口的主要矛盾已经不再是增长过快，而是人口红利消失、临近超低生育率水平、人口老龄化、出生性别比失调等问题。国内20多位顶尖人口学者历经两年的研究指出，我国的人口政策亟待转向，尤其是生育政策应该调整。1.2研究方法与思路人口增长的原因大体与人口出生率、婚姻登记数量、居民消费水平、参加生育保险人数和医疗发展程度有关。回归分析的基本思想是，虽然自变量和因变量之间没有严格的、确定性的函数关系，但可以设法找出最能代表它们之间关系的数学表达形式。所以可以采用回归分析，找到人口增长背后的具体关系。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。所以可以采用方差分析，得到所有因素中影响程度最大的那一个。数据挖掘技术与实验课程论文II正文2.1前言本文原始数据来源于中华人民共和国国家统计局，截取了2015-2014年全国人口总数（万人），婚姻登记（万对），居民消费水平（万元），参加生育保险人数（万人），医院数（个）。分析软件为R软件。2.2数据处理2.2.1数据预处理原始数据如下：年份人口总数（万人）婚姻登记（万对）居民消费水平（元）参加生育保险人数（万人）医院数（个）1995年121121934.123301500.2156631996年122389938.727652015.6158331997年123626914.129782485.9159441998年124761891.731262776.7160011999年125786885.333462929.8166782000年126743848.537213001.6163182001年12762780539873455.1161972002年12845378643013488.2178442003年129227811.446063655.4177642004年129988867.251384383.8183932005年130756823.157715408.5187032006年13144894564166458.9192462007年132129991.475727775.3198522008年1328021098.387079254.1197122009年1334501212.4951410875.7202912010年13409112411091912335.9209182011年1347351302.361313413892219792012年1354041323.591469915428.7231702013年1360721346.931619016392247092014年1367821306.741777817038.725860数据挖掘技术与实验课程论文III把原始数据导入txt。为便于R软件分析，我们需要把元素“婚姻登记（万对），居民消费水平（万元），参加生育保险人数（万人），医院数（个）”依次命名为X1、X2、X3、X4，把“人口总数（万人）”，命名为Y。在R软件内打开txt：人口增长-read.table(file=人口增长.txt,header=T,sep=)人口增长年份YX1X2X3X411995年121121934.1023301500.21566321996年122389938.7027652015.61583331997年123626914.1029782485.91594441998年124761891.7031262776.71600151999年125786885.3033462929.81667862000年126743848.5037213001.61631872001年127627805.0039873455.11619782002年128453786.0043013488.21784492003年129227811.4046063655.417764102004年129988867.2051384383.818393112005年130756823.1057715408.518703122006年131448945.0064166458.919246数据挖掘技术与实验课程论文IV132007年132129991.4075727775.319852142008年1328021098.3087079254.119712152009年1334501212.40951410875.720291162010年1340911241.001091912335.920918172011年1347351302.361313413892.021979182012年1354041323.591469915428.723170192013年1360721346.931619016392.024709202014年1367821306.741777817038.7258602.2.2回归分析2.2.2.1绘制散点图先利用pairs函数，绘制如图1-1所示的矩阵散点图。pairs(~Y+X1+X2+X3+X4,data=人口增长,main=人口增长相关矩阵散点图)数据挖掘技术与实验课程论文V发现人口总数（万人）与各个因素呈现出了一定的线性关系，可以考虑借助线性回归模型进行回归。2.2.2.2建立回归模型建立回归模型为443322110XXXXY。在R软件里输入lm语句：Fit-lm(Y~X1+X2+X3+X4,data=人口增长)coefficients(Fit)(Intercept)X1X2X3X4130652.757898-24.032044-2.2838413.2472610.886581说明建立的线性回归方程为：4321887.0247.3284.2032.24758.130652XXXXY2.2.2.3参数检验查看人流量Y线性回归方程的参数检验结果：summary(Fit)Call:lm(formula=Y~X1+X2+X3+X4,data=人口增长)Residuals:Min1QMedian3QMax-1080.5-477.6-201.8458.61368.0Coefficients:EstimateStd.ErrortvaluePr(|t|)数据挖掘技术与实验课程论文VI(Intercept)1.307e+057.716e+0316.9333.47e-11***X1-2.403e+013.216e+00-7.4721.97e-06***X2-2.284e+004.293e-01-5.3198.58e-05***X33.247e+003.435e-019.4541.04e-07***X48.866e-014.180e-012.1210.051.---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:731.9on15degreesoffreedomMultipleR-squared:0.9809,AdjustedR-squared:0.9757F-statistic:192.1on4and15DF,p-value:1.09e-12由结果可知，F统计量的观测值是192.1，概率p值小于1.09e-12。若给定显著性水平α为0.05，则p小于α，拒绝原假设，选择线性模型合理。但由上示数据可得，对于X4，其回归系数显著性检验t统计量的观测值为0.051，t统计量的标准误（分母）为2.121，不能拒绝原假设，不应保留在回归方程中，需排除X4后重新建模。Fit-lm(Y~X1+X2+X3,data=人口增长)summary(Fit)Call:lm(formula=Y~X1+X2+X3,data=人口增长)Residuals:Min1QMedian3QMax数据挖掘技术与实验课程论文VII-1135.05-490.66-80.94465.841797.51Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)1.464e+052.365e+0361.9022e-16***X1-2.786e+012.937e+00-9.4865.70e-08***X2-1.678e+003.539e-01-4.7420.000221***X33.330e+003.767e-018.8401.48e-07***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:807.9on16degreesoffreedomMultipleR-squared:0.9751,AdjustedR-squared:0.9704F-statistic:209on3and16DF,p-value:4.859e-13coefficients(Fit)(Intercept)X1X2X3146375.839081-27.863955-1.6779833.330386现在回归方程的显著性检验和回归系数的显著性检验均通过，所以该模型可用。这是个三元线性回归方程，方程表达式为:3213