对Boston数据集的分析--统计机器学习期中考试

jnny521
0 ℃
2020-04-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Analysisofbostondatasets组员：郭晋郭煜田甜刘一诺Questions：•怎样预测波士顿的犯罪率？•怎么预测某市民是否犯罪？Q1：怎样预测波士顿的犯罪率•下面是我们的解决过程：1、做出每个变量对变量crim的简单线性回归，进行预测2、由简单线性回归的预测，做残差分析，发现预测效果不佳3、以crim为响应变量，其余变量为预测变量，做多元线性回归。4、发现多元线性回归预测效果不佳，进行多元回归分析，不断改变归回模型，最终得到最佳回归模型。下面是具体操作过程：首先我们画出Boston的散点图矩阵，大致观察图像之后我们以其中的zn对crim的线性回归为例，向您展示我们的造作过程首先，我们拟合了zn与crim之间的线性关系，得到相关结果如下：lm.fit0=lm(crim~zn,data=Boston1)summary(lm.fit0)Call:lm(formula=crim~zn,data=Boston1)Residuals:Min1QMedian3QMax-2.811-2.652-1.755-0.36086.141Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)2.835640.409556.9241.74e-11***zn-0.046570.01415-3.2910.00109**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:7.197on404degreesoffreedomMultipleR-squared:0.02611,AdjustedR-squared:0.0237F-statistic:10.83on1and404DF,p-value:0.001086发现p值小于0.01，我们有理由认为zn和crim之间存在关联之后，画出zn对crim的散点图与拟合曲线，我们发现，拟合效果不佳。plot(Boston$zn,Boston$crim)abline(lm.fit0)之后我们又画出真实值和拟合值的残差图，看预测准确度如何，横坐标是测试集的crim预测值,纵坐标是预测值和真实值的残差注：在拟合时，我们用前406个观测当作训练集，后100个观测当作测试集preb=predict(lm.fit0,data.frame(zn=(c(Boston[407:506,2]))),interval=confidence)plot((Boston[407:506,1]-preb[,1])^2~preb[,1])我们发现预测效果十分不好，事实上，所有简单线性回归的预测效果均不是很好，下面我们给出具体操作数据与图像。下面是各简单线性回归的p值：从中可以看出，和crim有（0.01）线性关系的预测变量有:zn,indus,nox,rm,age,dis,rad,tax,ptratio,blackcrim~zncrim~induscrim~chascrim~noxcrim~rmcrim~agecrim~discrim~radcrim~taxcrim~ptratiocrim~blackcrim~lstatcrim~medvIntercept2.83564-1.64572.2066-10.84313.768-2.646586.7596-2.66513-9.25268-10.92435.416339-2.787138.20163系数-0.046570.40041-0.35524.447-1.83140.07469-1.10150.704230.0322430.7263-0.008530.43449-0.25013p值0.001097.25E-140.7838.20E-160.0001929.08E-108.65E-122e-162e-166.71E-060.342e-164.02E-11各简单线性回归的散点图与拟合曲线如下：各简单线性回归残差图如下:从中可以看出，预测情况较好的变量有：nox,rm,age,dis,black,lstat,medv鉴于简单线性回归给出的预测均不好，下面我们对变量进行多元回归分析。首先直接对其进行多元回归，生成诊断图并分析问题。lm.fit13=lm(crim~.,data=Boston1)par(mfrow=c(2,2))plot(lm.fit13)注：•图一和图三都用于检查数据的非线性。图一是残差和预测变量的散点图，红线是对残差的一个光滑拟合，目的是更易于识别趋势，残差呈现明显大的U形，说明响应变量和预测变量之间是非线性关系。图三是标准化残差的平方根和预测变量的散点图。拟合红线和图一呈现相近的趋势，说明数据存在异方差性，因此数据有非线性关系。•图二用于观察残差是否服从正态分布，是残差平方根和理论分位点的散点图，很显然残差不服从正态分布。•图四用于判断高杠杆点：是标准化残差和杠杆值的散点图，红线表示的是cook’s距离等高线，我们发现381号样本有较大的影响。(Cook’sdistance衡量的是一个某样本的改变会使得所有样本的残差改变的幅度，该值越大，说明该样本异常)为使回归模型预测效果更好，我们通过对预测变量做非线性变换来改进模型我们分别作了对数变换、平方变换和开方变换发现对数变换预测性最好，最优拟合是lm.fit13，对应的是多元回归拟合，这个答案是合理的，lmfit13对训练集的数据拟合程度最高，也就导致了它预测性不会比做了非线性变换之后的回归好.具体操作如下：多元线性：参数显著性：残差图：对数变换参数显著性残差图平方变换参数显著性残差图开方变换参数显著性残差图