实验课程:R语言与统计分析专业:应用统计学班级:16080441学号:1608044133姓名:胡玉玲中北大学理学院实验十二数据的综合分析案例【实验类型】验证性【实验学时】2学时【实验目的】1、掌握数据的获取方法与渠道,并对数据进行预处理;2、掌握综合运用恰当的统计方法、绘制相关统计图形;3、掌握对统计结果进行合理解释,并进行预测、决策或给出合理化建议。【实验内容】1、从国家统计年鉴或相关网站获取相关统计数据;2、对数据进行描述性分析及可视化;3、对数据进行综合统计分析,给出统计分析报告。【实验方法或步骤】一、数据收集:从国家统计局下载年度数据“按国别分外国入境游客”,如下所示:第二步:数据的整理与预处理在excel内删除没用的行、含有缺失数据的最后一行以及对表中文本进行处理,处理后的excel数据如下:第三步:数据的描述性统计分析与可视化#读入数据x-read.csv(F:/文档/大学课程/R语言/按国别分外国入境游客.csv,header=TRUE,sep=,)x#对列进行调整,使得年份为递增排列x1-data.frame(x$index,x$n09,x$n10,x$n11,x$n12,x$n13,x$n14,x$n15,x$n16,x$n17,x$n18)#对数据框进行行列转置t1-t(data.frame(x1,row.names=1))t-as.data.frame(t1,row.names=F)par(omi=c(.5,.5,.5,.5));par(mfrow=c(3,2))par(mar=c(3,2,2,1))#图1plot(ts(t$亚洲,end=2018,frequency=1),ylab=旅游人数(万),xlab=年,main=亚洲入境旅游总人数变化图)par(mar=c(3,3,2,1))#图2plot(ts(t$日本,end=2018,frequency=1),ylab=旅游人数(万),xlab=年,main=日本入境总人数)par(mar=c(4.5,4.5,2,1))##图3plot(ts(t$美国,end=2018,frequency=1),ylab=旅游人数(万),xlab=年,main=美国入境总人数)par(mar=c(3,2,2,1))##图4plot(ts(t$加拿大,end=2018,frequency=1),ylab=旅游人数(万),xlab=年,main=加拿大入境总人数)par(mar=c(3,3,2,1))##图5plot(ts(t$俄罗斯,end=2018,frequency=1),ylab=旅游人数(万),xlab=年,main=俄罗斯入境总人数)par(mar=c(2,2,1,1))##figrue图6plot(ts(t$澳大利亚,end=2018,frequency=1),ylab=旅游人数(万),xlab=年,main=澳大利亚入境旅游总人数)mtext(各国旅游人数变化,line=1,outer=T,cex=1.5)#画出国外入境旅游总人数变化图m-ts(t$总计,end=2018,frequency=1)plot(m,ylab=旅游人数(万),xlab=年,main=国外入境旅游总人数变化图)#对入境旅游总人数进行平稳性检验acf(m,main=自相关图)#画出自相关图说明:自相关图里自相关系数没有快速的减为0,而是呈现出拖尾的特征,故判断序列为非平稳序列。#对序列进行平稳化处理opar-par(mfrow=c(2,1))plot(m,type=l,xlab=时间,ylab=尼罗河流量对数值,main=差分前)acf(m,main=自相关图,xlab=滞后阶数)par(opar)library(forecast)ndiffs(m)[1]1#结果表明序列需要进行1阶差分ndata-diff(m,1)ndiffs(ndata)[1]0#结果表明无需进行差分opar-par(mfrow=c(2,1))plot(ndata,type=l,main=差分后)acf(ndata,main=自相关图,xlab=滞后阶数)par(opar)#ARMA模型的定阶及参数估计opar-par(mfrow=c(2,1))acf(ndata)pacf(ndata)par(opar)model1-arima(m,order=c(0,1,1),method=ML)model1说明:通过上面的acf和pacf图,我们可以选取建立ARIMA(0,1,1)模型。最后估计出来的模型为:110.3131ttttyy#模型检验qqnorm(model1$residuals)#残差的正态性检验qqline(model1$residuals)Box.test(model1$residuals,type=Ljung-Box)#残差的白噪声检验从画出的QQ图和LB检验的结果来看,残差符合正态性假设且不相关,则认为模型拟合数据比较充分。