预测海藻数量.总结

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

[键入文档标题]题目:海藻数量数据预处理与数据探索性分析姓名:樊海涛班级:12-1学号:1207060106专业:统计学预测海藻数量1.1基本任务:数据预处理、探索性数据分析和预测模型的构建1.2问题描述与目标某些高浓度的有害海藻对河流生态环境的强大破坏是一个严重问题,她们不仅仅破坏河流的生物,也破坏水质。能够检测并在早期对海藻的繁殖进行预测对提高河流质量是很有必要的。针对这一问题的预测目标,在大约一年的时间里,在不同时间内收集了欧洲多条不同河流的水样。对于每个水样,测定了它们的不同化学性质以及7种有害藻类的存在频率,在水样的收集过程中,也记录了一些其他特征,如收集的季节、河流的大小和水流的速度。本案例研究的动机之一是化学检测价格便宜,并且易于自动化。而通过分析生物样品来识别水中的藻类要涉及显微镜检验,需要训练有素的工作人员,因此即昂贵又缓慢,因此,构建一个可以基于化学性质来准确预测藻类的模型将有助于建立监测有害藻类的廉价的自动化系统。另一个目的是更好地了解影响藻类频率的因素。也就是说,我们要了解藻类的频率和水样的某些化学性质以及其他性质(季节、河流类型等)是如何相关的。1.3数据说明来自于ERUDIT研究网络,并被用于1999年的COIL国际数据分析竞赛。在R软件中可以直接获得。本案例有两个数据集,第一个数据集有200个水样。名为:algae,更精确的说,该数据集的每一条记录是同一河流在该年的同一个季节的三个月内收集的水样的平均值。每条记录由11个变量构成。其中3个变量是名义变量,它们分别描述水样收集的季节、收集样品的河流大小和河水速度。余下的8个变量是所观测水样的不同化学参数,即最大PH值最小含氧量O2平均氯化物含量CI平均硝酸盐含量NO3-平均氨含量NH4+平均正磷酸盐含量PO43-平均磷酸盐含量PO4平均叶绿素含量与这些参数相关的是7种不同有害藻类在相应水样中的频率数目。并未提供所观察藻类的名称的相关信息。第二个数据集由140个额外观测值构成。名为:algae.sols,它们的基本结构和第一个数据集一样,但是它不包含7种藻类的频率数目。可视为测试集。本案例的主要目标是预测140个水样中7种海藻的频率。在这种问题中,任务是建立预测模型,并预测在给定预测变量的取值时相应的目标变量的值。说明哪一个预测变量对目标变量有较大的影响。1.4加载数据利用R软件载入DMwR添加包,里面有我们需要的名为algae的数据框。这个数据框里含有前面提到的200个观测值:library(DMwR)head(algae)seasonsizespeedmxPHmnO2ClNO3NH4oPO41wintersmallmedium8.009.860.8006.238578.000105.0002springsmallmedium8.358.057.7501.288370.000428.7503autumnsmallmedium8.1011.440.0205.330346.667125.6674springsmallmedium8.074.877.3642.30298.18261.1825autumnsmallmedium8.069.055.35010.416233.70058.2226wintersmallhigh8.2513.165.7509.248430.00018.250PO4Chlaa1a2a3a4a5a6a71170.00050.00.00.00.00.034.28.30.02558.7501.31.47.64.81.96.70.02.13187.05715.63.353.61.90.00.00.09.74138.7001.43.141.018.90.01.40.01.4597.58010.59.22.97.50.07.54.11.0656.66728.415.114.61.40.022.512.62.9函数head()将显示数据框的前6行。数据框的每一行代表一个观测值。1.5数据可视化和摘要鉴于开始我们对该领域一无所知,首先我们要了解一些数据的统计特性,为后面的数据处理与建模提供更多的信息。获取数据统计特性的一个方法是获取数据的描述性统计摘要。summary(algae)seasonsizespeedmxPHautumn:40large:45high:84Min.:5.600spring:53medium:84low:331stQu.:7.700summer:45small:71medium:83Median:8.060winter:62Mean:8.0123rdQu.:8.400Max.:9.700NA's:1mnO2ClNO3Min.:1.500Min.:0.222Min.:0.0501stQu.:7.7251stQu.:10.9811stQu.:1.296Median:9.800Median:32.730Median:2.675Mean:9.118Mean:43.636Mean:3.2823rdQu.:10.8003rdQu.:57.8243rdQu.:4.446Max.:13.400Max.:391.500Max.:45.650NA's:2NA's:10NA's:2NH4oPO4PO4Min.:5.00Min.:1.00Min.:1.001stQu.:38.331stQu.:15.701stQu.:41.38Median:103.17Median:40.15Median:103.29Mean:501.30Mean:73.59Mean:137.883rdQu.:226.953rdQu.:99.333rdQu.:213.75Max.:24064.00Max.:564.60Max.:771.60NA's:2NA's:2NA's:2Chlaa1a2Min.:0.200Min.:0.00Min.:0.0001stQu.:2.0001stQu.:1.501stQu.:0.000Median:5.475Median:6.95Median:3.000Mean:13.971Mean:16.92Mean:7.4583rdQu.:18.3083rdQu.:24.803rdQu.:11.375Max.:110.456Max.:89.80Max.:72.600NA's:12a3a4a5Min.:0.000Min.:0.000Min.:0.0001stQu.:0.0001stQu.:0.0001stQu.:0.000Median:1.550Median:0.000Median:1.900Mean:4.309Mean:1.992Mean:5.0643rdQu.:4.9253rdQu.:2.4003rdQu.:7.500Max.:42.800Max.:44.600Max.:44.400a6a7Min.:0.000Min.:0.0001stQu.:0.0001stQu.:0.000Median:0.000Median:1.000Mean:5.964Mean:2.4953rdQu.:6.9253rdQu.:2.400Max.:77.600Max.:31.600这个简单函数立即给出了数据的的统计特征概括,对于名义变量,他给出了每个取值的变量的频数。例如,从结果中可知冬季采集的水样比其他季节更多,河流size为最大的有45个,河流的流速low比较少。对于数值型变量,R为我们提供了四分之一位数,中位数,均值,四分之三位数,极值等一系列信息。这些统计信息提供了变量值分布的初步信息,在变量有缺失值的情况下,字符串NA后面的数值即为缺失值的个数,通过中位数,均值,四分位数的信息,我们可以了解数据分布的偏度和分散情况。且这些信息大多数都可以通过图形来表达出来。我们看一个例子。hist(algae$mxPH,probability=T)上面程序绘制变量mxPH的直方图。如下图,变量mxPH的分布非常接近正态分布,它的值大多数都集中在变量的均值附近,我们做Q-Q来检验该变量是否是正态分布,加载包car,使用里面的qq.plot()绘制Q-Q图library(car)par(mfrow=c(1,2))hist(algae$mxPH,prob=T,xlab=,ylim=0:1,main=HistogramofmaximumpHvalue)lines(density(algae$mxPH,na.rm=T))rug(jitter(algae$mxPH))qq.plot(algae$mxPH,main=NormalQQplotofmaximumpH)上图的左边是添加核密度曲线的直方图,而在X轴附近绘制变量的实际值,从而容易辨别离群点,例如我们可以发现有两个字显著低于其它所有值。这种数据检查是很重要的,因为它能确定数据样本中可能出现的错误。右边的Q-Q图,他绘制了变量值与正态分布的理论分位数的散点图,同时他给出正态分布的95%的置信区间的带状图,从右上图知,变量有几个小的值明显在95%置信区间之外,它们不服从正态分布。下面给出另一个数据检验的例子,用它来检验变量OP04:boxplot(algae$oPO4,ylab=Orthophosphate)rug(jitter(algae$oPO4),side=2)abline(h=mean(algae$oPO4,na.rm=T),lty=2)箱图上方小横线上面的小圆圈表示与其他值比较特别大的值,通常认为是离群值,这意味着箱线图给出大量的信息,它不仅给出变量的中心趋势,也给出了变量的发散情况和离群值。上图中与X轴平行的直线,是变量的均值所在的位置,将均值线与中位数线进行比较,就可以知道变量的多个离群值使得作为变量中心的均值产生了扭曲。变量oPO4的分布集中在较小的观测值范围,因此分布为正偏。大多数水样的oPO4值都比较低,也有几个水样的观测值较高,甚至特别高。有时,当有离群值时,需要确定哪些有离群值的观测,可以使用图形法,例如绘制NH4的值,将会注意到一个特别大的值,我们可以使用一下方法识别特大值相应的水样:plot(algae$NH4,xlab=)abline(h=mean(algae$NH4,na.rm=T),lty=1)abline(h=mean(algae$NH4,na.rm=T)+sd(algae$NH4,na.rm=T),lty=2)abline(h=median(algae$NH4,na.rm=T),lty=3)identify(algae$NH4)上面函数第一条绘制变量的所有值,调用函数abline绘制三条有用的直线,第一条为均值,第二条为均值加一个标准差,第三条为中位数,对于离群值的识别尽管这三条不是必须的,但它们能提供有用的信息。从上图中知道,水样153的NH4值是一个极大异常值,20,34,35,88,89,153等水样中NH4值都异常高,可以把这些水样选择出来,看看他们与别的水样中海藻有什么种类有什么差异。下面给出几种其他类型的数据检验的例子,这些例子应用R的添加包lattice,做Trellis图形。假设需要研究海藻变量a1的值得分布,然而,这里需要分布如何依赖于其他变量,就需要新的变量,新的工具。条件绘图是依赖于某个特定因子的图形表示,因子是一个为一个取值为有限集合的名义变量。例如,对于size的不同取值,可以绘制变量a1的一组箱图。每个箱图是对应于变量size的某个特定值的水样子集。通过这些箱线图可以研究名义变量size如何影响变量a1值得分布。bwplot(size~a1,data=algae,ylab=RiverSize,xlab=AlgalA1)从图知,在规模较小的河流中,海藻a1的频率越高。这种箱图的另外一个类型是分为箱图,它可以给出绘制变量的更多信息,R添加包Hmisc可以绘制分位箱图,下面绘制上面例子中a1变量的条件分位箱图:library(Hmisc)bwplot(size~a1,data=algae,panel=panel.bpplot,probs=se

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功