R语言基础培训第二讲常用统计分析

幻风雪舞
0 ℃
2018-08-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于R的基本统计分析内容提要•描述统计•频数表分析•方差分析•t检验•卡方检验•线性回归•相关分析描述分析(Descriptivestatistics)描述统计就是把数据集所包含的信息加以简要地概况，如计算数据的数字特征、制作频数表和频数图等等，用所获得的统计量和图表来描述数据集所反映的特征和规律，使得研究的问题更加简单、直观。描述性统计主要包括反映数据集中趋势的特征值(比如平均数、中位数、众数、分位数)、数据离散程度的特征值(比如方差、标准差、值域、变异系数)和数据分布形态的特征值(比如偏度、峰度)。标准差（std.dev）和标准误（SE.mean）标准差（std.dev）真实均值SE样本均值当样本含量n足够大时，标准差趋向稳定；而标准误随n的增大而减小，甚至趋于0。标准差（std.dev）和标准误（SE.mean）比如，某学校共有500名学生，现在要通过抽取样本量为30的一个样本，来推断学生的身高。这时可以依据抽取的样本信息，计算出样本的均值与标准差。如果我们抽取的不是一个样本，而是10个样本，每个样本30人，那么每个样本都可以计算出均值，这样就会有10个均值。也就是形成了一个10个数字的数列，然后计算这10个数字的标准差，此时的标准差就是标准误。但是，在实际抽样中我们不可能抽取10个样本。所以，标准误就由样本标准差除以样本量来表示。当然，这样的结论也不是随心所欲，而是经过了统计学家的严密证明的。SE.mean=std.dev/n1/2在实际的应用中，标准差主要有两点作用，一是统计量样本离散程度的表征；二是用来对样本进行标准化处理，即样本观察值减去样本均值，然后除以标准差，这样就变成了标准正态分布。标准误的作用主要是用来做区间估计，常用的估计区间是均值加减n倍的标准误（例如95%的置信区间是：均值+1.96*SE）标准差（std.dev）和标准误（SE.mean）95%CI:假设上面这个随机抽样估计学生身高的例子，抽样100次，每次抽10个学生测量身高，均值估计值及标准误为152cm±12cm。但有时需要表示为估计量的95%的置信区间[152cm-1.96*12cm，152cm+1.96*12cm]。可以解释为，如果从再从总体中抽样100次（每次抽样10个），产生100个平均值，这100个平均值将有95次落在[152cm-1.96*12cm，152cm+1.96*12cm]这个范围内，5次落在这个范围外，如果抽样次数越多，这个推断越准确。这个来源于中心极限定理的应用：任何分布(总体)抽样n次，每次抽样的和符合正态分布。通俗一点说,不管是学校的学生身高是怎么分布,每次随机抽取10个求和,抽取n次，这n个身高总和是符合正态分布的。平均身高为身高总和除于10，所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。HistogramofobserveddatayieldDensity4060801001201401601800.0000.0050.0100.015峰度（Kurtosis）峰度（Kurtosis）是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。•Kurtosis=0与正态分布的陡缓程度相同。•Kurtosis0比正态分布的高峰更加陡峭——尖顶•Kurtosis0比正态分布的高峰来得平台——平顶计算公式：偏度（Skewness）偏度（Skewness）是描述某变量分布偏离正态对称性的统计量。•Skewness=0分布形态与正态分布偏度相同•Skewness0正偏差数值较大，为正偏或右偏。长尾巴拖在右边•Skewness0负偏差数值较大，为负偏或左偏。长尾巴拖在左边计算公式：Skewness越大，分布形态偏移程度越大频数表(Frequencytable)分析频数表分析是对数据集按数据范围分成若干区间，即分成若干组，求出每组组中值，各组数据用组中值代替，计算各组数据的频数，并作出频数表。频数表分析例子summary(oats$yield)#计算频数A-table(cut(oats$yield,breaks=40+20*(0:7)))round(prop.table(A)*100,2)#计算频数比例#画频数表hist(oats$yield,#breaks=7,xlim=c(40,180),xlab=yield,main=Frequencychartofyield)方差分析ANOVA方差分析是一种在若干组能相互比较的试验数据中，把产生变异的原因加以区分的方法与技术，其主要用途是研究外界因素或试验条件的改变对试验结果影响是否显著。类型：单因素方差分析(One-wayANOVA)、双因素方差分析(Two-wayANOVA)。方差分析的基本模型是线性模型，并假设随机变量是独立、正态和等方差的。方差分析是根据平方和的加和原理，利用F检验，进而判断试验因素对试验结果的影响是否显著。单因素方差分析##TukeyHSD方法##install.packages(multcomp)library(multcomp)tuk-glht(fit,linfct=mcp(Treat=Tukey))summary(tuk)#standarddisplaytuk.cld-cld(tuk)#letter-baseddisplayopar-par(mai=c(1,1,1.5,1))plot(tuk.cld)par(opar)双因素（无重复）方差分析多重比较library(agricolae)#对A因素在a=0.05水平上进行多重比较(duncan.test(fit,A,alpha=0.05))#对B因素进行多重比较(duncan.test(fit,B,alpha=0.05))重复试验的双因素方差分析协方差分析(analysisofcovariance)协方差分析是关于如何调节协变量对因变量的影响效应，从而更加有效地分析实验处理效应的一种统计技术，也是对实验进行统计控制的一种综合方差分析和回归分析的方法。当研究者知道有些协变量会影响因变量，却不能够控制和不感兴趣时，则可以在实验处理前予以观测，然后在统计时运用协方差分析来处理。将协变量对因变量的影响从自变量中分离出去，可以进一步提高实验精确度和统计检验灵敏度。例如林木生长量与肥料的关系，施肥条件可以人工控制，但林木初始苗高(协变量)是难以控制的，通过协方差分析，消除初始苗高的影响，使得生长量在一致的基础上进行方差分析。单因素协方差分析双因素协方差分析【例子4.4.2】为研究某杨树一年生生长与N肥、K肥及初始苗高的关系，采用正交试验设计，共设置了18个样地的栽培试验，试验因子与水平及测量结果如表4-13所示。试分析N肥、K肥及初始苗高对生长量的影响。t检验在实际工作中，经常需要判断两个样本平均数是否差异，以了解两样本所属的两个总体平均数是否相同。检验方法可以使用t检验。对于两个样本平均数差异显著性检验，可分为非配对设计和配对设计。3.5.1单样本检验【例子4.5.1】杨树某无性系试验林造林5年后，调查树高生长量，随机抽取32棵树，调查结果如下表4-16所示。有一无性系B5的5年树龄树高μ=8m。试分析该试验林的树高与B5有无显著差异？25种类放牧不放牧Asclepiassyriaca0.0340.247Asterlaevis0.2440.096Asterlateriflorus0.0410.146Asternovae-angliae0.3100.365Astersimplex0.0620.088Dactylisglomerata0.0010.055Fragariavirginiana0.4410.385Hieraciumpratense0.5920.626Phleumpratense0.3870.911Picrishieracoides1.3691.510Plantagolanceolata0.2600.208Poacompressa0.6100.773Poapratensis0.0540.116Solidagoaltissima0.8431.967Solidagograminifolia0.2010.097Solidagojuncea0.2780.148Solidagorugosa0.1560.197Taraxacumofficinale0.1000.151N=1818个草地种在放牧和不放牧样方中的生物量（kg/m2）放牧对所研究草地物种生物量的影响是否显著？成对双样本t检验卡方检验(χ2test)卡方检验是参照卡方分配来计算概率和临界值的统计检验，是用途很广的一种假设检验方法。分析原理：(1)建立零假说（NullHypothesis），即认为观测值与理论值的差异是由于随机误差所致；(2)确定数据间的实际差异，即求出χ2值；(3)如卡方值大于某特定概率标准（即显著性差异）下的理论值，则拒绝零假说，即实测值与理论值的差异在该显著性水平下是显著的。卡方检验27freq=c(22,21,22,27,22,36)probs=c(1,1,1,1,1,1)/6chisq.test(freq,p=probs)chisq.test(freq,p=probs)Chi-squaredtestforgivenprobabilitiesdata:freqX-squared=6.7,df=5,p-value=0.2423卡方检验28x=c(100,110,80,55,14)probs=c(29,21,17,17,16)/100chisq.test(x,p=probs)chisq.test(x,p=probs)Chi-squaredtestforgivenprobabilitiesdata:xX-squared=55,df=4,p-value=2.685e-11卡方检验（列联表）29yesbelt=c(12813,647,359,42)nobelt=c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt))chisq.test(data.frame(yesbelt,nobelt))Pearson'sChi-squaredtestdata:data.frame(yesbelt,nobelt)X-squared=59,df=3,p-value=8.61e-13练习四以数据stu.data.csv为例，•试对体重做频数分析。•请分析身高是否符合正态分布？•试分析性别对体重有无影响。•问题4：请检验总体平均体重与60kg有无显著差异？男生和女生的平均体重有无显著差异？•问题5：男女生比例是否符合1.2:1.0？练习四答案df-read.csv(file=stu.data.csv,header=T)#问题1A-table(cut(df$weight,breaks=40+15*(0:7)))round(prop.table(A)*100,2)#计算频数比例hist(df$weight,breaks=7,xlim=c(40,140),xlab=weight,main=Frequencychartofweight)#问题2shapiro.test(df$height)#问题3fit-aov(weight~Sex,data=df)summary(fit)library(agricolae)duncan.test(fit,Sex,alpha=0.05)$groups#问题4t.test(df$weight,mu=60,alternative=two.sided)wt.m-subset(df$weight,df$Sex==‘男')wt.f-subset(df$weight,df$Sex==‘女')var.test(wt.m,wt.f)#等方差检验t.test(wt.m,wt.f,paired=F)#问题5summary(df$Sex)ct-c(87,33)pt-c(1.2/2.2,1.0/2.2)chi