24.均值的T检验(一)t分布若样本均数X服从正态分布2(,)XN,经过U变换XX,可以变成标准正态分布N(0,12),也成为U分布.实际工作中,由于总体标准差X未知,用样本标准差XS代替,则XXS不再服从标准正态分布,而是服从t分布:,1/XXXtnSSn其中,S为样本方差,n为样本含量,v为自由度。t分布只有一个参数——自由度v.v→∞时,t分布无限接近标准正态分布。t分布的图形说明:单侧概率(单侧尾部面积)用,t表示;双侧概率(双侧尾部面积)用/2,t表示;例如,t0.05,10=1.812,则P(t≤-1.812)=P(t≥1.812)=0.05t0.05/2,10=2.228,则P(t≤-2.228)+P(t≥2.228)=0.05(二)t检验t检验,是一种针对连续变量的参数假设检验,用来检验“单样本均值与已知均值(单样本t检验)、两独立样本均值(独立样本t检验)、配对设计资料的均值(配对样本t检验)”是否存在差异,这种差异是否能推论至总体。T检验适用于样本含量较小(比如n60,大样本数据可以用U检验),适用条件:①数据服从正态分布;②满足方差齐性(方差相等);注:若数据不满足①,②,可以尝试对数据做变量变换:对数变换、平方根变换、倒数变换、平方根反正弦变换等。方差齐性检验要求两样本数据的总体均服从正态分布,统计量F为为较大的方差与较小的方差的比值:21112222,1,1SFnnS原假设H0:两总体方差相等;H1:两总体方差不相等。使用car包中的函数leveneTest()实现,基本格式为:leveneTest(y,group,center=,...)leveneTest(formula,data,subset,...)其中,y为样本数据;group为因子型的分组变量;center指定计算每组的中心的方法,默认是中位数median,也可以用均值meanformula设置公式格式:formula=定量变量~分组变量示例:setwd(E:/办公资料/R语言/R语言学习系列/codes)load(chengji.Rdata)head(chengji,3)classsexMathEnglishRank111606642114258531178953library(car)leveneTest(Math~as.factor(class),data=chengji)Levene'sTestforHomogeneityofVariance(center=median)DfFvaluePr(F)group10.02840.866948说明:P值=0.86690.05,接受原假设,即方差齐。注:leveneTest是先对数据做一定变换再进行组间齐性检验,也是一般统计分析软件做方差齐次检验的方法。另外,R语言自带的方差齐性检验函数var.test()和bartlett.test()是对原始数据的方差进行检验(只适合正态或对称数据),所以P值结果会有差异。它们的基本格式是一致的:var.test(x,y,alternative=c(two.sided,less,greater),conf.level=0.95,...)var.test(formula=,data,subset,...)其中,x,y为数值向量;示例:bartlett.test(Math~as.factor(class),data=chengji)Bartletttestofhomogeneityofvariancesdata:Mathbyas.factor(class)Bartlett'sK-squared=0.063063,df=1,p-value=0.8017(三)R语言实现用函数t.test()实现,基本格式为:t.test(x,y=NULL,alternative=,mu=0,paired=FALSE,var.equal=FALSE,conf.level=0.95,...)其中,x,y为要检验的样本数据,若只有x则进行单样本t检验;alternative指定备择假设,默认two.sided双侧检验(t≠t0),less左侧检验(t≤t0),greater右侧检验(t≥t0);mu指定要检验的均值;paired指定是否做配对t检验,默认FALSE;var.equal指定两组样本是否方差齐;conf.level为置信区间的置信水平;或者使用公式格式:t.test(formula,data,subset,na.action,...)其中,formula指定公式的形式:var~factor,左侧是数值变量,右侧是二分组的因子变量。一、单样本的t检验要求数据满足正态性。问题1:检验“数学成绩”的平均值是否≥78分。setwd(E:/办公资料/R语言/R语言学习系列/codes)load(chengji.Rdata)#两个班50个人的数学英语成绩等head(chengji)classsexMathEnglishRank111606642114258531178953412657445126884461157585shapiro.test(chengji$Math)#正态性检验Shapiro-Wilknormalitytestdata:chengji$MathW=1,p-value=0.3t.test(chengji$Math,mu=78,alternative=greater)OneSamplet-testdata:chengji$Matht=-1,df=50,p-value=0.9alternativehypothesis:truemeanisgreaterthan7895percentconfidenceinterval:72.5Infsampleestimates:meanofx75.8说明:正态性检验p值=0.30.05,接受原假设,即服从正态分布。单样本t检验,备择假设μ≥78(H0:μ78),p值=0.90.05,接受原假设,即数学成绩平均分78分。二、独立样本T检验要求数据满足:独立性、正态性、方差齐性。问题2:检验1班和2班的数学成绩是否存在差异。两个不同班的数学成绩可以认为是相互独立的,由前文知两个班的数学成绩满足方差齐性。t.test(Math~class,data=chengji,var.equal=TRUE)TwoSamplet-testdata:Mathbyclasst=-1.732,df=48,p-value=0.0897alternativehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:-14.496081.07941sampleestimates:meaningroup1meaningroup272.2916779.00000说明:甲班的数学平均分=72.29,乙班的数学平均分=79;两独立样本t检验,H0:μ1=μ2;p值=0.08970.05,故接受原假设,即认为两个班的数学平均分在统计学意义上没有差异。三、配对样本T检验配对设计实验的数据:①同一受试对象处理前后的数据;②同一受试对象两个部位的数据;③同一样品用两种方法/仪器检验的结果;④配对的两个受试对象分布接受进行两种处理后的数据。配对数据之间有一定的相关性,配对样本T检验就考虑到了这种相关性,其基本原理是为每对数据求差值,若无差异则差值的总体均值为0.问题3:用某药治疗10名高血压病人,对每一病人治疗前、后的舒张压(mmHg)进行了测量,数据见代码,问该药有无降压作用?datas-data.frame(id=1:10,before=c(120,127,141,107,110,114,115,138,127,122),after=c(123,108,120,107,100,98,102,152,104,107))datasidbeforeafter111201232212710833141120441071075511010066114987711510288138152991271041010122107t.test(datas$before,datas$after,paired=TRUE)Pairedt-testdata:datas$beforeanddatas$aftert=2.6455,df=9,p-value=0.02667alternativehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:1.448918.5511sampleestimates:meanofthedifferences10说明:治疗前后血压均值之差=10;配对T检验是针对“差值”的均值,H0:均值差μd=0;p值=0.026670.05,故拒绝原假设H0,即该药物有作用。