课程安排1.回归模型与相关分析2.方差分析3.属性数据分析4.生存数据分析5.实验设计6.全基因组关联分析第1,2,3,5次1.ExperimentalDesignandDataAnalysisforBiologistsGerryP.QuinnandMichaelJ.KeoughCambridgeUniversityPress,Cambridge,2019.2.BiostatisticalDesignandAnalysisUsingR:APracticalGuideMurrayLoganWiley-Blackwell,Chichester,WestSussex,2019.第4次3.SurvivalAnalysis:ASelf-LearningText,2ndeditionDavidG.KleinbaumandMitchelKlein,Springer,2019第6次4.ABELtutorialYuriiAulchenko,2019参考书回归分析和相关分析生物统计学研究所张洪1.线性回归1.1回归直线1.2参数估计方法:最小二乘估计1.3参数推断:F-检验、t-检验、区间估计1.4回归模型的诊断:残差分析1.5多重线性回归1.6Box-Cox变换2.相关分析2.1Pearson相关系数2.2相关系数的统计推断:z-检验、区间估计2.3偏相关系数2.4秩相关与多重相关3实例分析与函数关系的区别:同一身高可以体重不同,体重随身高增加的关系不是严格成立,只是有这种趋势总的趋势:随着身高增加,体重也跟着增加为什么?因为身高只能解释体重的一部分原因,还有其他未被考虑的因素,如饮食、地域、人种等1.线性回归目标:建立一个连续型因变量X(身高)与自变量Y(体重)之间的关系eXY因变量自变量随机误差:未被身高解释的部分:饮食、种族、地域…截距斜率:(1)0正相关(2)0负相关(3)=0不相关X每增加一个单位,Y增加个单位xxXYE]|[均值为0:最简单的关系---线性关系:自变量和因变量的选择:由实际问题本身决定。问题:如何估计参数?X能解释Y的比例是多少?假设检验问题:线性模型是否适用?如果模型不适用,如何修正?1.1回归直线量化X与Y的关系对于新的个体,如果知道与,可用X来预测Y。xy?01.2参数估计方法:最小二乘估计(LeastSquares估计)观测值与预测值(蓝线)的误差观测值与预测值(黑线)的误差总体上看,蓝线比黑线拟合效果要好(从拟合误差看)两条回归直线.,...,1),,(niyxii)(iiixye)ˆ,ˆ(min!12niie观测值:残差:)ˆ,ˆ(min!||1niiefit=lm(weight~height,data=dat);print(fit);Call:lm(formula=weight~height,data=dat)Coefficients:(Intercept)height-88.67740.8902(1)最小二乘估计dat是一个dataframe,有两个变量:height和weightR中线性模型拟合(2)最小一乘估计估计方法R代码输出的结果print(fit$coef);Coefficients:(Intercept)x-88.67740.8902几个有用的函数:summary、names1.3参数推断预测值:iixyˆˆˆ)ˆ()ˆ(yyyyyyiiiiniiiniiniiyyyyyy121212)ˆ()ˆ()(总平方和SStot自由度=n-1回归平方和SSreg自由度=1残差平方和SSerr自由度=n-2回归平方和占总平方和的比重越大,则X能解释Y的部分越大!回归方程越好!toterrtotregSSSSSSSSR12summary(fit)$r.squared[1]0.693347niiyny11方差分解度量方法F检验)2/(1/nSSSSFerrreg适用条件:误差e1,…,en独立同分布,服从正态分布。anova(fit)AnalysisofVarianceTableResponse:yDfSumSqMeanSqFvaluePr(F)x1523.71523.7129.3930.0001168***Residuals13231.6317.82---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.自由度平方和平均平方FP-值如果误差独立同分布服从正态分布,则零假设成立时,F服从自由度为1和n-2的F分布方差分析表回归部分残差部分0:0HF统计量t检验:回归系数的显著性检验零假设:回归系数等于0summary(fit)$coefEstimateStd.ErrortvaluePr(|t|)(Intercept)-88.677425928.3051787-3.1329050.0079283231x0.89015530.16418845.4215480.0001167570参数估计标准差T统计量p-值)ˆ(ˆseT零假设成立且误差独立同分布且服从正态分布时,T服从自由度为n-2的t分布tn-2适用条件:误差e独立同分布服从正态分布样本量不太小时,误差分布偏离正态分布不是很大时仍适用,即对正态性假设不是很敏感当样本量大时总是适用的,因为此时T依分布收敛于标准正态分布与tn-2接近(不管正态假设成立与否)。区间估计))ˆ(ˆ),ˆ(ˆ(2/1,22/1,2setsetnnconfint(fit)2.5%97.5%(Intercept)-149.8270467-27.527805x0.53544791.244863置信系数的双侧置信区间,常取为0.051结论:的95%置信区间是(0.5354479,1.244863)落在(0.5354479,1.244863)的概率是95%?错!样本的两重性:抽样前是随机的,抽样后是非随机的。1.4回归模型的诊断:残差分析误差项独立同分布且服从正态分布吗?有没有需要剔除的强影响点?par(mfrow=c(2,2));plot(fit);满足下述条件则回归模型适用:残差没有明显的趋势残差的QQ图表明正态性成立Cook距离1且leverage2p/n=2/15强影响点强影响点:对回归方程有较大影响的点如位于散点图的两端且对于斜率的影响大,则应被剔出;位于中上、中下的点对截距影响大,但对斜率影响小,关系不大。有强影响点后的回归直线没有强影响点的回归直线1.残差散点图2.残差Q-Q图3.位置(拟合值)-尺度图4.Cook距离与杠杆图Cook距离1或leverage2p/n为强影响点发现并剔除残差大的强影响点1)有些强影响点残差不大,不应被提出2)有些残差大的点不是强影响点,剔除与否关系不大dat1=rbind(dat,c(180,200));fit1=lm(weight~height,data=dat1);fit1.hat=lm.influence(fit1)$hat;influence1=cbind(dat1,lev=fit1.hat);print(influence1[fit1.hat2/n,]);杠杆(leverage),由“帽子矩阵”计算得到,其值越大对回归方程的影响力越大。heightweightlev1180680.10842272160510.249673011165570.135888012185760.203897514164580.1544598161902000.3516872第16个观测值杠杆很大稳健回归法:最小一乘估计(最小绝对偏差,LAD)黑线为LAD回归直线require(quantreg);fit1.lad=rq(weight~height,data=dat1);警告信息:Inrq.fit.br(x,y,tau=tau,...):Solutionmaybenonuniquelines(dat1$height,fit1.lad$coef[1]+fit1.lad$coef[2]*dat1$height,type='l',lwd=2,col='black');最小二乘估计最小一乘估计优点计算简单解唯一最有效(模型假设成立时)可给出方差分析表对模型假定稳健对奇异值不敏感缺点对正态性假定高要求方差一致性对于奇异值敏感计算复杂度较高解可能不唯一会损失一些效率目前的方差分析不成熟没有一个方法可以完全打败其他的方法,需要在实践中根据具体情况选择最合适的方法1.5多重线性回归多个自变量X1,…,XpeXXYpp11dat=data.frame(y,x1,x2,x3,x4);fit=lm(y~.^4,data=dat);fit.aic=step(fit);变量过多:降低估计的效率,可能使得那些真正对因变量有贡献的自变量的效应不显著,过度拟合也会降低预测的准确性(overfit).变量选择:将真正有对因变量有贡献的自变量选出来。准则1)AkaikeInformationCriterion(AIC)准则;2)BayesianInformationCriterion(BIC)准则;筛选方法:逐步法理论上可以选出任意阶交互效应,阶数小于等于自变量的个数。eXXXXXXXXYpppppp1,13113211211...自变量越多,拟合的残差越小1.6Box-Cox变换通过残差诊断发现残差不太正态时,可以考虑进行Box-Cox变换(powertransformation),使得因变量变换后进行回归分析的残差更正态,统计分析结果更可信。require(MASS);bc=boxcox(weight~.,data=dat,lambda=seq(-1,2,0.1));lambda=bc$x[which.max(bc$y)];#install.packages('TeachingDemos');require(TeachingDemos);weight.bc=bct(dat$weight,lambda);…用变换后的因变量代替原有因变量给出不同lambda值对应的似然值最大似然值对应的lambda0),log(0,1)(xxxzBox-Cox变换2.相关分析2.1Pearson相关系数2.2相关系数的统计推断2.3偏相关系数2.4秩相关、多重相关X与Y的Pearson相关系数的样本方差的样本方差的样本协方差与YXYXr不相关与负相关与正相关与YXYXYX,0,0,0Pearson相关系数与回归系数的关系的样本标准差的样本标准差的标准差的标准差YXrYXˆ2.1Pearson相关系数的方差的方差的协方差与YXYX样本Pearson相关系数度量两个变量的相关程度2.2相关系数的统计推断零假设:0检验统计量(Fisher变换):rrz11log21z渐近正态*,11log21Ncortest=cor.test(dat$height,dat$weight,conf.level=0.95,alternative=two.sided);print(cortest$estimate);#rcor0.8326746print(cortest$statistic);#zt5.421548alternative可选项:”two.sided”,“less”,“greater”print(cortest$p.value);#p-值[1]0.0001167570print(cortest$conf.int);#置信区间[1]0.55874230.9427914attr(,conf.level)[1]0.952.3偏相关系数控制分