生物数据统计分析方法主讲人:高会江单位:东北农业大学动物科技学院主要内容绪论统计量、统计分布与统计比较回归与最小二乘分析分类数据的统计分析比较试验设计与分析回归试验设计与分析动态试验指标的统计推断综合试验指标的统计推断Bayes统计学统计学界•在美国,现有86个统计学、生物统计学和生物计量学的博士点•很大一部分统计学家工作于统计系之外----生物统计系、医学院、商学院、社会科学系----政府机构、工业界(尤其是制药厂)统计学的现状•数据收集----高速计算机和传感器以及某些实验科学可产生巨量数据(例如人类基因组)----需要新工具来组织和提取重要信息。(NationalScienceFoundation(1998)report98-95)数据和信息的区别:将数据转化为信息需要统计理论和实践方面的洞察力、技术和训练。(Zelen)统计学的现状•科研合作的机会增多----应用、多学科课题中统计学的错用严重----由于大量数据的产生,人们主张统计人员进入研究团队(NationalScienceFoundation(1998)report98-95)统计学的现状•科学引用指数(ScienceCitationIndex):1991-2001年其间25位引用最多的数学科学家中18位是统计学或生物统计学家;JournaloftheAmericanStatisticalAssociation是被引用最多的数学科学杂志;统计学的核心•统计学与数学的其它分支不同,总是和应用、结果的重要性联系在一起。(NationalScienceFoundation(1998)report98-95)•统计学的核心是学科内在的东西,而不是特定科学问题对统计学的要求。•统计学核心方面的研究着重基于该学科普遍原理发展统计模型、方法和相关理论。生命科学中的统计学上半个世纪的里程碑:--生物统计学--统计流行病学--随机化临床试验与未来统计学有关的生命科学的四个领域--生物分子序列分析和功能基因组学--遗传流行病学--进化、群体遗传学和生态学--计算神经科学生物统计与生物信息•分子生物学已进化到信息科学,出现了新学科ComputationalBiology,或Bioinformatics.--发现和实施算法,以了解生物学过程--主要工具:计算、统计和“machinelearning”技术--分析方法主要是特定的,尚处初级阶段•这是统计科学家用武之地,尤其,micro-array技术已经创造了新颖的统计学问题,激发了许多新的生物统计学研究。--若干生物统计系已经改名为BiostatisticsandBioinformatics.未来有用的统计和计算方法•随机过程有限Markov链,点过程,Gaussian随机场•隐Markov模型和Markov链MonteCarlo–重要算法•传统方法的改进--多重比较(微阵列)--主成分(主成分曲线)--似然分析(随机过程的似然分析)--实验设计•“User-friendly”算法•与生命科学家的交流什么是生物统计学•统计学Statistics–研究数据的收集、整理、分析和解释的科学•生物统计学Biostatistics,Biometry,Biometrics–统计学应用于生物科学为什么要学习生物统计学•必需利用统计学才能回答的问题–吸烟与肺癌是否有关?–两种饲料配方哪种更好?–新药物是否更有效?–哪些因素对猪的增重速度有显著影响?–可否通过背膘厚估计瘦肉率?–遗传与环境哪个更重要?–如何选择遗传上最优良的种畜?–Whatstatisticscanandcan’tdo•provideobjectivecriteriaforevaluatinghypotheses•helpoptimizeeffort•helpyoucriticallyevaluatearguments•tellthetruth(probabilisticconclusionsonly!)•compensateforpoordesign•indicatebiologicalsignificance:statisticalsignificancedoesnotmeanbiologicalsignificance,norviceversa!CanCan’t统计分析的一般过程总体随机变量-参数:N,,2,随机样本获取数据资料,x1,x2,数据整理分析数据参数估计,假设检验对总体作出推断计算基本统计量;作表,作图选题建立假说查阅文献试验设计预试验,观测及记录撰写论文及发表科研结论与讨论资料整理及统计分析试验研究的基本步骤绪论•生物统计的基本思想:由样本推断总体,即由样本的统计量推断总体的参数。显著性检验,也称假设检验,是指通过样本信息判定有关总体特征(总体分布、参数、相关性等)每一个论断的过程。根据所研究的总体分布是否已知,又将显著性检验分成参数显著性检验与非参数显著性检验两种。本部分统计比较所依赖的理论基础乃为参数显著性检验,即在研究对象总体分布已知的条件下,利用样本信息对总体参数差异的显著性检验。绪论•生物试验研究对象的特点:个体间的相关性试验指标的动态性试验指标的综合性现行数理统计和生物统计理论方法的局限性需要从动物试验特点出发构建适宜动物试验研究的统计分析理论•变异性:遗传+变异•不确定性:随机性•复杂性:多种多样研究对象绪论•统计量、统计分布与统计比较不论是为了参数估计还统计检验都离不开统计量,统计量是样本的函数,不含有任何有关总体的未知参数。用于参数估计的统计量属于描述性统计范畴,用于统计检验的统计量属于推断性统计范畴,生物统计更多涉及的是推断统计,要么统计比较,要么关系分析等等,因此这一部分将着重介绍适用于统计推断的统计量,如:U统计量、t统计量、F统计量和χ2统计量,包括它们的构造方法,相应的统计分布如:正态分布、t分布、F分布和χ2分布,以及这些统计量和分布在统计比较中的应用。绪论回归与最小二乘分析回归分析是研究变量之间因果关系的,通过回归分析建立起原因与结果之间的函数关系,以实现预测的目的。回归分析分线性和非线性回归分析两类,按因变量多少又分一元和多元回归分析,需要说明的是着一部分所介绍的回归分析是指包含一个因变量的一元回归分析,包括线性和非线性回归分析两类。作为回归分析的重要组成部分——线性回归模型理论几乎可以用来解释现行生物统计中的每个统计推断方法,也是统计比较方法的理论基础,绪论•试验设计试验设计是生物统计的重要组成部分。试验因素按水平的特点主要分定性和定量因素两种,过去对两种因素的统计分析方法是不加区分的,为了比较因素水平间的差异都采用一样的统计比较方法,事实上就定量因素而言,人们除了要分析参试水平的效果而且对未参试水平亦感兴趣,希望得到所谓“最佳”或“最适”效果的水平,对此常规的统计比较方法就显得很局限.绪论为此人们引用回归分析的方法来解决这种问题,理论上可以证明,用回归分析方法和统计比较方法处理定量因素水平效果的比较问题,两者结论不尽相同,模拟实验表明以回归分析更可靠,另外,回归分析还具有预测功能。鉴于此我们把试验设计按定性和定量因素以及所对应的统计分析目的不同分比较设计和回归设计两类。绪论•比较试验设计与分析这是现行生物统计教科书着重介绍的内容,该设计思想起源于农田试验,为了方便比较,减少试验投入,在此基础上人们发明了大量的设计方案。在这部分我们将按照试验因素的多少划分章节,如单因素试验设计和多因素试验设计及分析方法:在单因素试验设计中介绍区组、拉丁方和交错设计及分析方法等;在多因素试验设计中介绍两因素完全交叉、系统分组、裂区设计和正交设计及分析方法等。绪论回归试验设计方法很多,都是为了减少试验点,方便回归方程的建立和降低试验误差等,虽然这些设计的原理有的涉及到比较深奥的数学理论,实际应用者很难弄清,但面对一张张试验方案却显得相对简明直观,因此,在这部分介绍常用的一次正交设计、二次正交旋转组合设计、饱和设计和均匀设计过程中,尽量减少理论推导内容,突出设计方法和分析方法的实用性内容。绪论•相关样本的统计推断为保证样本能够代表总体,数理统计理论要求构成样本的每个随机变数间彼此应相互独立且都服从与总体相同的分布,并称该样本为简单样本。简单样本的统计推断如检验、t检验和F检验等不仅理论上相当成熟,而且已被广泛应用。然而在动物科研实践中,受集约化饲养和闭锁繁育的影响,试验动物个体间通常都存在着一定的亲缘关系,如果试验指标或性状具有遗传能力,那么试验样本的各随机变数间必然存在着相关。绪论•动态试验指标的统计推断记录的指标,多数是随时间变化的动态指标,如产蛋量,产奶量和日增重等。为了探讨这些指标的变化规律,研究者经常选取动态过程中的一些特定点作为研究手段,当试验的目的是比较不同处理的作用效果时,却往往因为统计方法选择的不够恰当而不能完全有效地利用试验资料,譬如人们惯用的以时间为区组的单因素方差分析法,只能获得有限观测时间内不同处理中生产力的平均值是否显著差异的结论,鉴于生产力的平均值必然落在有限的观测时间内——相当于一个生长点,用很多的生长点资料来推断一个点的规律显然得不偿失,况且生产力的平均值相对比较不同饲养管理条件的作用效果而言并非很重要。绪论其实,从生产角度考虑,动态指标变化规律与最终表现才是最有意义的。关于动态饲养指标变化规律的统计比较问题,我们曾建议引用多元统计方法,但该法在实用上与整个饲养过程设置的观测点数目多少有关,若设置的数目过多,会使统计过程变得复杂,而且也难以说清增加或减少观测点对统计结论有否影响。综上所述,要有效而准确地实现对不同饲养管理条件动态饲养指标差异的统计比较,必须从试验设计开始,就应视试验的目的而定,不同的实验目的对应着不同的统计方法。本部分将由此展开讨论。绪论•综合试验指标的统计推断在动物科学试验中,为比较不同水平或处理效果间的差异,所选用的试验指标往往不只一个,用多个指标来衡量试验效果的优劣,体现了动物试验指标综合性的基本特征。面对动物试验指标的综合性特征,常用一元方差分析法;每个指标在不同水平或处理的表现可能不完全一致,各指标间可能存在的相关而最终得不到正确的统计结论.本部分将结合多元方差分析、T检验与一元协方差分析方法系统地介绍了动物试验多指标差异的统计推断问题。统计软件•SAS•SPSS•BMDP•SYSTAT•Minitab•Statistica•Stata•JMPSAS•美国SAS软件研究所(SASInstituteInc.)创建于1976年。()•26年后,现已成为成为全球最大的十家独立软件厂商之一。•今天,SAS系统被成功应用于120多个国家和地区的31,000多个机构中,直接用户超过3,500,000人。•美国《财富》杂志评选的100家最大公司中的98家都在应用SAS软件。SAS软件研究所R&D•SAS软件研究所每年的研究开发投入占上年度收入的30%以上,这个比例在全球十大独立软件厂商中居于首位。•研发领域的高投入,使得SAS软件研究所每年连续保持两位数的收入增长。•并确立了SAS系统在数据仓库(DataWarehouse)、联机分析处理系统(OLAP)和数据挖掘(DataMining)等领域占居全球第一的位置SAS来到中国•1997年,SAS软件研究所正式宣布成立大中国区;•1999年3月,又在大陆设立了独资公司--SAS软件(上海)有限公司。•相继北京、广州都有办事处。•2001年12月SAS国际部总裁ArtCooke先生来华表示在五年之内把中国建成SAS最重要的全球五大市场之一。SAS软件的版本•1976-1985Unix平台•1985PC(DOS):SAS/PC6.02•1989PC(DOS):SAS/PC6.04•1997多操作系统:SAS6.12forwin•2000多操作系统:SAS8.0forWin•2003多操作系统:SAS9.0forWin•现在多操作系统:SAS10.0forWinSPSS•SPSS(S