1、生物统计学主要包括试验设计和统计分析2、统计学的发展经历了3个阶段:古典记录统计学,近代描述统计学和现代推断统计学3、生物统计学是数理统计在生物学研究中的应用,它是用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。4、英国统计学家R.A.Fisher于1923年发展了显著性检验及估计理论,提出来F分布和F检验,创立了方差和方差分析,在从事农业试验及数据分析研究时,他提出了随机区组法、拉丁方法和正交试验的方法5、常用的统计学术语有:总体与样本,参数与统计数,变量与资料,因素与水平,处理与重复,效应与互作,准确性与精确性,误差与错误6、总体按所含个体的数目可分为有限总体和无限总体,n小于30的样本称为小样本,n大于等于30的为大样本7、参数也称参量,是对一个总体特征的度量。统计数也称统计量,是由样本计算所得的数值。8、准确性反映测定值与真值符合程度的大小,而精确性则是反映多次测定值的变异程度9、生物统计学的基本作用:1)提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征2)判断试验结果的可靠性3)提供由样本推断总体的方法4)提供试验设计的一些重要原则10、试验资料具有集中性和离散性两种基本特征。平均数是反映集中性的特征数,主要包括算术平均数,中位数,众数,几何平均数等;反映离散性的特征数是变异数,主要包括极差,方差,标准差和变异系数11、资料可分为数量性状资料和质量性状资料12、数量性状资料分为计数资料(非连续变量资料)和计量资料(连续变量资料)13、资料的来源(资料的搜集方法)一般有两个,调查和试验14、常用的抽样方法有随机抽样,顺序抽样,典型抽样15、随机抽样的方法:简单随机抽样,分层随机抽样,整体抽样,双重抽样16、计量资料的整理步骤:1,计算全距2.确定组数和组距(样本容量30--60,分组数为5--8)3,确定组限和组中值4,分组,编制次数分布表17、常用的统计图有条形图,饼图,直方图,多边形图,散点图(会辨认)18、算术平均数的算法:直接计算法,减去(或加上)常数法,加权平均法19、算术平均数的重要特性:1)样本中各观测值与其平均数之差称为离均差,其总和等于零2)样本中各观测值与其平均数之差平方的总和,较各观测值与任一数值(不包括平均数)之差的平方和最小,即离均差平方和为最小20、标准差的特性:1,标准差的大小受多个观测值的影响,如果观测值与观测值之间差异较大,其离均差也大,因而标准差也大,反之则小2,计算标准差时,如将各观测值加上或减去一个常数a,其标准差不变,将各观测值乘以或除以一个常数a,则标准差扩大或缩小了a倍3,在正态分布情况下,一个样本变量的分布情况可作如下估计:在平均数两侧的1s范围内,观测值个数约为观测值总个数的68.26%,在平均数两侧的2s范围内,观测值个数约为观测值总个数的95。45%,在平均数两侧的3s范围内,观测值个数约为观测值总个数的99,73%21、标准差的作用:1,表示变量分布的离散程度2,利用标准差的大小,可概括地估计出变量的次数分布极各类观测值在总体中所占的比例3,估计平均数的标准误4,进行平均数的区间估计和变异系数计算22、标准差除以样本平均数,得出的百分比就是变异系数23、常见的理论分布主要有离散型随机变量的二项分布,泊松分布和连续型随机变量的正态分布24、大数定律是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称伯努利大数定律说明,若试验条件不变,重复次数n接近无限大时,频率m/n与理论概率p的差值必定要小于一个任意小的正数ε,即这两者可以基本相等,这几乎是一个必然要发生的事件,即P=134页辛钦大数定律说明为什么可以用算术平均数来推断总体平均数,阐述了当试验重复次数n无限增大,随机变量的算术平均数与总体平均数之间的差一定小于任意小的正数ε,也就是算术平均数与总体平均数相等,这几乎是一个必然要发生的事件,即P=125、二项分布的参数的计算(38页)26、泊松分布在生物学研究中有广泛的应用:1,在生物学研究中,有许多小概率事件,其发生概率p往往小于0.1,甚至小于0012,由于泊松分布是描述小概率事件的,因而二项分布当p小于0.1和np小于5时,可用泊松分布来近似27、样本平均数是总体平均数的无偏估计值;样本方差是总体方差的无偏估计值;样本标准差不是总体标准差的无偏估计值28、标准误描述样本均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映样本平均数之间的变异(样本平均数分布的方差等于总体方差除以样本容量)29、正态分布的特征(42页)30、如果被抽样总体不是正态总体,但具有平均数和方差,当样本容量n不断增大,样本平均数的分布也就越来越接近正态分布,且具有平均数,方差σ2/n,称中心极限定理48页31、样本平均数差数分布的基本性质:1)样本平均数差数的平均数等于总体平均数的差数(或样本平均数分布的平均数的差数)2)样本平均数差数的方差等于总体方差除以各自样本容量之和(或两样本平均数方差之和)3)从两个独立正态总体中抽出的样本平均数差数的分布也是正态分布,并具有平均数和方差,记作50页32、t分布具有以下特征:1曲线是左右对称的,围绕平均数ut=0向两侧递减2受自由度df=n-1的制约,每个自由度都有一条t分布曲线3和正态分布相比,t分布的顶部偏低,尾部偏高,自由度df≥30时,其曲线就比较接近正态分布曲线,当df趋近与无穷时,则和正态分布曲线重合33、卡方分布的特征:1,分布于区间零到正无穷,并且呈反j形偏斜分布2,卡方分布的偏斜度随自由度降低而增大,当自由度df=1时,曲线以纵轴为渐近线3,随自由度df增大,卡方分布曲线渐趋左右对称,当df≥30时,卡方分布已接近正态分布51页34、F分布的特征:1,F的取值区间为零到正无穷2,F分布的平均数等于13,F分布曲线的形状仅取决于df1和df2,在df1=1时或df=2时,F分布曲线呈严重倾斜的反向j形,当df1≥3时转为左偏曲线52页35、统计推断包括假设检验和参数估计36、假设检验是在总体理论分布和小概率原理基础上,通过提出假设,确定显著水平,计算统计数,作出推断等步骤来完成的在一定概率意义上的推断37、假设检验的步骤:1.对样本所属总体提出无效假设Ho和备择假设HA2,确定β检验的显著水平α3,在Ho正确的前提下,计算抽样分布的统计数或相应的概率值4,根据小概率原理,进行差异是否显著的推断,并得出结论38、具有两个否定区的检验称为双尾检验39、第一类错误也称α错误,也称弃真错误;第二类错误也称β错误,也称纳伪错误40、样本平均数的假设检验,计算59页41、当np或nq小于5,则由二项式(p+q)n展开式直接检验,当5小于np或nq小于30,二项分布趋近正态分布,可用u检验(n≥30)或t检验(n小于30),但需要进行连续性矫正,如果np、nq均大于30,则不需要进行连续性矫正,用u检验42、卡方检验主要有三种用途:一个样本方差的同质性检验,适合性检验,独立性检验43、方差分析是英国统计学家R.A.Fisher,提出的对两个或多个样本平均数差异显著性检验的方法44、方差分析必须满足正态性,可加性,和方差同质性3个基本假定,如果数据不符合这三个假定则需要对数据进行转换。对于缺失的数据可以利用误差平方和最小的原则进行弥补45、方差分析的数学模型:固定模型,随机模型,混合模型46、多重比较常用的方法有最小显著差数法和最小显著极差法47、多重比较结果的表示方法常用的是,标记字母法和梯形法48、最小显著极差法(LSR法)可分为新复极差检验和q检验49、进行两因素或多因素试验时,一般应设重复50、方差分析的数据转换:平方根转换,对数转换,反正弦转换51、常采用最小二乘法建立直线回归方程,变量y的离差平方和可以分解为回归平方和U和离回归平方和Q,通过F检验或t检验的方法可检验直线回归关系的显著性52、研究“一因一果”即一个自变量与一个依变量的回归分析称为一元回归分析,可分为直线回归与曲线回归;研究“多因一果”即多个自变量与一个依变量的回归分析称为多元回归分析,可分为多元线性回归于多元非线性回归53、试验设计是进行生物学研究的重要工具,需遵循重复,随机和局部控制3项原则。常用的实验设计有对比设计,随机区组设计,拉丁方设计,裂区设计,正交设计54、试验设计是由英国统计学家R.A.Fisher于20世纪20年代为满足科学试验的需要而提出的55、生物学试验的基本要求:试验目的要明确,试验条件要有代表性,试验结果要可靠,试验结果要能重演56、试验设计的基本要素:处理因素,受试对象,处理效应57、控制试验误差的途径:1)选择纯合一致的试验材料2)改进操作管理制度,使之标准化,3)精心选择试验单位4)采用合理的试验单位58、用正交表进行试验安排具有的两个特性:均衡分散性,整齐可比性