第一章1.生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科。属于应用统计学的一个分支。是一门应用数学。2.统计学(Statistics)是把数学的语言引入具体的科学领域,将所研究的问题抽象为数学问题的过程,是收集、分析、列示和解释数据的一门科学。3.生物统计学是研究生命过程中以样本推断总体的一门学科。4.生物统计学的基本类容:试验设计:如何合理地进行调查或试验设计统计分析:如何科学地整理、分析所收集来的具有变异的资料,揭示出隐藏其内部的规律性。5.生物统计学的基本作用:提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。运用显著检验,判断试验结果的可靠性或可行性。提供由样本推断总体的方法。④提供试验设计的的一些重要原则。6.常用的统计学术语:一.总体与样本具有相同性质的个体所组成的集合称为总体;总体有分为有限总体和无限总体。组成总体的基本单元称为个体从总体中抽出若干个体所构成的集合称为样本(sample);(总体中的一部分)构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小,样本容量常记为n。一般在物学研究中,通常n30的样本叫小样本,n≥30的样本叫大样本。二、参数与统计数描述总体特征的数量称为参数,也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;描述样本特征的数量称为统计数,也称统计量。常用英文字母表示统计数,例如用X-表示样本平均数,用S表示样本标准差。三、变量与常数变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。变量包括定量变量和定性变量,定性变量又可分为连续变量(可以有任何小数出现)和非连续变量(只有整数出现)。四、效应与互作通过施加试验处理,引起试验差异的作用称为效应。效应有正效应与负效应之分。互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。五、误差与错误效应随机误差,抽样误差,偶然误差变异误差系统误差,片面误差随机误差,也叫抽样误差,是由于试验中无法控制的内在和外在的偶然因素所造成的试验结果与真实结果之间的差异。是不可避免的。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。系统误差,也叫片面误差,是由于试验处理以外的其他条件控制不一致所产生的带有倾向性的或定向性的偏差。系统误差主要由一些相对固定的因素引起的,如仪器调校的差异、各批药品间的差异、不同操作者操作习惯的差异等。系统误差影响试验的准确性。只要试验工作做得精细,系统误差是可以克服的。错误(mistake),是指在试验过程中,由于人为作用引起的差错。如测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的,只要以认真负责的态度和细心的工作作风,在试验中是完全可以避免的。原则上,试验中是不允许出现错误的。六、准确性与精确性准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为μ,观测值为x,若x与μ相差的绝对值|x-μ|越小,则观测值x的准确性越高;反之则低。精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi、xj相差的绝对值|xi-xj|越小,则观测值精确性越高;反之则低。准确性不等于精确性。准确性是说明测定值对真值符合的程度大小,而精确性是说明多次测定值的变异程度大小。调查或试验的准确性、精确性合称为正确性。七.因素与水平八.处理与重复章节小测验1.变量按其性质可以分为___定量__变量和__定性____变量。2.样本统计数是总体______的估计值。3.生物统计学是研究生命过程中以__样本___来推断_总体____的一门学科。4.生物统计学的内容包括______、______。5.生物学研究中,一般将样本容量______称为大样本。6.试验误差可以分为____、____两类。1.对于有限总体不必用统计推断方法。()2.资料的精确性高,其准确性也一定高。()3.在试验设计中,随机误差只能减小,而不可能完全消除。()4.统计学的试验误差,通常指随机误差。()第二章1.在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料。2.变量:相同性质的事物间表现差异性的某项特征或性状。3.定量变量:通过测量所获得的,用具体的数值与特定计量单位表达的数据。连续变量:表示在变量范围内可抽出某一范围的所有值,变量之间是连续,无限的,可以有任何小数出现。非连续变量:表示在变量数列中仅能取得固定数值,并且通常是整数。4.定性变量:也称为分类变量,名义变量,其变量值是定性的,表示某个体属于几种互不相容的类型中的一种。5.数量性状是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。6.计数资料指用计数方式获得的数量性状资料。该类资料也称为非连续变量资料或间断变量资料或离散变量资料。7.计量资料指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,计量资料也称为连续变量资料。8.质量性状资料:质量性状是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料,也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:统计次数法;评分法9.资料收集的方法:调查;试验。调查是对已经存在的事情的资料按某种方案进行收集的方法。资料的调查又可以分为两种:普查和抽样调查。普查是对研究对象的全部个体逐一进行调查的方法。抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。试验是对已有的或没有的事物加以处理的方法。10.试验设计须遵循的三大原则是:随机、重复和局部控制。11.常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等。12.检查和核对原始资料的目的:确保原始资料的完整性和正确性。13.计量资料的整理一般采用组距式分组发全距→组数→组距→组限→归组→制表全距:样本数据资料中最大观测值与最小观测值之间的差值。R=Xmax-Xmin组数:是根据观测值的多少及组距的大小来确定的。组距:组距=全距/组数组限:是指每个组变量值的起止界限。包括上限和下限。组中值:是指每个组变量值的起止界限。第一组的组中值最好接近于资料的最小值。临界值就高不就低。分组是计数的方法:卡片法和唱票法(画正字法和画川字法。)。14.变量的分布具有两种明显的基本特征:集中性和离散性。集中性:是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。离散性:是变量有着离中分散变异的性质。表示集中性的特征数:平均数(算术平均数,中位数,众数,集合平均数,调和平均数)表示离散性的特征数:极差,方差,标准差,变异系数算术平均数总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。总体:样本:中位数Md资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即Md=x(n+1)/2为中位数2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数众数M0资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。注意:NiiNxNNxxx1211...niinxnnxxxx1211...(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。④极差:是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。一定程度上说明样本波动幅度,但只受两个极端值大小的影响,不能反映样本中各个观测值的变异程度.离均差:各个观测值与平均数的离差。离均差可以反映出一个观测值偏离平均数的性质和程度。平方和(SS)估计量必须符合一个特性:无偏性15.算术平均数的重要性质离均差之和等于零。离均差平方和最小。16.自由度:指当以样本的统计量来估计总体的参数时,样本中可以自由变动的变量的个数。自由度=样本个数-样本数据受约束条件的个数df=n-k17.方差:刻画了随机变量的取值对于其数学期望的离散程度方差越大,离散程度越大样本:1)(22nxxs总体:18:标准差样本:总体:标准差特性标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小各观测数加上或减去一个常数,其标准差不变;各观测数乘以或除以一个常数a(不为0),其标准差扩大或缩小a倍。标准差作用Nx22)(1)(2nxxsNx2)(表示变量分布的离散程度。可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。估计平均数的标准误。进行平均数的区间估计和变异系数计算。19.变异系数定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。CV=s/x×100%特点:是样本变量的相对变异量,不带单位。可以比较不同样本相对变异程度的大小。自我测验资料按生物的性状特征可分为______和______。直方图适用于表示______资料的次数分布。变量的分布具有两个明显基本特征,即______和_______。反映变量集中性的特征数是_______,反映变量离散性的特征数是______.样本标准差的计算公式s=_________计数资料也称连续性变量资料,计量资料也称非连续性变量资料。资料中出现最多的那个观测值或最多一组的中点值,称为众数。变异系数是样本变量的绝对变异量下面变量中属于非连续性变量的是_____A.身高B.体重C.血型D.血压对某鱼塘不同年龄鱼的尾数进行统计分析时,可作成_____图来表示。A.条形B.直方C.多边形D.折线第三章1.事件必然事件(U):一定条件下必然出现。不可能事件(V):一定条件下必然不出现。随机事件(A):一定条件下可能出现。2.频率设事件A在n次重复试验中发生了m次,其比值m/n称为事件A发生的频率,记为:W(A)=m/n。3.概率事件A在n次重复试验中,发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)就越来越接近某一确定值p,于是定义p为事件A发生的概率(probability),记为P(A)=p=4.大数定律:概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。样本容量越大,样本统计数与总体参数之差越小。5.简单的概率计算。1)(0AWnmnlim第四章1.统计推断:把试验的表面效应与误差大小相比较并由表面效应可能属误差的概率而作出推论的方法。由一个样本或一系列样本所得的结果来推断总体的特征。2.统计推断的任务:分析误差产生的原因确定差异的性质排除误差干扰对总体特征做出正确判断3假设检验又叫显著性检验,是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。4.小概率原理概率很小的事件在一次抽样试验中实际是几乎不可能发生的。5.假设检验的步骤:分析问题→提出假设→确定显著水平→计算检验统计量→做出推断6.双尾检验与单尾检验7.成组数据:将试验单位完全随机分