1生物统计学复习资料(70%)填空:10题×1’=10’选择:5题×1’=5’名词解释:5题×2’=10’判断:5题×1’=5’简答:3题×5’=15’统计推断:4题10’+10’+10’+20’=50’第1章绪论生物统计学:是研究收集、整理、分析和解释生物科学试验数据的科学,是统计学原理在生物学研究领域的应用。生物统计学的主要内容生物统计学包括试验数据的获取、整理和分析等相关内容,具体来说,包括试验或调查设计、数据的整理(描述统计学)、概率论基础(统计理论基础)、统计推断方法(推断统计学)等内容。调查设计:是指整个调查计划的制订,包括调查研究的目的、对象与范围,调查项目及调查表内容,抽样方法的选取,抽样单位和抽样数量的确定,数据处理方法,调查组织工作,调查报告撰写等内容。试验设计:是指试验单位的选取、生物学重复数的确定及试验单位的分组等。生物统计学发展简史(1)古典记录统计学(2)近代描述统计学(3)近代推断统计学总体:是研究对象的全体。个体:是总体中的一个研究单位。样本:是从总体中抽取的用于代表总体的一部分个体。样本容量记为n,通常把n≤30的样本称为小样本,n>30的样本称为大样本。(判断区别)随机抽样:是指总体中的每一个个体都有同等的被抽取的机会组成样本。参数:由总体计算的特征数。统计数:由样本计算的特征数。准确性:也叫准确度,是指在试验中某一试验指标的观测值与其真值接近的程度。精确性:也叫精确度,是指同一试验指标的重复观测值彼此接近的程度。随机误差:是由于无法控制的内在和外在的偶然因素所造成的,是客观存在的,在实验中,即使十分小心也难以消除。系统误差:也叫片面误差,是由试验材料的初始条件不同或测量仪器不准等引起的倾向性或定向性偏差。(小题)误差怎么控制?(小题)随机误差可完全避免(×)(小题)减小统计误差的方法是(B)A、提高准确度B、提高精确度C、减少样本容量D、增加样本容量2第2章数据的描述与分析数据可以大致分为数量性状数据和质量性状数据两大类。数量性状数据:是指通过测量、度量或计数取得的数据。根据数据的特征又分为连续型数据和离散型数据。连续型数据:或称为计量数据,是指用测量或度量方式得到的数量性状数据。(如身高、作物产量、蛋白质含量等)连续型数据的特点:(1)用测量或度量方式得到的数量性状数据。(2)数据是用长度、容积、重量等来表示。(3)观测值可以是整数或带小数的任何数值。(4)小数位数由测量工具或统计要求的精度而定,数据之间的变异是连续的。离散型数据:或称为计数数据,是指用计数方法得到的数量性状数据。(如不同血型的人数、鱼的数量、白细胞数等)质量性状数据:或称为属性数据,是指对某种现象进行观察而不能测量的数据。(如土壤的颜色、植物叶的形状等)质量性状数据数量化的方法(1)二值化(2)等级化离散型数据基本上采用单项式分组法整理。连续型数据一般采用组距式分组法整理。全距又称为极差统计表的结构:统计表由标题、横标目、纵标目、线条、数字及合计(总计)构成。编制统计表的总原则:结构简单、层次分明、内容安排合理、重点突出、数据准确,便于理解和统计分析。统计表编制的具体要求(1)标题:标题要简明扼要、准确地说明表的内容,有时需在最右侧注明时间、地点,表中数据为同一单位时也在此说明。(2)标目:标目分为横标目和纵标目两项。横标目列在表的左侧,纵标目列在表的上端,并注明计量单位,如%、kg、cm等。(3)数字:一律用阿拉伯数字,小数点对齐,(每列)小数位数一致,无数字的用“—”表示,数字是“0”的,则填写“0”。(4)线条:表的上、下两条边线略粗,纵、横标目间及合计(总计)用细线分开,表的左右边线可省去,表的左上角一般不用斜线;科技论文则习惯使用三线表。常用的统计图有:柱状图、饼图、线图、直方图和折线图。离散型数据常用的统计图:柱状图、线图或饼图连续型数据常用的统计图:直方图和折线图统计图绘制的的基本要求:(1)标题简明扼要,列于图的下方;纵、横两轴应有刻度,注明单位。(2)横轴由左至右、纵轴由下而上,数值由小到大;图形宽度与高度之比为4:3至6:5。(3)图中用不同颜色或线条代表不同事物时,应有图例说明。变量分布具有两种明显的基本特征,及集中性和离散性。集中性:是指变量有向某一中心聚集的趋势,或者说以某一数值中心向两侧递减分布的性质。离散性:是指变量有离中心分散变异的性质。反映数据集中性的特征数为平均数,常用的是算术平均数,还包括几何平均数、调和平均3数、中位数和众数等。(具体事例,如进行。。的滴定叫做什么平均数)中位数:将资料中的所有观测值按从大到小的顺序排列,位于中间的那个观测值称为中位数。变异数包括极差、方差、标准差和变异系数等。(各自的计算方法):极差:资料中观测值的最大值与最小值之差,记为R。R=max{x1,x2,…,xn}-min{x1,x2,…,xn}方差:记为s2或均方,记为MS。(自由度为n-1)𝑠2=∑(x−x̅)2𝑛−1相应的总体参数称为总体方差,记为σ2。σ2=∑(x−μ)𝑁2标准差:记为s。s=√∑(𝑥−𝑥̅)2𝑛−1𝜎=√∑𝑥2−(∑𝑥)2𝑛𝑛−1标准差的特性(1)标准差受所有观测值的影响,观测值间的差异大小直接影响标准差的大小。(2)在计算标准差时,所有观测值同时加上一个常数,标准差值不变;所有观测值同时乘以常数a时,标准差扩大a倍。(3)数据呈正态分布时,在平均数两侧1s范围内的观测值个数为68.26%,在平均数两侧2s范围内的观测值个数为95.45%,在平均数两侧3s范围内的观测值个数为99.73%。标准差的作用(1)表示变量变异程度的大小。标准差小,说明变量比较密集地分布于平均数附近;标准差大,说明变量分布比较分散。因此,可以根据标准差的大小判断平均数的代表性。(2)利用标准差估计变量的次数分布及各类观测值在总体中所占的比例。(3)利用样本标准差代替总体标准差计算平均数的标准误。(4)用于平均数的区间估计和变异系数的计算。变异系数的用途(1)比较度量衡的单位不同的多组数据的变异度。(2)比较均数相差悬殊的多组数据的变异度。计算:在度量单位不同和(或)平均数差异较大时,比较两个样本的变异程度就不能直接采用标准差,而须先对其进行标准化,消除度量单位的差异和平均数大小的差异的影响。标准差与平均数的比值称为变异系数,记为Cv。𝐶𝑣=s𝑥̅4第3章概率与概率分布必然事件:在一定条件下必然发生的事件,用U表示。不可能事件:在一定条件下不可能发生的事件,用V表示。概率:用于反映事件发生的可能性大小的数量指标。随机事件满足以下三个条件:(1)试验的所有可能结果只有有限个。(2)试验的各种结果出现的可能性相等。(3)试验的所有可能结果两两互不相容。事件的相互关系(1)和事件,记作A∪B(或A+B)(2)积事件,记作A∩B(或AB)(3)互斥事件(4)独立事件概率计算法则:(应用,p20)(1)加法定理P(A∪B)=P(A)+P(B)(2)条件概率,记作P(B|A)P(B|A)=P(AB)P(A)(3)乘法法则设事件A和事件B是同一个样本空间的两个事件,则P(AB)=P(A)P(B|A)如果事件A与事件B相互独立,则P(B|A)=P(B),于是P(AB)=P(A)P(B)二项分布:二项分布:是一种常见的离散性随机变量的概率分布。所谓二项,是指每次试验只有两个可能的结果:事件A和事件𝐴̅,它们互为对立事件。(非此即彼的对立事件)二项分布的概率函数:𝑃(𝑥)=𝐶𝑛𝑥𝑝𝑥𝑞𝑛−𝑥(𝑥=0,1,2,…,𝑛)(3-16)二项分布的表示方法:B(n,p)二项分布曲线形状由n(正整数)和p(0与1之间的任何数值)两个参数决定。当p趋于0.5时,二项分布趋于对称;当p值较小(p<0.3)且n不大时,分布是左偏的;当p值较大(p>0.7)且n不大时,分布是右偏的。后两种情况下,当n→∞时,二项分布接近连续型的正态分布。泊松分布:事件类型:稀有事件的概率分布。表示方法:P(λ)性质:当n→∞时,泊松分布近似服从正态分布N(λ,λ)。(了解,p24)正态分布:事件类型:连续型随机变量的概率分布表示方法:N(μ,σ2)特征(了解,p26)5标准正态分布表示方法:N(0,1)普通正态分布转化为标准正态分布的方法:𝑢=x−u𝜎【例3.6】已知u~N(0,1),试求下列概率:(记答案)(1)P(u<-1)=0.1587(2)P(|u|≤2.576)=0.99(3)P(|u|≥1.960)=0.05(4)P(-3≤u<3)=0.9972P(-1.960≤u<1.960)=0.95P(|u|≥1.960)=1-0.95=0.05P(-2.576≤u<2.576)=0.99P(|u|≥2.576)=1-0.99=0.01(记)无偏估计:统计学上,如果样本统计数分布的平均值与总体的相应参数相等,则称该统计数为总体相应参数的无偏估计值。无偏估计的三个推断:(1)样本平均数𝑥̅是总体平均数μ的无偏估计值;(2)样本方差s2是总体方差σ2的无偏估计值;(3)样本标准差s不是总体标准差σ的无偏估计值。大数定律:是概率论描述当前试验次数很大时所呈现的概率性质的定律。中心极限定理:是概率论中讨论随机变量的和的分布趋向正态分布的定理。计算:𝜇𝑥̅=μ,𝜎𝑥̅=𝜎√𝑛(3-28)𝑢=𝑥̅−𝜇𝜎𝑥̅=𝑥̅−𝜇𝜎∕√𝑛(3-29)𝑠𝑥̅=𝑠√𝑛(3-30)𝑡=𝑥̅−𝜇𝑠𝑥̅=𝑥̅−𝑛𝑠∕√𝑛(3-31)(样本方差之比)𝐹=𝑠12𝑠22(3-38)第4章统计推断假设检验:又称显著性检验,是利用样本统计数推断总体参数的统计方法。小概率原理:小概率事件在一次试验中不应该发生。假设检验的基本思路:根据零假设计算出事件发生的概率,如果概率很小,事件在一次试验中是不应该发生的,如果发生了,则认为零假设不成立。6假设检验的步骤:(1)提出零假设H0和备择假设HA;(2)确定检验的显著水平α(3)在H0正确的前提下,根据抽样分布的统计量进行假设检验的概率计算;(4)计算统计量对应的概率值与显著水平α比较,或统计量与显著水平α的临界值比较,进行差异显著性推断。双尾检验与单尾检验判别双尾检验:H0:μ=μ0HA:μ≠μ0单尾检验:H0:μ≤μ0HA:μ>μ0假设检验中的两类错误(区别和联系):若H0是真实的,假设检验却否定了它,就犯了一个否定真实假设的错误,称为第Ⅰ类错误。若H0不是真实的,假设检验却接受了H0,就犯了接受不真实假设的错误,称为第Ⅱ类错误。两类错误的关系是,在样本容量相同的情况下,减少犯第Ⅰ类错误的概率α,就会增加犯第Ⅱ类错误的概率β;反之,减少犯第Ⅱ类错误的概率β,就会增加犯第Ⅰ类错误的概率α。平均数的检验(u检验,单样本/双样本,统计推断,10分,t检验,成组/配对,10分)看例题(1)1𝜎12、𝜎22已知→𝑢=𝑥1̅̅̅̅−𝑥2̅̅̅̅𝜎𝑥1̅̅̅̅−𝑥2̅̅̅̅𝜎𝑥1̅̅̅̅−𝑥2̅̅̅̅=√𝜎12𝑛1+𝜎22𝑛2(2)𝜎12、𝜎22未知n1≥30,n2≥30𝑢=𝑥̅1−𝑥̅2𝑆𝑥̅1−𝑥̅2𝑆𝑥̅1−𝑥̅2=√𝑠12𝑛1+𝑠22𝑛2n1<30,n2<30(t检验)t检验成组𝜎12=𝜎22𝑆𝑒2=𝑆12(𝑛1−1)+𝑆22(𝑛2−1)(𝑛1−1)+(𝑛2−1)𝜎12≠𝜎22①n1=n2=nSe2→𝑆𝑥̅1−𝑥̅2→tdf=n-1②n1≠n2配对𝑡=𝑥̅−𝜇𝑆𝑥̅=𝑑̅𝑆𝑑̅𝑆𝑑̅=𝑆√𝑛参数估计包括区间估计和点估计。P(𝑥̅−𝑢𝛼𝜎𝑥̅≤𝜇≤𝑥̅+𝑢𝛼𝜎𝑥̅)=1-𝛼(4-18)当总体方差𝜎2为已知,或总体方差𝜎2未知但为大样本时,置性度为P=1-𝛼的总体平均数μ的区间估计和点估计分别为[𝑥̅−𝑢𝛼𝜎𝑥̅,𝑥̅+𝑢𝛼𝜎𝑥̅],𝑥̅±𝑢𝛼𝜎𝑥̅(4-1