1总体:按研究目的确定的研究对象中所有观察单位的总和。样本:从研究总体中随机抽取的具代表性的部分观察单位的总和。同质:指观察单位具有相同的性质,对观察单位有影响的因素相同或相近。同质是相对的,不是绝对的。变异:同质事物间存在的差别(个体间存在的差别)就叫做变异参数:描述总体特征的有关指标。总体平均数(μ)、总体标准差(σ)和总体率(π)。统计量:反映样本特征的有关指标。样本均数()、样本标准差(s)和样本率(p)等。参数估计:总体参数是固有、不变的,样本统计量随抽样的变化而变化,但分布有规律。用统计量去估计总体参数——参数估计。变量:反映总体中观察单位的特征资料:变量的测得值,也称变量值或观察值资料的分类及特点:根据资料的性质和目的,将资料分为三类:定量资料、定性资料和等级资料。定量资料:以定量值表达每个观察单位的某项观察指标。1.各观察单位之间只有量的差别2.数据间有连续性。定性资料:以定性方式表达每个观察单位的某项观察指标。1.各观察单位间或者相同,或者存在质的差别2.有质的差别之间无连续性。等级资料:以等级方式表达每个观察单位的某项观察指标。1.各观察单位间或者相同,或者存在质的差别2.各等级间只有顺序,而无数值大小,故等级之间不可度量。概率:是随机事件发生可能性大小的度量,常用P来表示,取值范围为0≤P≤1。小概率事件:当某随机事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件,表示发生的可能性很小。小概率原理:在一次独立实验中小概率事件不可能发生。率:又称频率指标。某现象实际发生数与可能发生总数之比。说明某现象发生的频率与强度。构成比:又称构成指标。表示某一事物内部各组成部分所占的比重或频率,常以百分数表示。相对比:简称比,是两个有关指标之比。说明甲指标是乙指标的几倍或几分之几。定量资料的统计指标及特点:集中趋势和离散趋势集中趋势的描述指标:平均数是一类描述同质计量资料集中位置或平均水平的统计指标。对一组变量值有代表性。常见的平均数有算术平均数、几何平均数和中位数。算术平均数:统计学中用希腊字母μ表示总体均数,用表示样本均数。特点:根据全体观察值计算得到,其计算较为简单,通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端值或资料呈偏态分布,算术平均数就变的不稳定而失去代表性。几何均数:原始资料按数值大小顺序排列后,各观察值呈倍数关系,或近似倍数关系时,习惯上用几何均数来表示集中趋势,用G表示。特点:根据全部观察值相乘后开n次方计算得到。只适宜于等比资料或对数正态分布资料,此时用几何均数反映集中趋势比算术均数或中位数更合适。中位数:常用M表示,是指将一组变量值按从小到大的顺序排列,位置居中的数。百分位数P50=中位数。特点:将全部观察值按由小到大的顺序排列后,取中间位置所对应的量值。不受其前后其他数值的影响。因此在抗极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。三者联系:对于正态分布资料,中位数等于均数;对于对数正态分布资料,中位数等于几何均数。离散趋势的描述指标:能反映数据分布规律变异程度的大小统计指标。描述离散程度的常见指标有:全距、四分位数间距、方差、标准差及变异系数,其中以标准差和变异系数最为常用。全距也称作极差,用大写字母R表示;为一组变量值中最大值与最小值之差;反映资料分布的范围;全距越大,说明数据的变异程度越大;全距越小,说明数据的变异程度越小。特点:计算方法简单,但不灵敏、不稳定,对变异度的描述很粗略,用来初步反映变异的大小。四分位数间距:四分位数是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。四分位数间距指QL与QU间的差距,其间包括了全部观察值从小到大排列中间的一半,而不包括两端。特点:与全距相比,四分位数间距受极端值的影响小,比全距稳定。四分位数间距越大,说明变异度越大。适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。常与中位数一起使用。方差和标准差:全面考虑每个观察值的变异情况。个体变异度越大,标准差和方差也越大,反之亦然。特点:标准差直接地、总结地、平均地描述了变量值的离散程度。在同质的前提下,标准差越大表示变量值的离散程度越大,即变量值的分布分散、不整齐、波动较大;反之,标准差越小表示变量值的离散程度越小,即变量值的分布集中、整齐、波动较小。变异系数,简记为CV,是标准差s与均数之比。特点:变异系数派生于标准差,它的应用价值在于排除了平均水平的影响,并且消除了单位。常用于:①比较度量衡单位不同的两组或多组资料的变异度。②比较均数相差悬殊的两组或多组资料的变异度。平均数与变异度的关系:平均数所表示的集中性与变异度所表示的离散性,是从两个不同的角度阐明计量资料的特征。数据分布越集中,变异度越小,平均数的代表性就越好;反过来,数据分布越分散,变异度越大,则平均数的代表性就越差。通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征。用中位数和四分位数间距描述偏态分布资料的特征。应用相对数的注意事项:1.计算相对数尤其是率时分母不宜过小;2.分析时切不能以构成比代替率;3.应分别将分子和分母合计求平均率;4.相对数比较时应注意其可比性;5.样本率或构成比进行比较时应作假设检验。正态分布的特征:是重要的连续型随机变量的概率分布,是很多统计分析方法的基础。医学研究中的多数观察指标服从或近似服从正态分布;诸多统计方法建立在正态分布的基础之上;许多其他分布的极限为正态分布。1.正态分布是一单峰分布,高峰位置在均数X=μ处。2.正态分布以均数为中心,左右完全对称。3.正态分布取决于两个参数,即均数μ和标准差σ。为位置参数,变大,则曲线沿横轴向右移动;变小,曲线沿横轴向左移动。为形态参数,表示数据的离散程度,若小,则曲线形态“瘦高”;大,则曲线形态“矮胖”。4.有些指标不服从正态分布,但通过适当变换后服从正态分布,如对数正态分布。5.正态分布曲线下的面积分布是有规律的。无论μ,σ取什么值,正态分布密度曲线下的面积分布有以下几个规律:①正态密度函数曲线与横轴间的面积恒等于1或100%;②正态分布是对称分布。其对称轴为直线X=μ,Xμ与Xμ范围内曲线下面积相等,各占50%;③曲线下面积常用规律:在区间(μ-σ,μ+σ)内的曲线下面积为68.27%;在区间(μ-1.64σ,μ+1.64σ)内的面积为89.90%,在区间(μ-1.96σ,μ+1.96σ)内的面积为95.00%;XX2在区间(μ-2.58σ,μ+2.58σ)内的面积为99.00%。参考值范围的定义及计算方法:由于个体差异的存在,需要确定绝大多数正常人各种指标一定的波动范围,这个范围就叫做参考值范围又称正常值范围。计算方法一、正态分布法,双侧单侧(高侧)(低侧);方法二、百分位数法,双侧P2.5~P97.5,单侧(低侧)≥P5,(高侧)≤P95;方法三、对数正态分布法、x=lnX,经变换后的x分布服从正态分布,按正态分布法算出x值的参考值范围,再计算反对数,即得所求。抽样误差:由于随机抽样引起的样本统计量与总体参数之间的差异称为抽样误差。在抽样研究中抽样误差是不可避免的。抽样误差产生的条件:1.抽样研究,只有对总体中的部分个体进行抽样研究,才可能导致样本指标与总体指标的不相等,而且在同一类型的研究中,样本例数越少,抽样误差可能会越大。2.个体变异,在抽样方法和样本含量不变的条件下,变异大的事物其抽样误差也大,反过来,变异小的事物其抽样误差也小。统计推断:就是根据样本所提供的信息,以一定的概率推断总体的性质。假设检验与区间估计是统计推断的两个部分,是从两个不同目的出发并有密切关联的分析方法。假设检验与可信区间的作用是相辅的,是解决相同问题的不同思路,结论的涵义是一致的,效果是等价的,都是基于抽样误差理论。假设检验:就是分辨两个样本是否分别属于两个不同的总体,并对总体作出适当的结论。两个样本的概念也可以扩展为两个以上的样本。分辨一个样本是否属于某特定总体。区间估计:抽样误差是客观存在并且无法避免的。按一定的概率或可信度(1-)用一个区间来估计总体参数的所在范围。95%可信区间:指从总体中随机抽样,每100个样本所算得的100个95%可信区间,平均有95个包含了总体参数。可信区间与容许区间的区别:1.可信区间用于估计总体参数,总体参数只有一个;而容许区间用于估计变量值的分布范围,变量值可能很多甚至无限。95%容许区间指有95%的变量值在该范围内。95%可信区间的涵义是指从总体中随机抽样,每100个样本所算得的100个95%可信区间,平均有95个包含了总体参数。2.可信区间所基于的t分布是统计量的抽样分布,一般可通用;而容许区间所基于的正态分布是变量值的分布,只有当分布接近正态分布时方适用。标准差和标准误的区别与联系区别:标准差标准误意义反映个体差异反映抽样误差公式2()1XXSnXSSn性质n趋向∞,S趋于稳定(σ)n趋向∞,XS趋于0应用计算参考值范围0.05XuS计算可信区间0.05,vXXtS联系:XSSn,标准误与标准差成正比,与n的平方根成反比。假设检验的基本思想1.提出一个假设:同一总体,差别由抽样误差造成2.如果假设成立,求出由于抽样误差得到现有样本的可能性–可能性很小(小概率事件),在一次试验中本不该得到,居然得到了,说明我们的假设有问题,拒绝之。–可能性较大,有可能得到手头的结果,差别可由抽样误差解释,故根据现有的样本没有理由拒绝事先的假设。3.以确立的假设总体为依据,求出从假设总体中获得手头样本(含与总体参数偏离更大的样本)之概率,通过对此概率的界定来作出结论。假设检验的一般步骤步骤1:建立假设,零假设记为H0,表示目前的差异是由于抽样误差引起的。备择假设记为H1,表示目前的差异是由于本质上的差别引起的。H0和H1对立且包含所有的可能。步骤2:确立检验水准α(小概率标准)步骤3:计算检验统计量并求P值步骤4:界定P值并作结论,与检验水准比较,根据小概率原理作出推断,得到结论;当P≤时,(=0.05),拒绝H0,接受H1,差异有统计学意义;当P>时,不拒绝H0,差异无统计学意义。P值的涵义:在H0所规定的总体中随机抽样,获得大于等于(或小于等于)现有样本统计量的概率。以多大的误差拒绝H0。拒绝H0时所冒的风险:P值小,风险小,误差小;P值大,风险大,误差大。两类错误Ⅰ型错误—拒绝了实际上是成立的H0——“弃真”;Ⅱ型错误—不拒绝实际上是不成立的H0——“存伪”。当P≤而拒绝H0接受H1,要注意第一类错误出现;当P>而不拒绝H0,要注意第二类错误的出现。第二类错误率表示失去对真实H1作出肯定结论的概率,1-就是对真实的H1作出肯定结论的概率,常被用来表达某假设检验方法的检验的功效。拒绝H0,接受H1不拒绝H0H0真实(1-α)Ⅰ型错误(α)推断正确(1-α)H0不真实(β)推断正确(1-β)Ⅱ型错误(β)检验效能:1-称为检验效能,统计学意义为:若两总体确实存在差别,按水准能发现其差别的能力。检验效能越大,按检验水准拒绝H0,推断两总体均数确实有差别的把握性就越大,所以检验效能又称把握度。t检验的应用条件:独立性:各观察值间相互独立不能相互影响。正态性:样本取自正态总体。两均数比较时,要求均服从正态分布;配对设计时,要求差值服从正态分布。方差齐性:两样本代表的总体方差相等方差分析(ANOVA)(F检验)的基本思想:1.按照设计类型将总变异分解为处理因素引起的变异和随机因素造成的变异;2.以处理因素变异与随机因素变异之比来构造检验统计量F;–处理因素没有效应时,即处理因素变异主要表现为随机误差,此时F值近似为1;–否则F值大于1。3.F值要大到多少才表明这个差别并非随机因素造成?4.需要查F界值表,通过比较F值与界值的大小来作出统计推断。方差分析的应用条件各样本来自正态总体;各总体方差齐;样本独立