统计学的基本步骤和基本概念1、统计学的基本步骤:①研究设计;②收集资料;③整理资料;④分析资料;⑤对分析结果的正确解释和表达。横断面研究观察性研究病例对照研究队列研究统计设计动物实验实验性研究临床试验社区干预试验统计学统计描述:运用统计学指标对数据特征及其分布规律进行客观描述和表达统计分析统计推断:在一定的可信程度或概率保证下,根据样本信息推断总体特征集中趋势:平均数、几何均数、中位数统计描述离散程度:方差、标准差、极差、四分位间距、变异系数定量资料参数估计:均数的标准误、总体均数的置信区间统计推断假设检验:t检验、t'检验、方差分析、秩和检验统计描述:率、构成比、相对比定性资料统计推断:X2检验、秩和检验、二项分布、Poission分布2、总体和样本:总体:是根据研究目的所确定的所有同质观察单位某种观察值(变量值)的集合。样本:从研究总体中抽取的一部分满足代表性的个体观察值所组成的集合称为样本,样本包含的观察单位数称为样本含量或样本大小。3、参数和统计量:参数:描述总体分布特征的指标,总体均数μ、总体标准差σ、总体率π统计量:根据样本算得的某些数值特征,样本均数X、样本标准差S、样本率p4、变量和资料变量:是观察单位的某种特征或属性,变量的观测值就是所谓的变量值。资料:变量值组成的集合称为资料。变量连续型变量离散型变量计量资料定量资料分类资料不具有分类的资料有序分类资料无序分类资料多项分类资料二项分类资料等级资料取值取值5、随机误差和系统误差误差:泛指实测值与真实值之差,一般可分为随机误差和非随机误差。随机误差:即抽样误差,由于随机抽样造成的实测值与真实值之差。是不可避免的,但一般服从正态分布,可以通过统计学方法进行分析。系统误差:最常见的非随机误差,指实测值系统偏离真实值、具有方向性的误差。6、概率、频率和小概率事件频率:若用随机事件A发生表示观察到某个可能的结果,在n次随机试验中,随机事件A发生了m次,则称A发生的比例f=m/n为频率,医学上所说的患病率、病死率等都是频率。概率:描述事件发生可能性大小的一个度量。小概率事件:当某事件发生的概率小于或等于0.05时,统计学习惯上称该事件为小概率事件。7、同质性和个体变异同质性:通常指研究对象在一定范畴内的各种可能影响主要观察指标的其他因素处于相同或非常相似的情况。个体变异:同质个体中同一观察指标的个体观察值之间的差异称为该观察指标的个体变异。调查研究设计1、调查研究及其特点调查研究:又称观察性研究,指研究者在研究中没有施加任何干预措施,仅客观地观察和记录研究对象的现状及其相关特征的研究。特点:①研究过程中没有人为施加的干预措施,研究事物或现象及其相关特征(包括研究因素和非研究因素)是客观存在的;②不能将研究因素随机地分配到研究对象中,也不能用随机化分组来平衡非研究因素对调查结果的影响。2、调查研究设计的基本内容:①明确调查目的和指标;②确定调查对象和观察单位;③确定调查方法;④确定调查方式;⑤确定调查项目和调查表;⑥制定资料整理分析计划;⑦制定调查的组织计划。3、调查设计的常用抽样方法及其优缺点普查:即调查目标总体中全部观察对象。优:理论上没有抽样误差,可以直接得到总体参数。缺:成本较高。抽样调查:即从总体中抽取一定数量的观察单位组成样本,对样本进行调查。分为概率抽样和非概率抽样。优:节省调查成本,有助于获得较为深入、细致和准确的资料。缺:样本推断总体时存在抽样误差。概率抽样:是指总体中观察单位被抽中的概率是已知的或可以计算的。优:总体代表性较好,可以计算抽样误差,可以对总体进行统计推断。缺点或前提:目标总体和抽样框架明确。非概率抽样:是指总计中每个观察单位被抽中的概率是已知或不能计算的。抽样方法定义优点缺点概率抽样单纯随机抽样按等概率原则直接从含有N个观察单位的总体中抽取n个观察单位组成样本均数(或率)及标准误的计算简单当总体观察单位较多时,要对观察单位一一编号,比较麻烦系统抽样先将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间距,从每一部分各抽取一个观察单位组成样本①易于理解,简单易行;②容易得到一个按比例分配的样本;③样本的观察单位在总体中分布均匀,其抽样误差一般小于单纯随机误差。①当总体中观察单位按顺序有周期趋势或单调增(或减)趋势时,将产生明显的偏性;②实际中按单纯随机抽样方法估计误差会一般偏大。分层抽样按对主要研究指标影响较大的某种特征,将总体分为若干类别,再从每一层内随机抽取一定数量的观察单位组成样本①减少抽样误差;②便于不同的层采用不同的抽样方法,有利于调查组织工作的实施;③还可对不同层进行独立分析。要求层内差异较小整群抽样将总体按照某种与主要研究指标无关的特征划分为K个“群”,每个群包含若干观察单位,再随机抽取k个“群”,由抽取的各个群的全部观察单位组成样本便于组织,节省经费,容易控制调查质量当样本含量一定时,其抽样误差一般大于单纯随机误差(因为样本观察单位未能广泛地散布在总体中)非概率抽样偶遇抽样研究者根据现实情况,抽取偶然遇到的人或选择那些距离最近的、最容易找到的人作为调查对象简单易行结果对总体代表性差立意抽样调查者根据研究目的分析判断来选择调查对象对研究者要求较高定额抽样研究者首先依据那些可能影响研究指标的各种因素对总体进行分层,并确定各层样本占总体比例,再在各层中抽取样本样本代表性存在一定问题,选择性偏倚较大雪球抽样当无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,并请他们介绍所认识的其他符合条件的人,再去找那些人进行调查,如此重复,直到达到所需的样本含量常用于缺少抽样框架、目标总体不明、采用其他方法难以找到调查对象的情形4、调查问题安排顺序总原则:①符合逻辑;②一般问题在前,特殊问题在后;③易答题在前,难答题在后;④如果采用封闭式和开放式相结合的问题,一般先设置封闭式问题;⑤敏感问题一般放在最后。5、信度和效度效度:又称真实性或准确性,用以反映测量结果与“真实值”的接近程度。定量观察:通常用两者的相关系数r来描述标准效度。定性或半定量观察:Kappa系数描述两个测量手段或结果的一致性。信度:又称可靠信、重复性、稳定性或精密度,用以反映相同条件下重复测定结果的一致程度。重复测量法:组内相关系数ICC评价信度高低。(1)AeAeMSMSICCMSnMSAMS为组间(研究对象间)均方,eMS为组内(误差)均方,n为重复测量次数。一般认为ICC≥0.75,说明测量结果的可重复性较好。实验研究设计1、实验设计的3个基本原则和3个基本元素:对照、随机化、重复,受试对象、处理因素、实验效应。2、对照形式主要有:空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照。3、常用的实验设计类型及其优缺点:类型设计优点缺点完全随机设计单因素两水平或多水平效应设计简单,易于实施,出现缺失数据时仍可进行统计分析小样本时,均衡性可能较差,与随机区组设计相比,一般效率较低配对设计受试对象按配对因素相同或相近配成对子可增强处理组间的均衡性,效率较高配对条件不易严格控制随机区组设计受试对象按性质相同或相近分为b个区组,每个区组中的k个受试对象分配到k个处理组处理组之间的均衡性较好;更容易揭示处理之间的差别,效率较高非处理因素(配伍条件)不易控制交叉设计按事先设计好的实验次序,在各个时期对受试对象先后实施各种处理①节约样本含量;②能够控制个体差异和时间差异对处理因素的影响,故效率较高;③在临床试验中,均等地考虑了每个患者的利益。①每个处理的持续时间不能太长;②当受试对象的状态发生根本变化时,例死亡等,后一阶段的处理将无法进行;③受试对象一旦在某一阶段退出试验,就会造成该阶段及其以后的数据缺失析因设计两个或多个处理因素的各水平进行组合,对所有可能的组合中安排多个实验对象进行实验可以均衡地对各因素的不同水平进行全面组合,以最小的实验次数探讨各因素不同水平的效应,同时可获得各因素间的交互作用,通过比较还能需求最佳组合工作量较大,析因设计的处理数等于各因素水平数的乘积,其统计分析不但计算复杂,而且给众多交互作用的解释带来困难定量资料的统计描述1、频数表和频数图的制作及用途:频数表的制作:(1)求全距R,R=最大值-最小值;(2)划组段:①定组数,以8-15组为宜;②定组距:组距=R/组数,可适当取整;③定上下限:起点为下限,终点为上限,组段[下闭,上开),一般写下限,最后上下全。(3)统计频数和频率制作频数表。频数表和频数的用途:①揭示频数的分布特征:集中趋势和离散趋势;②揭示频数的分布类型:对称分布和偏态分布,集中偏小为正偏,集中偏大为负偏;③可以发现某些特大或特小的可疑值,提示检查核对。2、频数分布特征的描述指标及其适用条件:*对于经对数变换后呈正态分布或近似正态分布的资料,应将原始观察值取对数值后计算几何标准差。分布特征指标计算公式适用条件集中趋势平均数X①原始资料:112=niinXXXXXnn②频数表资料:112212iikkkifXfXfXfXXffff单峰对称分布资料,特别是正态分布或近似正态分布几何均数G①原始资料:123nnGXXXX或1112lglglglglg()lg()inXXXXGnn②频数表资料:11112212lglglglglg()lg()iikkkifXfXfXfXGffff①正偏态分布资料,经过对数变换呈正态分布或近似正态分布;②观察值间呈倍数关系或近似倍数关系;③变量值中不能有0和负数,可适当加上一个正数;中位数M①原始资料:12nMX,当n为奇数时;122()/2nnMXX,当n为偶数时②频数表资料:(50%)MLMiMLnffML为中位数所在组段的下限;i为组距;Mf为中位数所在组段的频数;Lf为中位数所在组段前一组的累计频数。不对称分布的资料,两端无确切值或分布不明确的资料离散趋势极差RR=最大值-最小值单峰对称分布小样本资料四分位间距ULQQ7525=ULQQPP=(%)xxLxiPLnxffxL为第x百分位数所在组段下限,i为第x百分位数所在组段的组距,xf为第x百分位数所在组段的频数,Lf为第x百分位数所在组段前一组的累计频数偏态分布资料、两端无确切值或分布不明确资料方差2S①原始资料:2221211()()11ninniiiiiXXXXnSnn②频数表资料:222()1fXfXnSn单峰对称分布资料标准差S变异系数CV100%SCVX比较计量单位不同或均数相差悬殊的几组资料的离散程度3、正态分布及其应用:概率密度曲线和正态分布曲线:对于变量的频数分布满足中间多,两边少,且左右对称的资料,以观察变量(组距)为横轴,频率密度(频率密度=频率/组距)为纵轴,即可得到频率密度直方图,当观察单位逐渐增加,组段→∞,频率分布图中的直条逐渐变窄,就会逐渐形成一条高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线,即概率密度曲线,近似于数学上的正态分布曲线。若变量X的频率曲线逼近数学上的正态分布曲线,则称该变量服从正态分布。正态分布曲线的密度函数为:22()21()2xfxex(为总体均数,为总体标准差,π为圆周率,e为自然对数的底)特点:①正态曲线在横轴上方均数处最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即均数与标准差,决定位置,决定“胖瘦”;③正态曲线在±1处各有一个拐点;④正态曲线下的面积分布有一定的规律:1.645XS→90%,1.96XS→95%,2.58XS→99%。若X服从正态分布N(,2),经xXZ变换后,则Z就服从均数为0,标准差为1的正态分布N(0,1),称为标准正态分布或Z分布,其密度函数为:221(),2zzezjp-=-?+?。正态分布的应用:(1)估计总体变量值的频率分布D:()xz可通过