统计学·以理解为主,没有名解第一章绪论(概念、区别变量类型和参数统计量)1.抽样——从研究总体中抽取一部分有代表性的个体。2.同质——同一总体的个体具有共性(大同小异)。变异——同一总体中不同个体间存在的差异。定量变量离散型变量:只可取整数值(月份)连续型变量:可取实数轴上任何数值(血压)3.变量类型(区别)定性变量分类变量(名义变量):如二分类变量(性别-男女)、多分类变量(职业)有序变量(等级变量):如药物疗效-无效/一般/好转变量的转化只能”高级”到”低级”:定量→有序→分类→二值4.参数——描述总体分布数量特征的统计指标值(总体统计指标值)。其大小是客观存在的,但往往是未知的,需要通过样本资料来估计。统计量——由观察资料(样本资料)计算出来的量(样本统计指标值)。是对总体参数的估计。抽样误差——由抽样而造成的样本统计指标(统计量)与总体统计指标(参数)之差。统计学关心的常常是总体参数的大小,其依据却是统计量及其性质。研究设计收集资料5.统计工作的基本步骤整理资料定量资料统计描述—平均数统计描述定性资料统计描述—相对数分析资料参数估计统计推断(由样本信息对相应总体的特征进行推断)假设检验第二章定量变量的统计描述1.频率分布表(图)的用途:①描述变量的分布类型:对称,非对称(偏锋)②揭示变量的分布特征:集中趋势、离散趋势[集中趋势与离散趋势同时存在,是随机变量分布的两个重要特征,通过描述变量的平均水平(集中趋势)和变异程度(离散趋势)可较全面地揭示数据分布的特征](1)集中趋势的描述-平均数——是分析定量资料的基本指标。用于描述一组同质观察值(变量值)的集中位置,反映一组观察值的平均水平或集中趋势。应用\分类算术平均数(均数)几何均数中位数适用范围适用于对称分布资料,尤其是正态分布或近似正态分布资料。1.原始观察值分布不对称,但经对数转换后呈对称分布(正态分布)的变量。2.当变量值之间呈倍数关系(等比数列)。3.频率图呈正偏锋分布,均数变量平均水平的代表性较差1.当一组变量值呈偏态(峰)分布;2.资料的分布类型不清楚时;3.数据大部分比较集中,少部分偏向一侧;4.资料的一端或两端无界限(2)离散趋势的描述-变异指标:极差、四分位数间距、标准差、变异系数。其中以标准差最常用。特点:①四分位数间距常与中位数结合来描述变量的平均水平和变异程度。四分位数间距的适用范围即中位数适用范围。②标准差常与均数结合起来,从平均水平和变异程度两方面描述变量的分布特征。标准差适用范围即均数适用范围。2.描述分布形态的统计指标:偏度系数、峰度系数正态分布时,偏度系数与峰度系数均为0.3.统计表的结构:表号及标题、标目、线条(三线表:顶线、底线、纵标目分割线)、数字。第三章定性变量的统计描述1.定性资料常用相对数作为统计描述指标。常用的相对数有:频率、强度、相对比。应用相对数的注意事项:1、防止概念混淆;2、计算相对数时分母应有足够数量;3、正确计算合计率;4、样本相对数的统计推断;5.注意资料的可比性;6、频率型指标的解释要紧扣总体与属性(总体不同、属性不同);2.应用粗率标准化法的注意事项:①标准化法的应用范围很广;②标准化后的标准化率,已经不再反映当时当地的实际水平,它只表示相互比较的资料间的相对水平。③选择不同的”标准”,算出的标准化率也会不同,比较的结果也未必相同。④两样本标准化率是样本值。存在抽样误差。比较两样本的标准化率,当样本含量较小时,还应作假设检验。3.动态数列——按时间顺序将一系列统计指标(可以是绝对数,相对数或平均数)排列起来,用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。动态数列的分析不仅可以总结过去,而且可以进行预测,即根据平均发展速度公式计算几年后达到的指标。第四章常用概率分布1.二项分布概念:观察结果是以两分类变量来表示的,如果每个观察对象阳性结果的发生概率均为π,阴性结果的发生概率均为(1-π);而且各个观察对象的结果是相互独立的,重复观察n次,发生阳性结果的次数X的概率分布为二项分布,记作B(n,π)。特点:①结果只有两种可能;②事件的概率不变;③每次事件相互独立。当n相当大(n≥100),只要π不太靠近0或1,特别是当nπ和n(1-π)都大于5时,二项分布近似正态分布。2.正态分布(1)形状:一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。(2)参数:位置参数μ——即总体均数,描述正态分布的集中位置。变异度参数(形状参数)σ——为总体标准差,描述正态分布的离散程度。(3)z变换与标准正态分布任意一个服从正态分布N(μ,σ2)的随机变量,均可以作标准化变换(也称z变换)。变换后的z值仍服从正态分布,且总体均数μ=0,总体标准差σ=1。此正态分布称为标准正态分布,用N(0,1)表示。(4)正态曲线下面积分布规律:μ±1.96σ范围内的面积占曲线下总面积的95.00%(该范围内的频数占总观察单位数的95%)。μ±2.58σ范围内的面积占曲线下总面积的99.00%(该范围内的频数占总频数的99%)。标准正态分布中(-1.96,1.96)=95%;(-2.58,2.58)=99%(5)医学参考值范围——指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。确定医学参考值的方法:①百分位数法:可用于任何分布类型的资料,较适合偏态分布;②正态分布法:适用于正态分布。第五章参数估计基础1.参数估计——根据样本统计量估计总体参数的过程。定量资料的参数估计:均数的抽样误差、均数的标准误、t分布、总体均数的可信区间定性资料的参数估计:率的抽样误差、率的标准误、二项分布、总体率的可信区间2.抽样误差——由抽样而造成的样本统计量与总体参数、样本统计量之间的差异。3.正态分布总体样本均数抽样分布的特点:①各样本均数未必等于总体均数。②各样本均数间存在差异。③样本均数围绕总体均数,中间多、两边少,左右基本对称,呈近似正态分布;事实上,如果原总体呈正态分布,样本均数围绕总体均数亦呈正态分布。④样本均数的变异范围较原变量的变异范围小。⑤随着n增加,样本均数的变异程度减小。4.当样本量n较小时,样本均数的分布并非正态分布,而样本量足够大时(例如,n≥50),样本均数的分布近似于正态分布。5.均数的标准误——样本均数的标准差。可用于反映均数的抽样误差大小。均数的标准误可衡量样本均数(估计总体均数)的可靠性。二项分布中,频率的标准误=均数的标准误。6.t分布(1)t分布与标准正态分布(z分布)比较①相似:t分布和z分布都是以0为中心,中间高,两边低,左右对称的光滑曲线;②不同:t分布是一簇单峰分布曲线。比z分布的离散度更大,其性状与自由度ν有关,ν越小,t值分布越分散。(即t分布离散度大,z分布离散度小)③联系:随着自由度ν的增大,t分布越来越接近z分布,当自由度ν为无穷大时,t分布即为z分布。[t分布不是正态分布,但标准正态分布(z分布)为特殊的t分布](2)统计学关心的是t分布曲线下的尾部面积(即概率P)与横轴t值的关系。自由度相同时,|t|值越大,t分布的尾部概率越小;t临界值相同时,双侧尾部概率为单侧尾部概率的两倍。(3)t分布的用途:总体均数的区间估计;两均数差别的假设检验——t检验。7.总体均数及总体概率的估计(1)参数估计:用样本指标(统计量)估计总体指标(参数)。包括点估计和区间估计。①点估计难以反映参数估计值对其真值的代表性,多不用。②区间估计——用已知样本统计量和标准误,按一定的概率估计可能包含总体参数在内的一个范围。而这个范围称为总体参数的置信区间。1-α称为置信度,α值一般取0.05或0.01,故最常用总体参数的95%或99%置信区间。估计总体均数的置信区间方法:t分布法(当σ未知且n较小,小样本)正态近似法(当σ已知,或σ未知但n足够大,大样本)8.标准差和标准误比较标准差(S)标准差(Sx)相似反映观察值的离散程度反映样本均数的离散程度不同意义表示观察值的变异程度,衡量均数的代表性表示样本均数抽样误差的大小,衡量样本均数的可靠性应用制定医学参考值范围估计总体均数可信区间第六章假设检验基础1.假设检验——判断样本统计量与总体参数之间的差别(或两个或两个以上样本统计量之间的差别)是否由于抽样误差所致的方法。2.区别参数估计和假设检验参数估计假设检验同由样本推总体异已知样本统计量的值推总体统计量的范围假设已知样本统计量的比较,推总体样本统计量比较结果是否相同。3.假设检验的基本步骤:(1)建立假设零假设(原假设或检验假设):假设差别是由抽样误差引起(差别无统计学意义)备择假设(对立假设):假设差别是由处理因素所致(差别有统计学意义)(2)确定检验水准一般取α=0.05(3)选择检验方法,计算检验统计量选择检验方法的依据:研究目的、研究设计的类型、资料特点(变量种类、样本大小)等(4)确定P值P值的定义:在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。(5)作出推论(结果推断)定量资料假设检验4.(小样本资料两均数比较)t检验的应用条件:(1)随机独立样本(2)样本来自正态分布总体(3)两样本均数比较的t检验要求两样本所来自的总体方差相等,(即方差齐性)单样本资料的t检验配对设计定量资料的t检验两独立样本资料的t检验(两样本来自正态分布总体)目的推断样本来自的总体均数µ与已知的某一总体均数µ0(常为理论值或标准值)有无差别。着眼于配对设计(异体配对和自身配对)每一对中两个观察值之差,这些差值构成一组资料,用t检验推断差值的总体均数是否为”0”。判断两独立样本资料的总体均数是否相等。分两种情况(样本量大可不检方差齐性):①总体方差相等(方差齐性)②总体方差不等检验方差齐性,用两独立样本资料的方差齐性检验(F检验)。5.二项分布资料的z检验(大样本)近似正态分布,应用条件:①n足够大,π不太靠近0和1;或nπ和n(1-π)均大于5。6.假设检验的功效(1)假设检验的两类错误①第Ⅰ类错误:拒绝了实际上成立的H0。第Ⅰ类错误的概率大小用α表示。②第Ⅱ类错误:不拒绝实际上不成立的H0。第Ⅱ类错误的概率用β表示。当样本例数n确定时,α愈小,β愈大;反之,α愈大,β愈小。要同时减少α及β,唯一的方法是增加样本例数。表7-1统计推断的两类错误及其概率统计推断实际情况拒绝H0,有差异不拒绝H0,无差异H0成立,无差异第Ⅰ类错误(假阳性)概率=α推断正确概率=1-αH1成立,有差异推断正确概率=1-β第Ⅱ类错误(假阴性)概率=β0H1H(2)假设检验的功效——又称为检验效能或把握度,用符号1-β表示。①意义是:当所研究的总体与H0确有差别时,按规定检验水准α能够发现该差异(拒绝H0)的能力(概率)。②影响因素:总体参数的差异、个体差异(标准差)、样本量、检验水准α③应用假设检验需要注意的问题:a.事先进行严密的统计学设计:1、样本是从同质总体中随机抽取的一部分2、应注意样本含量是否合理3、假设检验的先决条件是比较组间资料是可比的(组间非处理因素均衡)4、单侧检验和双侧检验的选择b.应用假设检验方法必须符合其适用条件c.权衡两类错误的危害来确定α的大小d.正确理解假设检验的结论1、有无差别是相对的2、正确理解P值的意义3、结合专业知识作出推断结论第七章方差分析基础1.方差分析——通过对数据变异的分解来判断不同样本所代表的总体均数是否相同,用于比较两个或两个以上均数的差别。(当用于两两比较时,同一资料所得结果与t检验等价,即t2=F)(1)基本思想:把全部数据的总离均差平方和(SS总)分解为若干部分,其总自由度(v总)也作相应的分解。每一部分表示一定意义,其中至少有一个部分表示各组均数间的变异情况,另一部分表示误差。总变异,组间变异(同时反映处理因素和随机误差),组内变异(只反映随