第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。总体population根据研究目的而确定的同质观察单位的全体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。样本sample从总体中随机抽得的部分观察单位,其实测值的集合。3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。P值:P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P值反应结果真实程度,一般以P≤0.05认为有统计学意义,P≤0.01认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05或0.01。P值是:1)一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。2)拒绝原假设的最小显著性水平。3)观察到的(实例的)显著性水平。4)表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurementdata)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。计量资料measurementdata定量资料quantitativedata数值变量资料numericalvariable为观测每个观察单位某项指标的大小,而获得的资料。(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(countdata)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。计量资料enumerationdata定性资料qualitativedata无序分类变量资料unorderedcategoricalvariable名义变量资料nominalvariable为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料rankeddata半定量资料semi-quantitativedata有序分类变量ordinalcategoricalvariable资料为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位后而得到的资料。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。两种误差(2选1)抽样误差(samplingerror)由于抽样而引起的总体指标(参数)与样本指标(统计数)之间的差异。抽样误差是由个体变异或其它随机因素造成的,是不可避免的,但误差分布有规律可循,可进行估计和分析。系统误差(systematicerror):由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。统计的步骤(考填空题,四个空)统计工作的步骤1.设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最关键的一环,是今后工作应遵循的依据。2.收集资料:应采取措施使能取得准确可靠的原始数据。3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分析资料包括统计描述和统计推断。实验设计的基本原则(考填空题,三个空)随机化原则、对照的原则、重复的原则。2选1参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。第二章频数表的制作步骤以及频数分布表的用途(问答题)频数分布表的编制步骤:例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0119.8116.8119.8122.5119.7120.7114.3122.0117.0122.5119.7124.9126.1120.0124.6120.0121.5114.3124.1117.2120.2120.8126.6121.5126.1117.7124.1128.3121.8118.71、找出观察值中的最大值(largestvalue)、最小值(smallestvalue),求极差(range)。极差等于最大值减最小值。本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm)2、确定分组数和组距(classinterval)。组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。组距为相邻两组的间隔,组距=极差/组数。本例拟分10组,则组距=17.5/10=1.75≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。3、确定组段。第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~”。最后组段包括最大值并写出其上限值。4、划记。将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。例如第一个数l14.4应在组段“114~”处划,第二个数117.2应在“116~”处划,以此类推。5、统计各组段的频数。全部数据划记完后,清点各组段的人数。根据编制出的频数表即可了解该数值变量资料的频数分布特征。频数分布表的用途1、描述资料的分布特征和分布类型。频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。2、便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。3、发现特大、特小的可疑值。如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。4、据此绘制频数分布图。描述数据分布集中趋势的指标和描述数据分布离散程度的指标(考选择或者填空)2.描述数据分布集中趋势的指标算术均数、几何均数、中位数。3.描述数据分布离散程度的指标极差、四分位数间距、方差、标准差、变异系数。正态分布的特征(考选择题υ、σ对图形的影响)服从正态分布的变量的频数分布由υ、σ完全决定。(1)υ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以x=υ为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于υ。(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。标准正态分布(填空)1.标准正态分布是一种特殊的正态分布,标准正态分布的υ0,σ21,通常用u(或Z)表示服从标准正态分布的变量,记为υ~N(0,12)。正态分布的应用(简答)某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。1.估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。2.制定参考值范围(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。(2)百分位数法常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。3.质量控制:为了控制实验中的测量(或实验)误差,常以作为上、下警戒值,以作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。4.正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。医学参考值范围的制定(计算题)确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。确定百分位点:一般取95%或99%。例题某市20岁男学生160人的脉搏数(次/分钟),经正态性检验服从正态分布。求得=76.10,S=9.32。试估计脉搏数的95%、99%参考值范围。解:脉搏数的95%正常值范围为:±1.96S=76.10±1.96(9.32)=57.83~94.37脉搏数的99%正常值范围为:±2.58S=76.10±2.58(9.32)=52.05~100.37第三章标准误的概念,计算公式。标准误:抽样研究中,样本统计量与总体参数间的差别称为抽样误差(samplingerror)。统计上用标准误(standarderror,SE)来衡量抽样误差的大小,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。t分布的图形特征及其与正态分布的区别(简答)t分布的图形特征1.以0为中心,左右对称的单峰分布;2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。t分布对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。t分布与正态分布比较的区别t分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t分布峰值较低,而尾部较高;③随自由度增大,t分布趋近与标准正态分布;当ν趋向∞,t分布的极限分布是标准正态分布。置信区间和参数估计(名解2选1)置信区间:在统计学中,一个概率样本的置信区间(Confidenceinterval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。给出的是被测量参数的测量值的可信程度。1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间”)。2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。3、该区间包含了参数θ真值的可信程度。4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。参数估计:指