第十五章医学统计学概述统计(Statistics)学的涵义?工作生活中常见的统计问题•如何判断药物的疗效?•体育彩票能否中奖?•子女为什么像父母,其强度有多大?•糖尿病的危险因素是什么?•济南市10岁女童的身高是不是和北京市的一样?思考1:两种药物治疗某种疾病,甲法治愈20例,乙法治愈40例,是否说明乙法就优于甲法?常见的医学统计问题思考2吸烟导致肺癌,抗生素治疗胃溃疡,锻炼有助于预防心脏病……我们怎么知道这些?统计学是什么?《大英百科全书》指出:“统计学是一门收集数据、分析数据、并根据数据进行推断的艺术和科学”。统计学是什么?本书:医学统计学是以医学理论为指导,运用数理统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。统计学:是关于数据(data)的科学,是从数据中提取信息的一门学科。医学统计学:用统计学的原理和方法研究医学中的问题。统计学是什么?主要内容第一节统计学中的几个基本概念第二节统计资料的类型第三节统计工作的基本步骤第四节统计表与统计图一、同质与变异同质(homogeneity):统计学的各个观察单位的一些相同的性质。•实际工作中,影响被研究指标的主要的可控制的因素达到相同或基本相同就可认为是同质。•例1.调查2013年济南市山东英才学院大二女生的身高和体重。一、同质与变异一、同质与变异变异(variation):宇宙中的事物千差万别,各不相同,即使是同质事物,就某一观察指标来看,各观察单位(亦称个体)之间也有差别,这种同质事物间的差别即为变异。•例1.调查2013年济南市山东英才学院大二女生的身高和体重。一、同质与变异1.没有同质性就构不成一个总体供人们研究,如不同年龄组男童的身高不能计算平均数,因为所得结果没有意义。2.变异表现在两个方面:①个体与个体间的差别;②同一个体重复测量值间的差别。3.变异是有规律的,统计学就是探讨变异规律、并运用其规律性进行深入分析的一门学科。二、总体与样本总体(population):根据研究目的所确定的同质观察单位的全体,确切地说,是同质的所有观察单位某种变量值的集合。(N)样本(sample):从总体中随机抽取部分观察单位变量值的集合。其大小称为样本含量(n)。•例1.调查2013年济南市山东英才学院大二女生的身高和体重。二、总体与样本样本总体总体是唯一的、确定的,而样本是不确定的、可变的、随机的。样本•例2为了了解某地20~29岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名20~29岁的健康女性,并对其血红蛋白进行测量。•总体?•样本?二、总体与样本•例2为了了解某地20~29岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名20~29岁的健康女性,并对其血红蛋白进行测量。•总体:某地所有20~29岁健康女性血红蛋白测量值。•样本:该地2000名20~29岁的健康女性血红蛋白测量值。二、总体与样本二、总体与样本例3调查某地某年正常成年男子的红细胞数。同质基础:观察单位:研究总体:样本:二、总体与样本例3调查某地某年正常成年男子的红细胞数。同质基础:同一地区,同一年份,同为正常人,同为成年男性;观察单位:该地该年的每一个正常成年男子;研究总体:该地该年全部正常成年男子的红细胞数的集合;样本:从中抽取若干名,分别测得其红细胞数,则这些检测值构成一个样本。二、总体与样本有限总体与无限总体1.上述的总体明确规定了空间、时间、人群范围内有限的观察单位,称为有限总体(finitepopulation)。2.有时总体是假想的,是没有时间和空间概念的,因而观察单位是无限的,称为无限总体(infinitepopulation)。二、总体与样本有限总体与无限总体1.上述的总体明确规定了空间、时间、人群范围内有限的观察单位,称为有限总体(finitepopulation)。2.有时总体是假想的,是没有时间和空间概念的,因而观察单位是无限的,称为无限总体(infinitepopulation)。三、参数与统计量总体参数:根据总体个体值统计计算出来的描述总体的特征。一般用希腊字母表示。样本统计量:根据样本个体值统计计算出来的描述样本的特征量。一般用拉丁字母表示。•例1.调查2013年济南市山东英才学院大二女生的身高和体重。三、参数与统计量•总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。•样本统计量:根据样本分布计算的指标。是随机变量。平均数标准差、方差成数参数、2p统计量S、S2P总体样本X22()1xxsn22()1ffxxs统计学的分析思路populationSampling(抽样研究)Inferring(统计推断)例4.研究某年某地出生的所有新生儿的畸形发生率,随机抽取500名新生儿进行观察。参数?统计量?三、参数与统计量例4.研究某年某地出生的所有新生儿的畸形发生率,随机抽取500名新生儿进行观察。参数:某年某地出生的所有新生儿的畸形发生率的均数(μ),标准差(σ)。统计量:500名新生儿畸形发生率的均数(X),标准差(S)。三、参数与统计量例5.研究英才学院大一女生的平均身高。随机抽取100名女生,平均身高158.2cm;随机抽取1000名女生,平均身高163.1cm;随机抽取2000名女生,平均身高163.8cm。误差(error):是指实测值和真实值之差。四、误差四、误差误差按其产生原因和性质可分为随机误差与非随机误差,后者又分为系统误差与非系统误差。随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。四、误差抽样误差(samplingerror):样本的统计指标(统计量)与总体的统计指标(参数)的差别,可以被控制,但是不能被消除。例6从某地某年13岁女生的总体中随机抽取含量为120的样本,算得其平均身高(统计量)为155.4cm,这个数不一定恰好等于该地13岁女生的总体均数(参数)。四、误差非随机误差系统误差:是一类恒定不变或遵循你一定变化规律的误差,其产生原因往往是可知的或可能掌握的。受确定因素影响,大小变化有方向性。非系统误差(过失误差):是由研究者偶然失误而造成的误差。例5.双色球一等奖的中奖率为1/17721088。概率(probability):是描述事件发生的可能性大小的一个量值,记作P(A)或P。P值取值范围在0~1之间。五、概率P(A)=0表示A为不可能事件,即A不可能发生;P(A)=1表示A为必然事件,即A必然要发生。可能发生也可能不发生的事件称为随机事件。五、概率投掷一枚硬币,观察出现正面的频率。按照下面表格的方式来统计实验结果:投掷次数出现正面的次数正面出现的频率1234567五、概率在n次随机试验中,事件A发生了m次,则比值:f称为事件A在这n次试验中出现的频率,0≤f≤1。m称为频数。试验的总次数发生的试验次数Anmf(一)频率通过实验,我们可以发现:每次试验出现正面的次数和投掷次数存在一个比值关系,即频率。而随着试验次数的增加,这个比值越来越接近一个常数,这个常数我们就成为概率(P)。因此概率为一常数,是固定不变的。五、概率投掷一枚质量均匀的硬币,出现正面和反面的概率各为1/2;投掷一枚骰子出现1~6点的概率各为1/6。在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。在实际问题中,当重复观测次数足够大时,可以频率作为概率的估计值。五、概率五、概率•例6如检查某药品的合格率,其结果如下:某药抽样次品率随抽样次数变化情况抽出样品数n:5010060015006000900018000次品数m:027195693176次品率(%)f:021.171.270.931.030.98随着抽样的大量进行,抽取的样品数逐渐增加,次品率f将愈来愈接近常数1%。五、概率统计学上一般将P≤0.05或P≤0.01的事件称为小概率事件。这种小概率事件虽不是不可能事件,但一般认为小概率事件在一次随机试验中基本上不会发生,这就是小概率原理。小概率事件主要内容第一节统计学中的几个基本概念第二节统计资料的类型第三节统计工作的基本步骤第四节统计表与统计图一、变量和变量值变量:确定总体之后,研究者对每个观察单位的某项特征进行观察或测量,这种特征性表现观察单位的变异性,称为变量。如患者的年龄、性别、职业等。变量值或观察值:变量的观测值。如实际的年龄、体重、性别的男女等。二、变量的分类变量离散型变量连续性变量无序分类有序分类二项多项定量变量定性变量数值变量资料(定量资料或计量资料),为观测每个观察单位某项指标的大小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。1.离散型变量:如儿童龋齿数、胎次等;2.连续性变量:如身高、体重等。(一)数值变量资料1.无序分类变量资料例.测量200人红细胞数,正常组176人,异常组24人。无序分类变量资料:将观察单位按某种属性或类别分组计数后得到的资料,通常没有度量衡单位,其值通过计数后获得,因此也称计数资料(enumerationdata)。(1)二项分类。表现为互相对立的两种结果。(2)多项分类。表现为互不相容的多类结果。(二)定性资料(计数资料)2.有序分类变量资料(半定量资料)有序分类变量:将观察单位按某种属性的不同程度分成等级后分组计数。因此也称为等级资料(rankeddata)。例.测量200人红细胞数,过低10人,正常160人,过高30人。又如:问卷调查常问对某件事情的满意程度,给出5项答案极不满意、有点满意、中度满意、很满意、极满意,请对象挑选。(二)定性资料(计数资料)(二)三类数据间的关系例:2040岁100个成年人的血压以12kPa为界分为正常与异常两组,统计每组例数8低血压8正常血压12轻度高血压15中度高血压17重度高血压定量资料等级数据定性资料住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月观察单位observations个体individuals变量variablesQuantitativedata定量资料Qualitativedata定性资料Units;elements想一想三种统计资料的区别:•三种资料有规律,计量计数和等级;•计量资料有单位,一般都是连续的;•计数资料没单位,一般要靠数数字;•等级计数很相像,特点就是爬楼梯。练一练观察某人群的体温值,(30℃、36.5℃、34.8℃、39℃、36.2℃、37℃、35.7℃、36℃、38.2℃、36.5℃)如果正常值在35~37℃之间,如何用计量资料,计数资料和等级资料对其进行描述?(三)变量的转换变量只能由“高级”向“低级”转化:•定量→有序→分类。•如上述“体重”变量属数值变量,如按体重小于2500g为低体重儿,大于2500g为正常儿,则“体重”变量转化为二项分类变量。注意:这种转换可能损失部分信息。主要内容第一节统计学中的几个基本概念第二节统计资料的类型第三节统计工作的基本步骤第四节统计表与统计图统计设计收集资料整理资料分析资料统计调查、实验描述统计推断统计基本步骤:——统计设计(Design):医学统计设计(design)是根据特定的研究目的,对一项医学科学研究的全过程进行科学、有效和周密的计