医学统计学MedicalStatistics公共卫生学院卫生统计学教研室白志茂djq87@163.com第一章绪论Chapter1:Introduction1.1引言医学统计学研究对象与研究目的研究对象:医学中的随机现象研究目的:揭示医学中随机现象的数量统计规律统计学思维和方法已经渗透到医学研究和卫生决策之中自然现象和社会现象的分类按在一定条件下是否必然出现可分为:A.必然现象B.偶然现象(随机现象)A.必然现象:在一定条件下必然发生a.水从高处流向低处b.太阳从东边升起c.同性电荷互斥d.在一个标准大气压下,水加热到一百摄氏度会沸腾e.人总会死亡B.随机现象:事先无法预知其结果的现象a.相同条件下掷一枚均匀的硬币,观察正反两面出现的情况b.抛掷一枚骰子,观察出现的点数.c.用同样的药物治疗病情相同的病人,观察疗效统计学的根本任务,在于揭露隐藏在偶然现象背后的必然性,发现事物的统计规律例如:①出生婴儿的性别比②投掷硬币出现正反面规律③投掷骰子出现各点的规律统计学是研究数据的搜集,整理与分析的科学,面对不确定数据作出科学的推断或预测,直至为采取一定的决策和行动提出依据和建议Thescienceofcollecting,organizing,presenting,analyzing,andinterpretingnumericaldataforthepurposeofassistinginmakingamoreeffectivedecision.医学统计学是以医学理论为指导,借助统计学的原理和方法研究医学现象中数据的搜集,整理,分析和推断的一门应用性学科统计学的发展简史1.统计学起源于17世纪中叶,最初的统计是一种计数活动,意指事实与数据,称为古典统计学.研究方法:形式逻辑的比较法和文字记述2.18世纪后叶,开始重视数字资料和图表描述,标志着近代统计学的开始研究方法:主要是建立在大样本上的大量观察法3.1908年,英国统计学家戈赛特以笔名student发表了t分布,开始了小样本的研究.从而使统计学由”描述统计”向”推断统计”发展,开创了现代统计学的新纪元4.20世纪50年代起,电子计算机技术的发展和普及,促进统计方法的应用和发展常用统计软件:SAS,SPSS,STADA等统计学经济学管理学医学工程学社会学…1.1.1医学统计学的主要内容1.医学研究统计设计2.分布理论3.统计描述4.参数估计与假设检验5.相关与回归1.1.2学习医学统计学的目的与要求目的1.使大家具备新的推理思维,学会从不确定性和概率的角度去考虑问题(借你一双慧眼!透过现象看清本质)2.学会结合专业问题合理设计试验,通过精细的试验观察获得可靠、准确的资料注:统计学的主要作用是体现在“统计研究设计”上3.学会正确运用统计方法充分挖掘资料中隐含的信息,并能恰如其分地作出理性概括,写成具有一定学术水平的研究报告或科学论文。注:几乎所有的医学期刊都要求对医学论文中报告的实验或观察数据进行统计1.1.3如何学好医学统计学数字是信息载体,应重视原始数据的完整性和准确性,对数据处理持严肃、认真、实事求是的科学态度,反对伪造和篡改统计数字,真实性是统计的生命统计亦离不开公式和计算:注意统计公式与方法的用途、应用条件.多做练习。统计不是万能的:统计只能认识规律而不能“创造”规律。对统计结论的解释也要由专业知识解释如:对出生性别比(103~107:100)的认识和解释统计分析手段需要有正确的医学理论作指导,不能将医学问题归结到纯粹的数量问题,否则会归纳出错误的结论如:在样本容量较大时,统计上有显著性和临床上有实际价值有时候是两码事实例:采用某种降压新药和传统药物治疗高血压病人,各500例,新药比传统药物平均多下降0.5mmHg.1.2几个基本概念1.2.1同质性质相同的事物称为同质的,否则称为异质的或间杂的。观察单位间的同质性是进行研究的前提不同研究或同一研究中不同观察指标对观察对象的同质性的要求不同,即同质是相对的。如研究身高和红细胞数、血红蛋白等指标时,男女是异质的,而在研究白细胞数指标时又是同质的。1.2.2变异同质的事物之间的差别称为变异例如:南京市10岁男孩的身高参差不齐没有变异就无需统计学变异表现在两个方面,其一,个体与个体间的差别;其二,同一个体重复测量值间的差别变异是由于一种或多种不可控因素(已知的和未知的)以不同程度、不同形式作用于生物体的综合表现1.2.3总体、个体和样本总体(population):是根据研究目的所确定的同质观察单位的全体;个体(individual):是构成总体的最基本的观察单位;样本(sample):是从总体中随机抽取的一部分个体;样本中所包含的个体数称为样本含量(samplesize)有限总体与无限总体1.2.4变量、随机变量与资料类型个体的特征或指标称为变量.变量的取值称为变量值或观察值新生儿的特征指标:性别、体重、身长、是否畸形、血型数值变量(定量变量)其取值是定量的,表现为数值大小,一般有度量衡单位,亦称计量资料如:患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012/L)、血红蛋白(g/L),血磷测定值(mmol/L)分类变量(定性变量)其取值是定性的,表现为互不相容的类别或属性如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)1.无序分类:包括①二项分类。表现为互相对立的两种结果。如:性别(男,女);考试成绩(及格,不及格)②多项分类。表现为互不相容的多类结果例如:血型:A,B,AB,02有序分类:各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量如:疗效:治愈,有效,无效贫血:轻度,中度,重度化验结果:,,,++,+++癌症分期:早,中,晚根据分析需要,变量间可以转化如:血红蛋白一般为数值型变量按血红蛋白正常异常分为两组,则为无序分类;若按其含量分为五个等级:60g/L(重度贫血)、60~90g/L(中度贫血)、90~125g/L(轻度贫血)、125~160g/L(血红蛋白正常)、160g/L(血红蛋白增高),则为有序分类注:转换并非双向的,只能由高级到低级转化数值变量有序分类无序分类三类变量间关系例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数8低血压8正常血压12轻度高血压15中度高血压17重度高血压数值变量有序分类无序分类注:正确识别统计资料类型是合理选用统计分析方法的首要前提!两项分类binarydata性别,是否吸烟多项分类polytomousdata血型无序分类nominaldata有序分类ordereddata化验结果定性数据qualitativedata定量数据quantitativedata身高,体重资料类别1.2.5统计量与参数由样本所算出的统计指标称为统计量如样本均数,样本方差,样本率P等反映总体特征的指标称为参数如总体均数,总体方差,总体率总体参数是事物本身固有的,不变的。而统计量则随着试验的不同而不同,但统计量的分布是有规律的,这种规律是统计推断的理论基础X2S21.2.6抽样误差样本统计量与总体参数间的差别称为抽样误差样本的抽样误差是不可避免的,但抽样误差的规律是可以被认识的,因而是可以控制的1.2.7频率与概率在n次随机试验中,事件A发生了m次,则比值f=m/n称为事件A在这n次试验中出现的频率(frequency)。m称为频数。频率常用小数或百分数表示,显然有:1≥f≥0医学上通常所说的患病率、病死率、治愈率等都是频率。在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性表1.1历史上投掷硬币试验的记录试验者投掷次数正面次数正面频率DeMorgan204810610.5181Buffon404020480.5069PearsonK1200060190.5016PearsonK24000120120.5005频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概率(probability),记作P(A)或P,是对事件A发生的可能性大小的一个度量。概率越大出现的可能性越大10p正如身高是对体长的度量,体重是对身体质量的度量一样,概率是对事件发生可能性大小的度量。2米26(134kg)的巨人姚明(80.9.12)1米74.5(68kg)的谢霆锋(80.8.29)1.2.8小概率事件及小概率原理医学研究中,将概率小于等于0.05或0.01者称为小概率事件。例如:买彩票中特等奖,客机坠毁。小概率事件不是不可能事件一般认为小概率事件在一次试验中是不会发生的,这就是小概率原理。小概率原理是统计推断的一条重要原理返回RonaldA.Fisher(费歇尔,1890~1962),英国统计学家和遗传学家,现代统计学的奠基人Fisher在1938年印度统计学大会演讲时说:“做完实验后才找统计学家,就好像要他作尸体解剖。他会说,这实验‘死’于什么原因”。