1预防医学医学统计学方法概述2第六章提纲医学统计学的概念统计学的基本概念统计工作的基本步骤医学统计学的学习要求3一、医学统计学的概念日常生活中的统计学应用如何判断药物的疗效?(假设检验)体育彩票能否中大奖?(概率论)子女为什么象父母,有多象?(相关与回归)政治人物的支持度,民意测验(设计,抽样)不同民族智商测量、税收标准(均数)4一、医学统计学的概念统计学的概念:Statisticsisthesciencedealingwiththecollections,analysis,interpretationandpresentationofmassesofnumericaldata医学统计学的概念:是应用数统计学的原理与方法研究生物医学领域(临床和基础医学领域)中数据的收集、整理、分析和推断的一门科学5一、医学统计学的概念医学专业学生为何需要学习统计学?医学的特点:存在着大量变异、不确定性的量化学科在医学实践中大量应用医疗经验;50%ofwhatyoulearnabouttherapyinthenext5yearsiswrong,thetroubleiswedon’tknowwhich50%医学研究结果的科学解释Asurgeonhadamortalityof66%foraheartoperationinchildrenlessthanoneyearold.Nationallythemortalityrateforthisoperationinthisagegroupwas16/123=13%Hemaybeunlucky.HemaybeoperatingonmoreseverecasesHemayonlyhavedoneafewoperations.Forexample2/3is66%.6二、统计学的基本概念变量、变量值及其分类同质、异质与变异个体、总体与样本参数与统计量抽样和抽样误差频率与概率7变量与变量值在医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标(属性、特征)称为随机变量,简称变量(variable),而观察结果对应的取值称为变量值或资料(valueofvariable)8变量的不同类型多分类二分类binominal定量变量numerical定性变量categorical有序分类ordinal无序分类nominal变量variable9定量变量定义:又称为数值变量、计量资料,指通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料特点:具体意义的数值取值即可以是连续性也可为间断性有度量衡单位如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012/L)10定义:又称为分类变量、计数资料,指将全体观测单位按照某种性质或特征分组,取值表现为互不相容的类别和属性特点:没有度量衡单位取值为某种属性,通常无法直接运算统计时多转化为间断性的计数值如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)定性变量11定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到,分类间有大小强弱之别。特点:没有度量衡单位取值为某种属性各属性有强弱大小之别如:癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。尿蛋白:,,,++,+++及以上有序变量12变量与变量值病例号年龄(岁)性别治疗分组*病程(年)溃疡面积(cm2)上腹部疼痛疗效137男T41.1减轻显效245男C151.8未减轻无效343女C20.7减轻显效454男T91.5未减轻恶化561女T101.2减轻有效…………………………………………8031男C31.0未减轻无效*T为试验药,C为对照药13变量转换变量的分类不是固定、死板的,在一定的情况下,通过相应的规则相互转换例如:测得5人的WBC(个/m3)数如下:300060005000800012000数值变量过低正常正常正常过高分类变量若按正常3人,异常2人分组→二分类变量若按过低1人,正常3人,过高1人分组→等级资料14变量的转换数值变量的性质化转换(制定标准)数值变量→无序分类变量数值变量→有序分类变量分类变量的数量化转换(赋值)无序分类变量→数值变量有序分类变量→数值变量请注意转换后得到的数值变量的含义*数字无大小强弱之别;或有大小之别,却不一定有具体意义15同质和异质具有相同性质的事物(或者决定事物的关键属性和特征相同)称为同质的(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。同质和异质是相对的概念。在不同的情况下同质与异质的标准会发生改变。不同质的个体不能笼统地混在一起分析。16在研究事物的形状时同质和异质示例在研究事物的颜色时17变异同质事物之间变量值的差别称为变异(variation)变异的两个方面:不同观察单位(个体)间的差别同一个体在不同阶段的差别(重复测量)18变异建立在同质的基础上一种或多种不可控因素(已知的或未知的)作用下的综合表现,其结果是不可预知的(随机的)个体变异是普遍存在的;个体变异是有规律的统计学就是要研究变异的规律;没有个体变异,就没有统计学19变异示例在研究事物的颜色时在研究相同颜色事物的形状时20变异示例发热者体温波动正常人体温波动21同质个体变异是有规律的,表现为观察值出现在不同范围中的概率大小随机现象或随机变异都有其固有的分布规律,即概率分布,在大量重复观察的条件下就会呈现其规律性资料分布:称随机变异的规律性为该指标取值的概率分布,简称为资料的分布个体变异的规律性22个体、总体和样本个体Individual:是构成总体的最基本观察单位。总体Population:根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。样本Sample:是从总体中按照一定的目的按照一定的原则抽取的一部分个体。请考虑如何判断样本是否有代表性;抽样研究的目的*随机、样本含量;推断总体信息23总体与样本例:假定某该地在1998年的7岁男孩有10万人,现研究1998年该地7岁男孩的身高情况现在随机抽样调查了解200名7岁男孩的身高情况,测量他们的身高,通过分析这200个儿童的身高推断该地10万个7岁男孩身高情况24总体与样本上述例子中涉及到下列概念:观察单位(个体):每个7岁男孩。观察指标:身高(观察指标又称为变量)观察值:身高测量值(亦称变量的取值)总体:该地1998年的10万个7岁男孩身高观察值的全体(即:10万个身高观察值构成的一个集合)。样本:随机抽样的200个7岁男孩身高观察值25参数和统计量总体参数Parameter:描述总体特征的指标统计量Statistic:反映样本特征的指标在总体被确定之后,总体参数就是唯一的;而统计量是几乎总是随着样本而变的为了区分参数与统计量通常用希腊字母表示参数;用拉丁文字母表示统计量通常参数是未知的,而统计量则可以通过抽样研究得到,故统计学通常用统计量估计参数(参数估计)26误差误差error:实际观察值与真实值之差误差分类:随机误差random非随机误差systematic误差error抽样误差sampling测量误差measurement27系统误差在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)特点:观察值有系统性、方向性、周期性的偏离真值可以通过严格的实验设计和技术措施消除。28随机误差排除上述误差后尚存的误差,受多种无法控制的因素的影响。特点:大小方向不一的随机变化随机测量误差randommeasurementerror:不可避免,提高操作者熟练程度可以减少这种误差随机抽样误差randomsamplingerror:由抽样造成的样本统计量和总体参数间的差异,不可避免,但有一定的分布规律,可估计29频率和概率频率Frequency:在n次随机试验中,事件A发生了m次,则比值称为事件A在这n次试验中出现的频率nmf总试验次数随机事件发生的次数30频率和概率抛硬币试验在概率的统计学定义上的诠释试验者投掷次数出现“正面”次数频率X20120.6000Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.500531频率和概率概率的统计学定义:数理统计学中的大数定理表明:当观察次数n越来越大,频率f的波动幅度越来越小,并最终趋向于一个常数p:随机事件A发生的概率(Probability)。概率描述了随机事件发生的可能性的大小,是一种参数;频率作为概率的估计值,是统计量0≤P≤132小概率事件小概率事件医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。小概率原理小概率事件并不表示不可能发生,但在某一次试验中,由于其发生的可能性十分小,近似认为是不会发生的。33三、统计工作的步骤(了解)研究设计:正确、周密的设计是研究成败的关键资料收集:准确可靠。来源:统计报表、工作记录、专题调查或实验资料整理:原始资料的核对、清理、录入、检查资料分析:统计描述和统计推断,由样本估计总体,由样本统计量估计总体参数;阐明事物的内在联系和规律,合理呈现34四、医学统计学的学习要求1984年对中华医学类杂志595篇论文调查:相对数误用11.2%、抽样误差误用15.9%、统计图表误用11.7%1996年对4586篇申报科技成果的论文调查:数据分析方法误用达55.7%2001-2002年对国内外的医学论著调查:误用情况中所占比例最大的来自于常用的基本统计学方法35四、医学统计学的学习要求医学+统计学,重在医学应用建立统计观念,培养统计逻辑多作练习多阅读参考文献