医学统计学概论第一章基础知识第一节什么是统计学?什么是医学统计学?统计学(statistics)来自拉丁语中的国家(status),历史上指的是,一个国家政府要求的来自各个地区的资料,例如,税收,农作物的种植等等.现在所说的统计学是:设计(design);收集数据(datacollection);整理数据(sortingdata);分析数据(analysis)的一门学科.使用统计学的目的是,从大量观察数据中得到规律性的结论.统计学是一门收集和分析数据的艺术(art).把统计学应用到医学领域中就是医学统计学.北京某医院某大夫用“乌贝散”治疗胃溃疡出血107例,有效101例,有效率为94.4%。问别的医院是否有效率也是94.4%?某临床医生研究两种药物治疗脱发的效果,两药均观察了20例患者,甲药,乙药有效率分别为75%和95%。能否认为乙药优于甲药?北京某医院有位老大夫,用冠心灵治疗冠心病,其对照组用西药.观察结果如下:冠心灵与单纯西药疗效显效有效无效合计单纯西药925640冠心灵1918542请问冠心灵是否比单纯西药有效?用某种中草药治疗玫瑰糠疹,有效率为78%,平均疗程3周.由于玫瑰糠疹不服药3周后也可自愈.问:此药是否的确有效?上述这些问题都涉及到统计分析,只有正确运用统计分析方法,才不会造成不应有的缺陷或得出错误的结论.医学统计学的内容分为两部分:描述性医学统计学(descriptivestatistics):从数据计算均数,标准差,率,构成比等推断性医学统计学(inferentialstatistics):从样本统计量推断总体参数,从多样本统计量推断多总体参数有无差别.第二节数据(data)及其分类(category)•统计学研究的对象是数据俗话说“用数据说话”,指的就是结论要有数据支持,不能凭空瞎说.得到数据的方法有两种:观察:观察者处于被动的地位,记录下“自然而然”发生的结果,不去改变所观察的事物.如,研究吸烟和肺癌之间的关系,可以记录下被调查者是否吸烟,每天吸多少只烟,是否患肺癌.但是不能也不会改变被调查者的状况.在流行病学调查中是常见的.•试验:观察者处于主动的地位,记录下“试验条件下”发生的结果.如,研究一种药物的疗效,可以找具有相同条件(性别比,年龄,患有同样的疾病,病程相同等)的两组人群,其中一组人群不服用该药(称为对照组),另一组人群服用该药(称为治疗组),经过一个疗程,记录他们的数据(如,生化指标等).从而研究该药有无疗效.在临床医学和基础医学研究中是常见的.数据分类1.计量数据(quantitativedata):有单位,有数值大小的数据.例如:身高(米),体重(千克),血压值(mmHg),脉搏数(次/分)等.例某农村地区1999年14岁女孩的身高(厘米)142.3137.9142.2148.8140.5150.8140.5141.8144.0142.5数据分类2.分类数据(categoricaldata):记录频(个)数的数据.细分为两种:2.1.无序分类(名义)数据(nominaldata)例如;血型(A,B,AB,O),性别(男,女)等.血型胃溃疡胃癌正常合计A98338328924258B67941626253720O13484570788计算患病率血型胃溃疡胃癌正常合计O98323.1%3839.0%28924258A67918.3%41611.2%26253720B13417.0%8410.7%570788数据分类2.分类数据(categoricaldata):2.2.等级(有序)资料(ordinaldata)例如;病情的轻,中,重等.甲亢病人与性别的关系。性别轻中重合计男14171344女324638116计算构成比性别轻中重合计男1431.8%1738.6%1329.5%44女3227.6%4639.7%3832.8%116第三节统计学的基本概念1.随机变量:变量是一个数学名词.变量被用于描写事物特征,用字母表示,如:用x表示身高,用sex表示性别等.变量可以在某个连续范围中取值,叫连续随机变量(continuousvariable):取连续值(计量数据)的变量.变量只能取某些固定的(分类)值,叫分类变量(categoricalvariable):取分类值(分类数据)的变量.使用一个变量描述研究对象的统计学称为一元统计学,使用多个变量描述研究对象的统计学称为多元统计学.2总体和样本总体(population):观察对象(同质个体)的全体称为总体.总体可以是观察的人群或动物,也可以是指标.例如:高血压患者;高寒地区人群的脉搏数.样本(sample):随机地从总体中抽出的部分对象(同质个体)的集合.有时也称为有代表性的部分.总体与样本的关系是:总体样本3参数和统计量参数(parameter):总体的数值特征.用小写希腊字母表示.均数(),标准差(),方差(2),标准误等.率(),构成比,率的标准差等.统计量(statistic):样本的数值特征.用拉丁字母表示.均数(X,x),标准差(S,s),方差(S2,s2),标准误等.率(p),构成比,率的标准差等.4概率(probability)客观世界中事物的发生有两种形式:确定的.如:在一个大气压下,水在摄氏100度时沸腾.平抛运动的轨迹是抛物线(牛顿第二定律).等等.不确定的.如:投掷一枚硬币,正面向上还是背面向上,投掷前是不能确定的.只有投掷后才知道.但是,投掷次数多了,可以知道正面和反面的次数大致相等.试验结果描述不确定事件发生的可能性的数学量是概率.概率:事件发生的可能性.用一个实数表示,大于等于零,小于等于1.必然事件的概率为1,即P(U)=10≤P(A)≤1我们用P(A)表示事件A发生的概率,则不可能事件的概率为0,即P(V)=0例如:天气预报中的今天下雨概率是60%,你怎么理解?掷骰子出现1点的概率是1/6,你怎么理解?正确的理解是:如果出现像今天这样的气象条件,温度,湿度,风向,风力等100天,那么会有60天下雨.如果掷骰子6次,那么会出现1次1点5统计研究设计的原则•统计学方面的设计是医药卫生科研设计不可或缺的部分。医药卫生科研主要有两大类:干预性研究和观察性研究。四个原则:对照,重复,随机和均衡安慰剂对照空白对照对照实验对照自身对照标准对照安慰剂对照空白对照对照实验对照自身对照标准对照整个实验的重复重复用多个受试对象重复同一受试对象的重复观察整个实验的重复重复用多个受试对象重复同一受试对象的重复观察随机化方法:1完全随机化:直接对受试对象进行随机化分组。2分层随机化:对影响实验过程和结果的混杂因素分层,在每一层内完全随机化。均衡:在设立对照时除给予处理因素不同外,其它对实验效应有影响的因素(非处理因素)尽量均衡一致。6抽样方法•1单纯随机抽样•保证总体中的每一个个体都有同等的机会被抽出来作为样本的抽样方法,称为单纯随机抽样,或简单随机抽样。2分层随机抽样先将总体全部个体按某种特征分成若干层,再从每一层内随机抽取一定数量的个体合起来组成样本。3整群抽样先将总体分成若干群体,从中随机抽取几个群体组成样本;对抽中群体的全部个体进行调查,称为整群抽样.三种抽样方法比较单纯随机抽样分层随机抽样整群抽样优点简单直观,均数及标准误计算简便.减少抽样误差,可对不同层进行独立分析便于组织,节省经费;容易控制调查质量缺点总体较大时,编号麻烦,样本分散,不易组织调查.分层变量选择不当,会使分层抽样失去意义抽样误差大适用范围总体不太大的情形层间差异较大的对象群间差异较小的情形中华医学会系列杂志对统计学处理的有关要求:1统计研究设计合理2资料的表达和描述正确3正确选择统计分析方法4正确解释和表达统计结果