研究生医学统计学-绪论

tonysem
2 ℃
2020-01-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

医学统计学(MedicalStatistics)课程设置•课时：72学时，4学时/周，共18周•教材：方积乾主编生物医学研究的统计学方法•承担单位：青岛大学医学院公共卫生系流行病与卫生统计学教研室•授课教师：姜秀波注意•每人准备一块能够进行统计运算和相关回归运算功能的计算器.医学统计学授课主要内容•绪论•定量及定性资料的统计描述与统计推断•统计图表•关联性分析•简单线性相关与回归•生存分析•医学科研设计•流行病学资料分析*•统计学软件使用简介*如何学习医学统计学?（特点：抽象)•理解基本的统计学原理•培养统计思维能力：抽象的逻辑推理–阳性结果是否是虚假联系（如治疗感冒药有效）–阴性结果是否真是阴性（可能样本含量小）•多练习：课堂认真听讲，课下多做习题（要求：上课带计算器）•联系实际：阅读文献联系工作和生活实际统计学发展及有关问题20世纪20年代，英国统计学家R.A.Fisher爵士（1890-1962）创立了实验设计方法和统计分析技术，奠定现代生物统计的基础。1948年，英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告，第一次采用生物统计方法进行临床干预试验。1948年，郭祖超教授（1912~1999）编著的《医学与生物统计方法》，是我国第一部医学统计方法的教科书。1.实例遗传学家F.Galton爵士（1822-1911）对上千家庭父亲身高和儿子身高的观察发现遗传的“回归”现象1960年英国医生Doll，Hill等发现吸烟与肺癌有关2.医学论文中的统计学问题60年代到80年代，国外医学杂志调查结果：有统计错误的论文20%~72%。1996年对4586篇论文统计（中华医学会系列杂志占6.9%），数据分析方法误用达55.7%。3.伪造统计数据违反科学道德1976年NewScience杂志关于科研舞弊行为的调查（1）74%的调查表反映有不正当修改数据的情况（2）17%拼凑实验结果（3）7%凭空捏造数据（4）2%故意曲解结果绪论一、医学统计学定义（medicalstatistics）•医学统计学是运用数理统计的原理和方法，研究医学领域中数据的收集、整理与分析的一门应用科学。它是认识医学现象数量特征的重要工具。二、统计学研究的对象•统计学所要研究的对象是在性质相同基础上有变异的事物或现象•有关概念：同质与变异同质（homogeneity）•同质是指被研究的指标（变量）的影响因素相同。•同质是相对的。•在统计学中，同质可以理解为：影响被研究指标较大的、可以控制的主要因素尽可能相同即可视为同质。•研究对象的同质是使研究结果反映事物客观规律的基础。变异（variation）•变异是指由于已知的或未知的多种因素的综合影响，使看起来同质（即具有可比性）的个体的某项指标存在差异。•变异使得观察研究或实验研究的结果具有不确定性，但在一定数量观察的基础上，不确定性现象能够呈现事物的规律性。同质与变异的例子•例1调查2003年青岛市7岁男童的身高和体重同质：2003年、青岛市、7岁、男童变异：每位儿童身高和体重各不相同•例2研究某降压药的疗效同质：高血压患者、用某药治疗变异：疗效各不相同•例3：调查某地1995年正常成年女性的糖化血红蛋白(HbA1C)•研究对象:该地1995年的正常成年女性•同质：同一地区、同一年份、同为正常成年人和同为女性构成了研究对象同质的要素。•变异：每个人的糖化血红蛋白测量值不相同。•同质的要求与研究目的有关•如调查某地1995年正常成年女子的雌性激素水平，尽管研究对象是同一地区、同一年份、同为正常成年人和同为女性，由于女性在绝经后的雌性激素水平有较大下降，如果研究者把绝经和未绝经的研究对象混合在一起，并且不加区分，则对于研究雌性激素水平而言，这些研究对象显然是异质的。三、几个基本概念•例：研究1998年某地7岁男孩的身高情况•假如该地在1998年的7岁男孩有10万人。–普查：调查这10万名儿童，测量他们的身高，然后进行统计分析。但是工作量非常大。–随机抽样：如调查200名儿童，测量他们的身高，通过分析这200名儿童的身高推断该地10万名7岁男孩身高情况。•研究目的：了解1998年某地7岁男孩的身高发育情况。•研究对象：该地在1998年的10万名7岁男孩。•观察单位(个体)：每名7岁男孩。•观察指标：身高(观察指标又称为变量)；身高的测量值(观察值又称为变量取值或变量值)。•总体：该地1998年的10万名7岁男孩身高观察值的全体(即：10万个身高观察值构成的一个集合)。这10万名7岁男孩的身高平均数在这个研究中称为身高的总体均数，•样本：随机抽样所得到的200名7岁男孩身高观察值。这200名7岁男孩的身高平均数在这个抽样研究中称为身高的样本均数。•抽样研究的目的:通过样本的信息，了解推断总体的情况。即：通过分析200名7岁男孩的身高了解10万名7岁男孩身高情况。(一)观察单位（observationunit）•根据研究目的所确定的最基本的研究对象单位。•根据不同的研究目的，观察单位可以是一个人、一只大白鼠、一个家庭、一个地区、一个检测样品、一个采样点等。例如，观察单位是一个人，则100个观察单位就是100个人；又如观察单位是检测样品，则50个观察单位就是50个检测样品。（二）变量（variable）•对观察单位（即个体：一个人、一个家庭或一个地区等）的某项特征或属性进行观察和测量，所得指标称为变量。•观察和测量的结果称为变量值或观察值（valueofvariable）。观察值可以是定量、半定量或定性的.表1-110名妊娠分娩妇女的有关数据住院号年龄（y）身高（cm）体重（kg）职业文化程度住院天数（d）分娩方式妊娠结局200400012516276.0其它中学9顺产其它200400023215360.0其它小学7剖宫产足月200400032815864.0其它中学10剖宫产足月200400042916268.0工人大学8剖宫产足月200400052715868.0农民小学6顺产其它200400063915866.5工人中学8剖宫产其它200400072316268.0其它小学11剖宫产其它200400082016270.5管理人员大学4顺产足月200400092716071.5其它中学3顺产其它200400102216270.0工人大学7剖宫产足月1、定量变量（数值变量）（numericalvariable）•是指观察单位所具有的变量值是定量的，表现为数值的大小，一般有度量衡单位。如身高、体重、血红蛋白、血压。•又可分为两类：–连续变量，如年龄、身高、体重。–离散变量，如住院天数、脉搏（次/分钟）。2、定性变量（分类变量）（categoricalvariable）•是指观察单位所具有的变量值是定性的，表现为互不相容的类别或属性。如性别、职业、文化程度、疗效。•又可分为两类：–名义变量（无序分类），即分类之间没有顺序、等级、大小关系，类别只代表名称或标签的含义，没有数量的意义，如血型、职业、民族。•两项分类,如性别•多项分类,如血型、职业、民族等。–有序变量（有序分类），即分类之间有一定顺序或分类的排列有程度差别。如文化程度、疾病严重程度等。3、变量的转化•不同类型的资料采用不同的统计分析方法。实际应用中，根据分析的需要，各类变量间可以互相转化。如：血红蛋白量（g/L)：疗效：正常：0无效：0重度贫血好转：1异常：1中度贫血控制：2轻度贫血治愈：3血红蛋白增高图1-1统计数据的变量类型变量定量变量（数值变量）定性变量（分类变量）连续变量离散变量有序变量量名义变量二项分类多项分类二项分类多项分类（三）统计资料的类型*•定量资料•定性资料–名义分类（无序分类）变量资料–有序分类变量资料1、定量资料•又称为数值变量资料，计量资料•对每个观察单位用定量的方法测定某项指标数量的大小所收集的资料•观察单位之间只有量的差别，没有质的不同。•如患者的身高（cm）、体重（kg）、血压（mmHg）、脉搏（次/分）、红细胞计数（10１２/L）。2、定性资料2.1名义分类变量资料•又称无序分类变量资料，计数资料•将观察单位按照某种性质或类别进行分组，然后计数各组的观察单位数所得到的资料•观察单位之间只有质的不同，没有量的差别。如肤色（黑、白）、血型(ABO）、职业（工农兵）、性别（男女）、民族、国籍。2.2有序分类变量资料•又称等级资料•将观察单位按照某种性质或属性的不同程度分组，然后计数各组的观察单位数所得到的资料。•与无序分类变量资料的不同点为：属性分组有程度的差别，各组间按不同程度顺序排列；•与定量资料的不同点为：每个观察单位没有进行确切定量。•如：①癌症分期：早、中、晚。②药物疗效：治愈、好转、无效、死亡。③尿蛋白：，，++,+++及以上住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月观察单位observations变量variables定量资料（数值变量资料）定性资料（分类变量资料）Units；elements胆管癌患者部分指标编号性别年龄（岁）部位分化程度分期肝转移PCNA指数生存时间(月)（1）（2）（3）（4）（5）（6）（7）（8）（9）1男61上低分化Ⅰ阳性52142女58中高分化Ⅱ阴性89203女63上高分化Ⅳ阴性93194女71下中分化Ⅱ阳性7855男59上高分化Ⅲ阴性8535………………………体重指数身高班制劳动强度紧张程度心率嗜肥肉史收缩压舒张压中风家族史（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）12.241.6211370114690有16.471.6331372011070无15.191.6412272010070无15.591.6311384111470无12.601.6431368111668无…………………………4.三类资料间关系例：一组2040岁成年人的血压以12kPa为界分为正常与异常两组，统计每组例数8低血压8正常血压12轻度高血压15中度高血压17重度高血压数值变量资料无序分类变量资料有序分类变量资料（四）、总体与样本populationandsample总体(population)•根据研究目的确定的性质相同的观察单位的全体，即性质相同的所有观察单位某一变量值的集合。•总体又可分为：有限总体和无限总体。样本(sample)•在抽样研究中，从总体中随机抽取一部分有代表性的观察单位，称为样本。或从研究的总体中随机抽取一部分有代表性的观察单位某一变量值的集合。•研究样本的目的是通过样本来推论总体。随机化randomization为了保证样本的可靠性和代表性，需要采用随机化的抽样方法（在总体中每个观察单位被抽到的机会相等）。（五）参数与统计量parameterandstatistic样本随机抽取部分观察单位统计量参数推断inference总体参数(parameter)•在统计学中，把描述总体的统计指标，或描述总体特征的指标称为参数。•总体参数一般用希腊字母表示，如总体均数、总体标准差记为μ和σ、总体率记为π等。•总体参数一般是未知的，而且是固定不变的。统计量(statistic)•在抽样研究中，根据样本变量值计算出来的描述样本的统计指标或描述样本特征的指标称为统计量。•样本统计量用拉丁字母表示，如样本均数和样本标准差记为、样本率记为p等。•样本统计量随样本不同在参数附近随机波动。•抽样研究的目的是要由样本统计量来推断总体参数，包括区间估计和假设检验。Sx、（六）误差（error）•概念–误差：一般