第1章统计学:处理不确定性问题的算术1.1什么是统计学每位同学都是非常老道,善于决策的统计工具假设你在光华大道上一边开车,一边聊天。在你前面的司机突然刹车,你会怎么办?生命的每一天,都要进行大量的抽样评估和作出决定,大脑具有一种卓越机制,能够进行复杂统计,换句话说,你已经是某种类型的统计学家了。1.2研究的基本原则什么是研究?为什么要进行研究?研究是对周围世界及自身系统性提出一系列问题的行为。大学生进食障碍研究:1.查阅相关文献并进行描述进食障碍如何发生2.设计研究方案预测谁可能受到影响3.寻找引起障碍的原因,以期寻找方法进行预防和控制统计学(statistics)是一种处理数据的方法研究设计:搜集数据以便为具体问题提供答案的系统性计划就称为研究设计(researchdesign)。1.提出问题问题答案往往具有不确定性,研究与分析往往发生在不确定情境之中2.详细计划与精确观察、记录决定研究的成败3.研究可以在任何情景下进行,涉及各种问题4.多数研究的结果会以数字呈现,称为数据。结论的有效性取决于研究设计的性质和搜集数据的质量如果输入的数据是无用的,则统计输出的结果就是一堆垃圾研究开始就必须考虑统计学工具,如果先搜集数据,再考虑怎样分析数据,就会遇到许多麻烦和痛苦1.3基本统计术语变量(variable)根据研究目的,对研究对象的某个特征(研究指标或项目)实施观测,这些特征(指标或项目)称为变量(variable编号医院年龄性别体重痰涂片痰培养皮试直径6月后存活001A68F56.4阳性阴性18是002B63M74.5阳性阴性16是003D65F57.3阴性阳性21否004C70F65.6可疑阳性28是………………………100D43M66.4可疑阳性14是表1-1肺结核治疗部分病例的观察结果自变量(independentvariable)指实验者能够操纵和控制的变量,其目的在于预测自变量对因变量的效果。或描述和解释不同的自变量水平或数量所导致的因变量的差异。因变量(dependentvariable)指研究者进行检验、测量和描述的变量。例如百米短跑比赛,先接受具体指导,再记录跑完100米所用的时间,则具体指导是自变量,时间是因变量。数据(data)指研究者搜集到的作为观测结果的数字或测量结果。数据可以是计数数据、等级数据、测量数据总体(population)总体是指具有某些共同特征的所有个体、事物或测量数据的集合总体可能是一个观测到的假设集合,而不是真正的“完全集合”。例如测试一种新的药物效能,总体可以是理论上能够加以施测的所有个体。样本(sample)样本是总体的一个子集,通常用来代表总体。参数(parameter)描述总体的特征数称为总体参数,简称参数,用μ(猫的叫声)和σ(西格玛)表示。样本平均数用表示X从样本搜集到的数据的有效性取决于样本的代表性和样本的抽取方法。被试:样本中那些被选择的个体称为被试(subject)参与者:期刊文章中用于实验的人类(participant)随机样本(randomsample):总体中每个个体都有等可能被选上,用这种方法选择的样本就是随机样本,是总体的一个子集。多数实验中,研究被试都不是随机选取的,例如心理学家、医生通常用身边的被试进行研究。被试年龄(月)性别时间(秒)男孩玩具女孩玩具0135F19280229M27240326M13140431F9290537M2515资料栏1-1常用术语举例从一个幼儿园全体儿童中随机抽取20名,单独观测每个儿童一小时,用秒表记录儿童玩玩具所用的时间。数据见表,进行填空。1.全体儿童称为:2.这20名儿童称为:3.年龄、性别和时间称为:4.秒表测量结果称为:5.20名儿童的平均年龄和玩耍时间称为(),为什么?抽样的原则:避免选样方法与研究变量之间有任何联系。随机分配(randomassignment)是将每一被试分配到实验情形的一种方法,每一被试被分配到每一情境中的机会是均等的。其目的是减少偏差,尽量保证每个实验组的被试的同质性。统计量(statistics)根据一定程序对样本数据进行处理所得的数字1.4关于研究目标的一些术语随研究者使用其技能的环境不同,研究问题的类型也不同。研究目标可以界定为:搜集信息、描述关系、组间比较、建立因果关系。1.4.1搜集信息----描述性研究描述性研究(descriptivestudy)是对事物当前状态的一种精确描述研究结果常与先前研究进行比较,借以判断它是否随时间变化而发生系统变化?或者看一下研究组与其他组或与总体比较有无不同?研究1:“给你500万,你会将你家宠物丢到悬崖下吗?”研究2:体重自我觉察的研究自我觉察行合计体重不足超重女性41919952414男性9598551814列合计137828504228表1-2青少年认为自己体重不足或超重的一个样本数据1.4.2描述关系----相关性研究研究两个或多个变量是否“相关”?*统计课上,同学的“数学焦虑”与选择座位与讲台的距离有关吗?高焦虑的同学是往前坐还是往后坐呢?*高考分数与大一平均绩点之间有关吗?*病人的不同年龄与门诊费用有关吗?*学生人数与某餐饮连锁季度销售收入有关吗?类似问题的研究称为“相关”(correlational)研究。1.4.3完整组比较---非随机分配被试的个体组有时我们观测的个体组成员在许多方面特点不同*社会情境中,吸烟者比不吸烟者看起来更烦躁或紧张。*男生喜欢放大摇滚音量,而女生则不然。*甲老师比乙老师给分高如果你的确曾经考虑过组间差异的问题,你能够理解你所生活的世界并预测未来。完整组比较研究(intactgroupcomparisonstudy)定义:完整组比较研究是对多个完整组进行比较,以确定两个或多个特点或变量是否存在组间差异的研究。构成:完整组的成员是由被试在研究中的共同行为、特点或特质所决定的。组中的个体既不是根据研究者命令进行分配,也不是随机分配。*吸烟组与非吸烟组的行为或健康比较研究*抑郁症与非抑郁症病人的比较研究*两性的比较研究,就是分为男性和女性两组要区分已经存在的研究组和实验者控制分配被试的研究组。因为分配被试的方法会影响到数据乃至结论。完整组设计探讨的只是两组之间是否存在某些测量差异。不一定能够推论出因果关系。*例如民主党人和共和党人之间是否有差异。*吸烟和不吸烟的母亲,所生婴儿体重有差异吗?*从夏令营中随机选取10名肥胖儿童和10名正常体重儿童,安排他们在游泳池玩1小时,用秒表记录他们在游泳、跑步或跳跃上所花费的时间。如果研究者用秒表记录了肥胖儿童活动时间为120分钟,正常儿童活动时间为300分钟,是否能够得出肥胖儿童会引发运动减少的推论吗?完整组未弄清楚的问题:A→B体重影响活动水平B→A活动影响体重水平BAC第三因素影响体重与活动水平1.4.4建立因果关系---实验研究“若A则B”的论断是任何科学研究的最终目标,但并非易事1.契合法(methodofagreement)需要认真研究发生同一事件的若干案例,目的是寻找其共同要素。如果能够找到一个,则可以怀疑这个要素是引发事件的原因。*吸烟是引发肺癌的一个共同要素,正确吗?*酒鬼说:水喝多了我就会醉,正确吗?契合法本身对因果关系的确定并不充分。2.差异法(methodofdifference)我们观察的两个情境,如果所有方面都相同而仅有一点不同。如果发现有不同的效果,我们就认为是这一点不同造成的,实验法源于此。*例:研究酒精对完成感觉活动任务所产生的影响。完成任务的成绩是因变量,是我们关心的结果。而酒精是自变量。将被试随机分为两组,一组喝酒精,另外一组喝安慰剂,使用双盲法。让这两组人进行模拟驾驶活动如果在两组中发现足够大的差异,则可以推断是酒精导致了这种差异。而判断“足够大的差异”是推论统计的核心。3.契合差异综合法:契合法提出假设,差异法检验假设。酒鬼的假设是“水能让我喝醉”,可以通过差异法来检验这个假设,让酒鬼一个晚上喝水,另外一个晚上喝酒。假定他愿意诚实和客观,他会得出正确结论。但是,推理并不总是理性的,酒鬼可能会说:“这是一种神奇的酒,如果我头天晚上喝了他,它能使我在第二天晚上喝水不会喝醉”。1.5实验法真实验(trueexperiment):真实验情境中有自变量、因变量和干扰变量。⑴实验者必须控制自变量⑵被试必须随机分配到实验组与控制组这种实验必须回答:____对_____的影响是什么?自变量对因变量的影响是什么?*高强度运动1个半小时对心境有什么影响?*对于减肥者而言,具有重要意义的人出现在减肥中心,对减肥效果是否有影响?如果随机分配被试到每一实验情境中,如果在不同组之间发现有因变量(心境改变和体重减轻),可假定这种差异是自变量引起的,而不是起始差异引起的1.6统计分析在研究中的作用研究设计是非常吸引人的主题,但不会贯穿在整个主题中。我们的目标是说明统计是研究中的工具。首先得做研究设计,然后考虑利用统计来组织、总结、解释研究中获得的数据。要注意:再好的统计技术也不能够挽救一个设计很差的研究。研究的顺序是:1.确定研究问题2.设计研究方案3.确定有效的统计方法4.实施研究5.分析数据数据分析:描述阶段与推论阶段1.6.1统计的描述功能原始数据杂乱无章,无法直接获得有用信息,可采用描述统计(descriptiveststistics),其作用:1.组织所搜集的样本数据2.总结由样本得到的结果(图形、平均数、比率等)3.以容易辨识的方式呈现给人们6411275692128436581153111109329794104547938667575810293XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX12345678910111212345678910111264112756921284365811531111093297941045479386675758102931.6.2统计的推论功能推论统计(inferentialstatistics)是通过样本信息对总体进行广泛概括或推论的方法。所有的医学、药学和行为数据都可以进行推论统计。例如我们无法确切知道某种疾病的患病率,但是可采取适当的抽样方法来获得。推论统计的基础是概率论:对世界的终极意义而言,推论统计无法证明任何东西。结论是概率性质而不是绝对的:“概率越大,说明实验变量对因变量的影响的可能性越大”。图1-1总体由失眠者组成,一些失眠者药物成瘾(a),其他不是(●)总体样本描述统计(成瘾者所占比例)推论统计(总体成瘾者所占比例)数据(样本中每个失眠者药物成瘾的情况1.7统计观测案例某地一名牙医观测两名年龄分别为17和28岁牙腐蚀的病人。对他们的个案历史研究发现,他们在药物、职业和饮食均未接触酸性物质。但是,牙医发现一个共同因素(commonfactor)---他们是游泳运动员疾病控制中心给两名运动员所在的游泳俱乐部发放了调查问卷,回收747份。数据由每个人的自我观测结果组成。有以个或以上选择“许多”,或两个以上选择“有时”,就认为有牙腐蚀。747份样本分为两组:一组成员有牙腐蚀,另外一组没有一牙腐蚀。问:这算是一个实验吗?为什么?问:统计分析产生的是什么数据?问:疾病控制中心的目的是什么?回答:这不是一个实验,而是两个完整组的比较,统计分析是计数数据。统计方法是区分不同两组(经常游泳和不常游泳),计算适当的统计量,利用推论统计确定是否有足够大的数字确认两组之间存在差异。案例例1-1着手撰写一份研究计划书,所选研究问题事关人类健康。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,使用什么方法去表达和展示结果等。请保留您的这份作业,并在学完本书后重新翻阅。您发现了什么问题?如何修改?您的收获是什么?小结1、统计学是关于数据收集、整理、分析、表达和解释的普遍原理与方法,而不是单纯搜集数据资料。2、研究目标包括搜集信息、建立联系、完整组比较以及建立因果关系。完成目标需要进行研究设计。3、统计分析的常用术