符号说明:★重点☆引导语—派生概念——或()派生分析语句第Ⅰ部分简介与描述性统计★首先提出了1平均数(集中趋势)2对变异性的测量(描述了数据是怎样分布在平均数附近的)第一章统计学入门1.1统计1.2总体与样本☆统计的作用:1整理和总结信息,使研究者看出在研究中发生了什么,并和其他研究者交流结果。2统计帮助研究者回答了引出研究的普遍问题,它根据获得的结果来确定结论是什么。☆研究开始于一个关于总体的普遍问题。——为回答这个问题,研究者研究了一个样本——将结果从样本推广到整个总体。统计是指,整理、总结并解释信息的一系列数学过程。总体在一个特定研究中所有感兴趣个体的集合。(是研究者希望研究的整个组。)—参数用来描述总体的特性。通常是一个数字值。参数可以从单个测量中得到,或从对总体的一组测量中推导。样本从一个总体中选择出来的个体的集合,通常在研究中被期望代表总体。—统计量用来描述样本的特性。通常是一个数字值。统计量可以从单个测量中得到,或从对样本的一组测量中推导出来。(通常,每个总体参数都与一个样本统计量相对应。)数据从个体中得到的测量或观察(其中测量、观察均为名词。)它通常被称为一个分数或原始分数。☆统计分为两类:1描述性统计是用于总结、组织并简化数据的统计过程。它是一种技术,把原始数据组织总结成更易处理的形式。(通常被组织成表或图,或用计算平均数的方法总结一组数据。)2推论性统计是先研究样本,然后将结果推广到样本来自的总体的技术。(通常使用样本统计量作为推论总体参数的基础。)★(它通常回答这个问题:到底是1还是2?其中1是样本中的结果差异只是取样误差。2是样板间的教学差异是由于样本性质(如书中例子中:教学方法)造成的。☆样本只提供了关于总体的有限信息。即使样本可以代表它们来自的总体,但我们不期望一个样本可以给出关于整个总体的精确描述。☆通常,在样本统计量和总体参数间存在一些差异,叫取样误差。取样误差存在于样本统计量和总体参数间的差异或误差的数量。——每个样本都包含具有不同性质的不同个体。由于样本由不同人组成,样本统计量也从一个样本变化到另一个。并且没有一个样本统计量和总体参数完全一致。取样误差的基本理念:样本统计量通常与其相应的总体参数不同,并且根据样本的不同而变化。1.3数据结构、研究方法与统计变量是一种针对不同个体具有不同值的特性或条件。常量是一种不会变化,且对每个个体都相同的特性或条件。相关法观察两个变量并确定它们之间是否存在关系。(2X2表格数据中,对于每个个体,研究者都有两个测量,且所有的测量都是个数。这种表示个数的数据的变量之间的关系,可以用卡方检验。)☆对两组或多组测量来说,会存在其中一个变量被用来定义组别。(例如早餐成绩问题,变量1吃不吃早餐被用来定义组,变量2学习成绩被用来得到每个组的数据)★并且,如果测量过程产生数字值,那么统计评估会包括计算每组的平均数,并比较它们。如果测量过程仅仅将个体归入非数字的类别中,那么统计评估常包括计算每个组的比例。(例如,产生数字值的儿童早餐与成绩问题,学习成绩被用来计算平均值。而城乡居民的政策接受研究中,数字值被用来计算比例。)实验法操纵一个变量并观察或测量另一个变量。并且为了建立两个变量间的因果关系,实验需要控制所有其他变量,使它们不会影响结论。★实验法的两个特性:1操纵:研究者操纵一个变量,将它的值从一个水平变化到另一水平。然后观察或测量第二个变量,来确定这种操纵是否导致了变化的产生。2控制:研究者必须控制研究情况,使其他无用的变量不能影响需要研究的变量关系。★通常研究者需要考虑的两种变量:1被试变量一些特性会随个体的不同而变化,如年龄性别和智力。只要实验是比较两组个体的差异,就必须保证两组的被试变量完全相同。2环境变量★通常使用三种技术控制其他变量:1随机分派目的是,使每个被试有相同的机会被分派到每个处理条件中,以使被试的特性在两组中均匀分布。2匹配通过匹配来保证参与组或环境的同质性。(如测量所有被试IQ后,将被试匹配地分派到两组中,使两组有基本相等的IQ)3将变量控制成常量例如,只使用10岁儿童做被试。☆实验法的术语自变量被研究者操纵的变量。(在行为研究中,自变量通常由被试参与的两个或多个处理条件组成。)自变量由在观察因变量之前就操纵好的前条件组成。因变量即被观察的变量,用于评估处理效应。(或:被观察并用来评估可能存在操纵效应的变量)在心理学研究中,因变量通常是经过测量后从每个被试中得到的数据。★注意,在实验法,事实上只测量了一个变量。(因为是操纵一个观察另一个)它和相关法有本质区别——后者两个变量均被测量,数据由每个个体的两个不同分数组成。☆控制条件与实验条件通常,实验将没有接受任何处理的被试的分数,与接受处理的被试分数进行比较。这是通过证明处理条件造成的分数与不处理造成的分数的不同,而说明存在处理效应。这种研究中,出现了:1控制条件指个体不接受实验处理。——或者不接受处理,或者接受中性或安慰剂性处理。控制条件的目的是提供与实验条件相比较的基准。2实验条件指个体接受实验处理。★注意:自变量通常由至少两个值组成。(因为至少应有两个值才能称为变量)有的实验,自变量是简单的数值。由实验组和控制组组成的实验,自变量应该是处理与非处理。☆非实验和准实验法准自变量是指在非实验中那些决定了组别的变量。——在非实验中仅仅对两个组进行比较,但这两组却不是通过操纵自变量所得到——通常是由被试变量或时间变量(如处理前与处理后)决定。p17的两个例子,均是无法操纵变量1(可视为准自变量,准在它为改变因变量而生,却无法被操纵),这种变量1叫做准自变量。——分割线开始——★★★对于例子2的“研究者无法操纵时间”,这里有两个问题:1为什么它这样说,“无法操纵时间,但是用它来划分两组数据”这里面其实强调了两个因果关系,即:a)如果这是一个实验,那么自变量一定为研究者所操纵。b)如果一个变量是一个实验里的自变量,那么“分组”这个过程一定是由操纵自变量造成的。(因为自变量通常由被试参与的处理条件组成,而处理条件决定了分组。)所以才有这种暗含因果关系的用词——“但是用它”。2为什么这是个非实验?因为这个实验的分组是源于时间变量——治疗前治疗后是两个时间点,而它并没有得到研究者的操纵。如果是对时间操纵后才导致这种分组,才能说时间是实验的自变量,而这个实验才能是实验。★★★注:切莫纠结于,为什么说它没有操纵时间?这种思维是在假定了时间是此实验的自变量导致的,而时间仅仅是导致分组的原因,只能称为准自变量。——分割线结束——1.4变量与测量☆有些变量仅仅是假设出来的概念(即构念)从而无法直接观察,对它们的研究需要测量。构念是内部属性或特性,它不能被直接观察到,但可以描述并解释行为。操作定义是一个测量过程。它测量了外部行为,并使用测量结果作为定义和对假设的构念的测量。——操作定义有两个部分1描述了一系列测量构念的操作;2用测量结果定义了构念。☆根据变量值的类型,分为两种变量:1离散变量由不同的、不可分割的类别组成。在两个相邻类别之间不存在其他值。它们通常限于整数。2连续变量在任意两个观察到的值之间都存在无限多个可能的值。一个连续变量可以被分割成无限个小数部分。——连续变量的两个因素1)两个不同个体很少会得到完全一样的测量。若有,可以合理怀疑测量过程过于粗糙,或变量可能不是真的连续的。2)测量连续变量时,每个测量类别实际上都是一个区间,需要用边界来定义。一个数值其实是一个区间,而非量表上一个点。☆在量表上对其设定边界,有以下概念:实限指一条连续数据线上数值组成的区间的界限。将两个相邻数值分开的实限恰好位于两个数值的中点。——每个数值都有两个实限:上实限和下实限。☆收集数据需要测量观察。而测量包括将事物分类(定性测量)和使用数字描述事物大小(定量测量)。介绍四种测量量表:1称名量表由一系列具有不同名称的类别组成。称名量表的测量将观察的对象分类并贴标签,但不对观察做任何定量的区分。(称名量表的类别不是量化值,但它可以用数字代表,并依然不能代表任何量化差异。如房间100和房间109这条信息无法得出任何量化结论。)2顺序量表由一组按顺序排列的类别组成。顺序量表的测量将观察对象按大小排序。例如,类别可以是大中小,但不能是1cm2cm3cm。——类别组成了序列这个事实意味着在类别间存在方向性。可以用顺序量表的测量,来确定两个个体是否不同并确定差异的方向,但无法确定两个个体间的差异大小。☆等距量表和等比量表它们都由一系列排序的类别组成,并且这些类别组成了一系列相同大小的区间。——大小相同的区间,代表可以利用此量表来确定两个测量间的差异的大小和方向。它们的区别在于零点的性质。3等距量表由排序的类别组成,这些类别都是完全相同大小的区间。——等距量表具有随意的零点,并且零值不代表被测量的变量不存在。在等距量表中,量表数字间的差异等价于量的差异,但大小的比例没有意义。4等比量表是一种等距量表。它有一个绝对零值,代表没有测量的变量。——等比量表绝对的、非任意的零点,使我们可以测量变量的绝对值。等比量表中数字的比例可以反映量上的比例。★关于判断是等距还是等比(自推):1等距量表的零点没有意义,等比量表的零点则代表了一个“没有测量”的变量(我把测量视为名词,大约代表“值”)。所以等距的零点才能随便换,且只为衡量测量值的差值。——SAT就是一个等距量表,因为零值是为衡量测量值之差而存在。——每个人的感冒次数则是等比量表,因为零值有意义且不能变动。因此:2等距量表的重点在于测量之间的差值,等比量表则是比例。例如SAT测试就是等距量表,重点在于测量间的差值而非比例。(并不排除等比量表中测量间差值的意义,但由于等比本也是等距,因此舍弃比例并无意义。)1.5统计符号分数指研究中对因变量的观察后得到的每个被试的值。——原始分数指研究中最初得到的、没有改变过的一组数据。特定变量的值用X表示。(★注意:X又叫一个量表,可视为是一类数据之意。在p48图2.14上三行有明确的表达)第二章频数分布2.1概述☆原始数据通常不会显示任何明显的模式。研究者依靠描述性统计来总结和组织他们的结果,使得当真的存在某些模式时,它们更易被发现。描述性统计的任务:简化结构并整理组织数据。☆最常用过程是将数据放入一个频数分布。频数分布是一种组织好的关于位于测量量表每个类别上的个体数目的数据表。★频数分布显示了个体得分在测量量表上的分布情况——频数分布可以是表或图,但均有如下两个相同因素:1组成最初测量量表的类别2频数的记录(每个类别中的个体数目)2.2频数分布表频数分布表的特点:1表中的第一列,列出了所有可能的值,即使此类别的频数为0。★对于顺序、等距、等比量表,类别被按从高到低的顺序排列。对于称名量表,类别可以按任意顺序排列。2第二列记录每个数值的频数。3第一列的值(如X)指的是测量量表,并非真实数据。比如X=5但此类别的个体并不存在。4频数可以用于求出分布中的数据个数。将频数相加可以得到个体个数的总和。☆除了频数分布的两个基本列之外,还有其他描述数据分布的测量。最常用的是比例和百分率。比例用p表示。p=f/N。百分率%=p(100)=f/N(100)由于比例p描述了频数(f)和数据数目(N)的关系,故比例又可称为相对频数。——比例通常表示为小数。☆当一个数据组涵盖范围过大时,为了不必列出所有数据,可以使用如下办法:分组频数分布表将数据分成区间组,然后将区间列在表中,用区间代替每个数据。★这里的组(即区间),叫组距。它有四个规则:1)应该具有大约10个组距。只是大约。2)每个区间的宽度应为相对简单的数字。特别的,5和10可以简化计算。3)每个组距的最小数值应为宽度的倍数。如以10为区间宽度,则这些区间应从20,30等开始。4)所有区间应有相同宽度。它们应当无间断无重复涵盖所有数值,使任意特定数值恰好只属于一个区间。——在分组频率分布表中,频数是对组距的描述,即这个组距的频数为f=xxx。并且,当分数被放入一个分组表后,会失去关于特定分数值的信息。通常组距越宽失去的信息越