资料整理资料简单分析比较分析第7章资料分析(一)一、单变量分析(一)单变量集中趋势1、众数:总体中各单位在某一标志上出现次数最多的变量值2、中位数:总体中各单位在某一标志上按照大小顺序排列,居于中间位置的变量值,其位置(N+1)/2,N为奇数取中间一个,N为偶数取中间两个。3、平均数:简单算术平均数、加权算术平均数、调和平均数、几何平均数资料简单分析(二)单变量离中趋势1、全距:总体中最大标志值与最小标志值之差。2、平均离差与平均离差系数NXXDA)(..XDA..平均值平均离差平均离差系数A组:161、163、165、167、169B组:73、74、75、76、77165752.41.21.451.6比较两个总体的变异程度,如果平均指标水平不同或计量单位不同。不能用平均离差第二节资料简单分析定义:四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中间部分的数据越分散。第二节资料简单分析3、四分位数4、标准差与标准差系数XV平均值标准差平均离差系数A组:161、163、165、167、169B组:73、74、75、76、77165752.831.411.721.88NXX/)(2第二节资料简单分析(三)单变量频数与频率分析频数就是一个变量在各个变量(组)值上取值的个案数,频数占总体单位个数的比就是频率。当前以上频数的合计就是累积频数,当前以上频率的合计就是累积频率。变量值频数累积频数频率累积频率18岁以下19-30岁31-45岁46岁以上4004004003004008001200150026.7%26.7%26.7%20.0%26.7%53.4%80.0%100.0%合计1500100.0%第二节资料简单分析峰度:峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式为第二节资料简单分析(四)峰度与偏度第二节资料简单分析偏度:偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。操作练习7.3—描述统计二、多变量分析(一)多变量统计量分析:根据某一变量进行分组,计算另一变量统计量的分析年龄按性别分组性别频数年龄平均数年龄标准差男女90060037.5536.6712.7812.01不分组150037.2012.54第二节资料简单分析(二)多变量交叉列联表分析职业合计性别工人农民军人…其他男96;10.7%48.0%;6.4%68;7.6%68.0%;4.5%176;19.6%88.0%.;11.7%…102;11.3%51.0%;6.8%90060%女104;17.3%52.0%;6.9%32;5.3%32.0%;2.1%24;4.0%12.0%;1.6%…98;16.3%49.0%;6.5%60040%合计20013.3%1006.7%20013.3%…20013.3%1500100%4个数字分别是:频数、此频数占行总数百分比、占列总数百分比,占总数百分比第二节资料简单分析(三)多变量卡方检验第二节资料简单分析交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此需要根据变量的性质,选择其他的相关系数,如Kendall等级相关系数、Eta值等。三、多选项分析定义:多选项分析是对多选项问题的分析方法。所谓多选项问题,就是一个问题的答案都是顺序变量或名义变量,并且允许选择的答案可以有多种组合。对于多选项问题,分解(编码方案)的方法有两种。第二节资料简单分析1.多选项二分法(MultipleDichotomiesMethod)这种方法将每个可能的答案设置为一个SPSS变量,变量的取值有两个,分别表示选中或没选中。这种方法的缺点是需要的变量数比较多。比如一道题目有6个选项,则一道多选题目就需要用6个变量来表示。好处是比较简单。第二节资料简单分析2.多选项分类法(MultipleCategoryMethod)多选项分类法首先估计多选项问题可能出现的答案个数。比如一个多选题,如果最多有3个答案,那么就设置3个SPSS变量,分别用来存放3个可能的答案。如果某个案的答案只有两个,那么第3个SPSS变量取值为缺失值。研究问题1某商场对6种品牌的电视机进行消费者满意度调查,随机调查了20位消费者,让他们选出最满意的3个电视机品牌,收集到相应的数据,如下表所示。试用多选项二分法利用SPSS对该问题进行分析,包括频数分析和交叉列联表分析。第二节资料简单分析20名消费者调查情况ID康佳长虹西湖TCL东芝创维性别110101012101100030001110410110005100101060011101701110018100011190011100100111000111110000121010011130111001141011000150011010161110000171110000180110011190111001201101001实现步骤第二节资料简单分析MultipleResponseCrosstabs第二节资料简单分析研究问题2上面实现过程是采用多选项二分法,本例采用多选项分类法对该问题进行分析。在本次调查中,每个被调查人最多选择3个品牌,因此有3个变量,用来保存每个被调查人的选择,数据表格如3-12所示。第二节资料简单分析20名消费者调查情况ID答案1答案2答案3性别115312134034560414305146063451723418561195340104230113120123611133241144310156340162310172130182631193241202141实现步骤第二节资料简单分析第二节资料简单分析第二节资料简单分析Means过程一单一样本T检验二两独立样本T检验三两配对样本T检验四第三节均值比较分析在正态或近似正态分布的计量资料中,经常在使用前一章统计描述过程分析后,还要进行组与组之间平均水平的比较。本章介绍的T检验方法,主要应用在两个样本间比较。如果需要比较两组以上样本均数的差别,这时就不能使用上述的T检验方法作两两间的比较。对于两组以上的均数比较,可以使用方差分析方法。第三节均值比较分析一、Means过程定义:Means过程是SPSS计算各种基本描述统计量的过程。Means过程其实就是按照用户指定条件,对样本进行分组计算均数和标准差,如按性别计算各组的均数和标准差。第三节均值比较分析用户可以指定一个或多个变量作为分组变量。如果分组变量为多个,还应指定这些分组变量之间的层次关系。层次关系可以是同层次的或多层次的。同层次意味着将按照各分组变量的不同取值分别对个案进行分组;多层次表示将首先按第一分组变量分组,然后对各个分组下的个案按照第二组分组变量进行分组。第三节均值比较分析研究问题比较不同性别同学的数学成绩平均值和方差。数据如下表所示。性别数学Male99795989798999Female88545623第三节均值比较分析实现步骤第三节均值比较分析结果第三节均值比较分析二、单一样本T检验定义:SPSS单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。统计的前提样本总体服从正态分布。也就是说单样本本身无法比较,进行的是其均数与已知总体均数间的比较。第三节均值比较分析研究问题分析某班级学生的高考数学成绩和全国的平均成绩70之间是否存在显著性差异。数据如表4-1所示。第三节均值比较分析实现步骤结果和讨论第三节均值比较分析三、两独立样本T检验定义:所谓独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的前提如下。第三节均值比较分析两个样本应是互相独立的,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同,个案顺序可以随意调整。样本来自的两个总体应该服从正态分布。1.判断两个总体的方差是否相同SPSS采用LeveneF方法检验两总体方差是否相同。第三节均值比较分析2.根据第一步的结果,决定T统计量和自由度计算公式研究问题分析A、B两所高校大一学生的高考数学成绩之间是否存在显著性差异。学校数学清华998879595489795689北大992389705067788956第三节均值比较分析结果和讨论第三节均值比较分析四、两配对样本T检验定义:两配对样本T检验是根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象(或两配对对象)分别给予两种不同处理的效果比较,以及同一研究对象(或两配对对象)处理前后的效果比较。前者推断两种效果有无差别,后者推断某种处理是否有效。第三节均值比较分析两配对样本T检验的前提要求如下。两个样本应是配对的。在应用领域中,主要的配对资料包括:具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。样本来自的两个总体应服从正态分布。第三节均值比较分析研究问题研究一个班同学在参加了暑期数学、化学培训班后,学习成绩是否有显著变化。数据如表4-3所示。第三节均值比较分析培训前后的成绩变化人名数学1数学2化学1化学2hxh99.0098.00100.0090.00yaju88.0089.0045.0099.00yu79.0080.0056.0070.00shizg59.0078.0067.0078.00hah54.0078.0078.0088.00s89.0089.0087.0088.00watet79.0087.0089.0087.00jess56.0076.0097.0098.00wish89.0056.0076.0098.002_new199.0076.00100.0099.002_new223.0089.0089.0089.002_new389.0089.0089.0098.002_new470.0099.0089.0088.002_new550.0089.0098.0099.002_new667.0088.0078.0087.002_new778.0098.0078.0087.002_new889.0078.0089.0088.002_new956.0089.0068.0079.00实现步骤第三节均值比较分析结果和讨论方差分析基本概念一、单因素方差分析二、多因素方差分析三、协方差分析四、第四节方差分析一、方差分析基本概念方差分析是R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验。方差分析方法在不同领域的各个分析研究中都得到了广泛的应用。从方差入手的研究方法有助于找到事物的内在规律性。第四节方差分析受不同因素的影响,研究所得的数据会不同。造成结果差异的原因可分成两类:一类是不可控的随机因素的影响,这是人为很难控制的一类影响因素,称为随机变量;另一类是研究中人为施加的可控因素对结果的影响,称为控制变量。第四节方差分析在影响教学效果的因素中,就有两类因素:一是人为可控制的变量,如教学的方法、教材的使用;还有一类是随机的变量,