第五章离散趋势的测量

5ach
1 ℃
2020-01-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第五章离散趋势测量法本章主要内容：离散趋势的测定方法（重、难点）各种离散趋势测量指标的比较第一节变异指标相关概念•一、变异指标含义•平均指标是统计总体中各单位某一数量标志的一般水平，反映了总体分布的集中趋势。集中趋势只是数据分布的一个特征，它所反映的是各变量值向其中心值聚集的程度。而这种聚集的程度显然有强弱之分，这与各变量值的差异有着密切的联系。变量值的差异越大，数值的集中趋势越弱，变量值的差异越小，数据的集中趋势越强。因此，要全面描述数据的分布特征，除了要对数据集中趋势加以度量外，还要对数据的差异程度进行度量。数据的差异程度就是各变量值远离其中心值的程度，因此也称为离中趋势。•二、变异指标的概念•在统计研究中，通常把一组数值之间的差异程度叫做标志变动度。测定标志变动度大小的指标叫做标志变异指标。标志变动度与标志变异指标在数值上成正比。如果说平均指标说明总体分布的集中趋势的话，标志变异指标则说明总体分布的离中趋势。•三、变异指标的作用•变异指标是描述数据分布的一个很重要的特征值，因此，它在统计分析、统计推断中具有很重要的作用。具体可以概括为以下几点：•1.反映总体各单位变量值分布的均衡性•一般来说，标志变异指标数值越大，总体各单位变量值分布的离散趋势越高、均衡性越低，反之，变量值分布的的离散趋势越低、均衡性就越高。•2.判断平均指标对总体各单位变量值代表性的高低•平均指标作为总体各单位某一数量标志的代表值，其代表性的高低与总体差异程度有直接关系：总体的标志变异指标值愈大，平均数的代表性愈低；反之，标志变异指标值愈小，平均数代表性愈高。另一方面，平均指标代表性的高低同总体各单位变量值分布的均衡性也有直接关系：总体各单位变量值分布的均衡性越高，平均指标代表性就越高；反之，总体各单位变量值分布的均衡性越低,平均指标代表性就越低。•3.在实际工作中，借助标志变异指标还可以对社会经济活动过程的节奏性和均衡性进行评价•4.标志变异指标是衡量风险大小的重要指标。•四、变异指标的分类•变异指标按数量关系来分有以下两类：•凡用绝对数来表达的变异指标，统称绝对离势，主要有极差、平均差、四分位差、标准差等。•凡用相对数来表达的变异指标，统称相对离势，主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。第二节、全距与四分位差•一、全距•1、未分组资料计算公式•全距又称极差，是一组数据的最大值与最小值之差，用表示。计算公式为：••式中，、分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表示的，所以全距表明了一组数据数值的变动范围。越大，表明数值变动的范围越大，即数列中各变量值差异大，反之，越小，表明数值变动的范围越小，即数列中各变量值差异小。max()min()iiRXXmax()iXmin()iX•[例3.12]例3.1给出的40个同学统计学的考试成绩，其最高成绩为99分，最低成绩为36，则全距为：•（分）993663R2、分组资料计算公式R=最高组上限-最低组下限•R=最高组组中组-最低组组中值•R=最高组组中组-最低组下限•R=最高组上限-最低组组中值•如果资料经过整理，并形成组距分配数列，全距可近似表示为：•R≈最高组上限值－最低组下限值3、优缺点：优点：计算简单，易于理解。缺点：（1）受极端值影响大，遇含开口组的资料时无法计算；（2）数据利用率低，信息丧失严重；（3）受抽样变动影响大（一般大样本的全距会比小样本的全距大）。二、四分位差（inter-quartilerange）上四分位数与下四分位数之差的平均数，称为四分位差，亦称为内距或四分间距。四分位差的计算方法：Q·D=(Q3-Q1)/2•四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的数据越集中；数值越大，说明中间的数据越分散。此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。•[例3.2]在某城市中随机抽取9个家庭，调查得到每个家庭的人均月收入数据如下（单位:元），1500、750、780、1080、850、960、2000、1250、1630，计算人均月收入的四分位数。•解：，即QL在第2个数值（780）和第3个数值（850）之间0.5的位置上，因此•QL＝（780＋850）÷2＝815（元）•，即QU在第7个数值（1500）和第8个数值（1630）之间0.5的位置上，因此Ln+19+1Q==2.544的位置＝U3(n+1)3(9+1)Q==7.544的位置＝•QU＝（1500＋1630）÷2＝1565（元）•QL和QU之间包含了50%的数据，因此，我们可以说有一半的家庭人均月收入在815～1565元之间。•根据例3.2资料计算上下四分位数，那么家庭人均月收入的四分位差为：•QU—QL=?•上四分位数下四分位数:•数值型分组数据的四分位数(计算公式)•四分位差主要用于测度顺序数据的离散程度。当然，对于数值型数据也可以计算四分位差，但不适合于分类数据。•优缺点：主要是避免了全距受极端值影响的缺点，其他优缺点同全距：数据利用率低，信息丧失严重；受抽样变动影响大。第三节、平均差(Meandeviation)•平均差是各变量值与其算术平均数离差绝对值的平均数，用A.D表示。根据掌握资料的不同，平均差有以下两种计算方法：•1.简单平均法•对于未分组资料，采用简单平均法。其计算公式为：•[例3.13]某厂甲、乙两组工人生产某种产品的产量资料如表3.8所示。•从计算结果看，甲、乙两组平均生产件数相等，但由于甲组的平均差（1.2件）小于乙组的平均差（16件），因而其平均数的代表性比乙组大。•2.加权平均法•在资料分组的情况下，应采用加权平均式：•平均差计算简便，意义明确，而且平均差是根据所有变量值计算的，每个数据均参与了计算，因此它能够准确地、全面地反映一组数值的变异程度。但是，由于平均差是用绝对值进行运算的，它不适宜于代数形式处理，所以在实际应用上受到很大的限制。第四节、方差和标准差(Variance、Standarddeviation)•一、概念要点•方差和标准差同平均差一样，也是根据全部数据计算的，反映每个数据与其算术平均数相比平均相差的数值，因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同，平均差是取离差的绝对值消除正负号，而方差、标准差是取离差的平方消除正负号，这更便于数学上的处理。因此，方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别，因此下面分别加以介绍。•1、方差是个变量值与其均值离差平方的平均数，标准差是方差的开方。•2、离散程度的测度值之一。•3、最常用的测度值。•4、反映了数据的分布。•5、反映了各变量值与均值的平均差异。•6、根据总体数据计算的，称为总体方差或标准差。根据样本数据计算的，称为样本方差或标准差。•二、总体的方差和标准差•设总体的方差为，标准差为，•对于未分组整理的原始资料，方差和标准差的计算公式分别为：•（二）样本的方差和标准差•样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数，而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。•（三）是非标志的方差与标准差•在实际生活中，有些事物或现象的特征只表现为两种性质上的差异，例如，产品的质量表现为合格或不合格，人的性别表现为男或女，人们对某种意见表示为同意或不同意；对学生考试成绩分为及格和不及格，等等。这些只表现为是与否、有或无的标志，称为是非标志，也称为交替标志。在进行抽样估计时，是非标志的方差或标准差具有很重要的意义。•1.成数（比例）•如前所述，是非标志只有两种表现，我们把总体中或样本中具有某种表现或不具有某种表现的单位数占全部单位数的比重称为成数，它反映了总体或样本中“是”与“非”的构成，并且代表着两种表现或性质各反复出现的程度，即频率。例如，某一批产品，合格品占95%，不合格品占5%。在这里。95%和5%均为成数。•2.是非标志的平均数•是非标志是一种品质标志，其表现为文字。因此，在计算平均数时，首先需要将文字表现进行数量化处理。用“1”表示具有某种表现，用“0”表示不具有某种表现，然后以“1”和“0”作为变量值，计算加权算术平均数。现以总体为例予以说明。•3.是非标志的方差与标准差•将经过量化处理的是非标志的表现“1”和“0”作为变量值代入总体的方差计算公式：•[例3.17]从一批产品中随机抽取100件产品进行质量测试，测试的结果为96件合格，4件不合格，试计算成数的方差和标准差。•是非标志的方差、标准差，当时取得最大值，方差最大值为0.25，标准差最大值为0.5，也就是说，此时是非标志的变异程度最大。如某学生群体中男生数和女生数相等，即男女生的成数均为0.5（50%），说明该学生群体性别差异程度最大。是非标志的方差、标准差的最小值均为0。•4.方差的数学性质第五节、标准分（Standardscore）•相对位置的度量：标准分数•有了均值和标准差之后，我们可以计算一组数据中各个数值的标准分数，以测度每个数据在该组数据中的相对位置，并可以用它来判断一组数据是否有离群值。•1、定义。•变量值与其平均数的离差除以标准差后的值，称为标准分数，也称标准化值或Ｚ值。•标准分数也给出了一组数据中各数值的相对位置。比如，如果某个数值的标准分数为-2，我们就知道该数值低于均值2倍的标准差。(４.4.21)式也就是我们常用的统计标准化公式，在对多个具有不同量纲的变量进行处理时，常常需要对各变量数值进行标准化处理。•【例3.18】根据例3.2的数据，计算每个家庭人均收入的标准分数。•在某城市中随机抽取9个家庭，调查得到每个家庭的人均月收入数据如下（单位:元），1500、750、780、1080、850、960、2000、1250、1630，计算每个家庭人均收入的标准分数。(3.40)实际上，z分数只是将原始数据进行了线性变换，它并没有改变一个数据在该组数据中的位置，也没有改变该组数分布的形状，而只是将该组数据变为均值为0、标准差为1。•经验法则表明：当一组数据对称分布时•——约有68.27%的数据在平均数加减1个标准差的范围内•——约有95.45%的数据在平均数加减2个标准差的范围内•——约有99.73%的数据在平均数加减3个标准差的范围内。•由此可见，一组数据中低于或高于平均数3个标准差以上的数据很少。因此，在统计上，往往将平均数3个标准差以外的数据称为异常值或离群值。•2、标准分的特性•（1）对于给定资料，由于算术平均数和标准差都是确定值，所以z是和X一一对应的变量。•（2）它没有单位，是一个不受原资料单位影响的相对数，因而也适用于不同单位资料的比较。•（3）均值和方差不同的正态分布经Z分数标准化后，可以转化为标准正态分布，所以Z又称标准正态变量。•（4）Z分数的数学特性：•Z分数之和等于0；•Z分数的算术平均数等于0；•Z分数的标准差和方差均为1。3、标准分的主要作用：标准分数的作用主要在两个方面，一是可以表明原始数据在总体分布中的相对位置，二是可以对不同分布的各原始数据进行比较。（1）确定原始数据在总体分布中的位置。如某县的年人均收入为286元，标准差是62元。该县某村的年人均收入为348元，那么该村在全县中的位置怎样？我们计算它的标准分数为1，我们将标准分数和书后所附的标准正态分布表联系在一起，可以查出Z=1在总体中的相对位置是0.84，也就是说全县有84%的村子其年均收入低于该村，有16%的村子高于该村。这就是它的年人均收入在全县所所处的位置。（2）对不同分布的各原始数据进行比较。如果是不同县的两个村，甲村的情况和上例相同，乙村的年人均收入是275元，但乙村所在的县其年均收入是225元，标准差是25元。从绝对值看，甲村的收入高于乙村，但通过标准正态分布表可以查出Z=2在总体中的相对位置是0.977