变量分布特征的描述续+抽样分布9

zzhaiwl
3 ℃
2020-01-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

本科课程陈宜治系列课件统计学课件制作：陈宜治作业订正3、1）平均每个企业利润额=203.70（万元）；（2）全公司平均资金利润率=13.08%。4、（1）全厂总合格率、平均合格率和平均废品率分别是92.17%、97.32%和2.68%；（采用几何平均法）（2）全厂总合格率、平均合格率和平均废品率分别是97.31%、97.31%和2.69%；（采用调和平均法）（3）全厂总合格率、平均合格率和平均废品率分别是97.38%、97.38%和2.62%。（采用算术平均法）3.方差、标准差的性质（1）常数的方差为0222yxsbs（2）若yabx,ab为常数，则2=0as（3）标准差s是计算标准化值的依据iixxZs标准得分，标准统计值反应灵敏，随任何一个数据的变化而变化；一组数据的方差和标准差有确定的值；适合代数计算，不仅求方差和标准差的过程中可以进行代数运算，而且可以将几个方差和标准差综合成一个总的方差和标准差；用样本数据推断总体差异量时，方差和标准差是最好的估计量。4.方差、标准差的特点优点受数据量纲的约束，当数据间量纲不统一时，无法直接比较；受数据自身水平的影响较大，当数据水平存在差异时，无法直接比较；缺点（六）离散系数（CoefficientofVariation）1.定义：离散系数也称为标准差系数，它是一组数据的标准差与其相应的均值之比，是测度数据离散程度的相对指标。2.计算公式ssVVXx或Vσ和Vs分别表示总体离散系数和样本离散系数。离散系数用于对不同组别数据的离散程度进行比较时，离散系数大的说明该组数据的离散程度也就大，离散系数小的说明该组数据的离散程度也就小。相对标准差城市人均年收入（元）收入标准差（元）标准差系数甲城市60001502.5乙城市120001801.5例3.25：甲乙两个城市的居民年收入情况如表所示，试比较两城市居民收入分配的均衡性。•从表中前三栏数据来看，乙城市不仅人均年收入两倍于甲城市，而且收入的差距也似乎显著于甲城市。•但通过计算标准差系数，乙城市的实际收入差距相对于它的平均收入来说，比甲城市要低的多。或者说，以居民对收入收入差距所承受的压力而言，甲城市要比乙城市高得多。根据例3.24数据，算得姚明、戴维斯、保罗的离散系数分别为：6.550.370117.7sVx姚6.010.378015.9sVx戴12.040.547322sVx克因此，姚明的发挥更稳定，如果你是理智的教练，应该选择姚明！第三节分布形状的描述偏度系数峰度系数一、分布形状和形状指标变量分布的偏斜程度和尖陡程度分布形状形状指标反映变量分布具体形状，即左右是否对称、偏斜程度与陡峭程度的指标对称性陡峭性kS（一）利用算术平均数与众数或中位数的离差求偏度系数二、偏度系数(1)0=kxmSs1.偏度系数的变动范围为（-3，3）2.当﹥0时，为正值，变量分布属于正偏当﹤0时，为负值，变量分布属于负偏当=0时，变量分布属于对称分布kSkSkS3.的绝对值越接近于3，表明变量分布的偏斜程度越严重；的绝对值越接近于0，表明变量分布的偏斜程度越轻微kSkS（二）利用四分位数求偏度系数(2)2=LUekULQQmSQQ(2)kS(2)kS(2)kS2.的绝对值越接近于1，表明变量分布的偏斜程度越严重；的绝对值越接近于0，表明变量分布的偏斜程度越轻微1.的变动范围为（-1，1）020406080100120140x01020频数（三）利用动差法求偏度系数1()ntiiaxnt阶动差=11()ktiiikiifaxft阶动差=动差法偏度系数是以变量数列的三阶中心动差（）作为度量偏度的基本依据。3m1.原理2.动差当a＝0时，t阶动差称为t阶原点动差，用Mi表示当a＝时，t阶动差称为阶中心动差，用mi表示x3.计算公式(3)33kmSs•若0，表示变量分布正偏；•若0，表示变量分布负偏；•若=0，表示变量分布两边对称，无偏。•的绝对值越接近0，变量分布的偏度越轻微；•的绝对值越大于0，变量分布的偏度越严重；(3)kS(3)kS(3)kS(3)kS(3)kS三、峰度系数标准正态峰度尖顶峰度平顶峰度1.概念由统计学家皮尔逊于1905年提出，是对变量分布扁平性或尖陡性的测度，通常是指钟型分布的顶峰与标准正态分布相比偏扁平或偏尖陡的程度。2.分类3.计算方法峰度系数的计算主要采用动差法，是4阶中心动差与标准差4次方相比的结果44mKs(1)当k＝3时，变量分布的峰度为标准正态峰度(2)当k3时，变量分布的峰度为平顶峰度(3)当k3时，变量分布的峰度为尖顶峰度(4)当k接近于1.8时，变量分布曲线就趋向于一条水平线(5)当k小于1.8时，则变量分布曲线为“U”型曲线例3.26：某企业职工月收入情况如表所示，求职工月收入分布的动差法偏度系数和峰度系数。职工月收入（元）职工人数（人）900以下900～10001000～11001100～12001200～13001300～14001400～15001500以上2448601052721123合计300职工月收入（元）900以下900～10001000～11001100～12001200～13001300～14001400～15001500以上85095010501150125013501450155024486010527211232040045600630001207503375028350174004650-263-163-63+37+137+237+337+43769169265693969136918769561691135691909691660056127531223814014374550676311795491362828572907-436594728-207875856-15002820531856569426531279553113459273036250360359合计3003339006939300404458200ixifiifxixx2()ixx2()iixfx3()iixfx3339001113300iiifxxf（元）2()152.09iiixfxsf（元）33()404458200==1348194300iiixfxmf（元）(3)3331348194=0.38(152.09)kmSs＝（元）该企业职工月收入的分布为正偏分布，但偏度不大。44()=1632660517iiixfxmf（元）4=535043161 s（元）443.05mKs该企业职工月收入分布的峰度为轻微的尖顶峰度。统计的基本任务:由部分来推断总体,或者由过去来推断未来.这样就涉及到两个问题:1)如何选取部分？2)如何利用部分?第四章抽样估计由于抽取的部分具有一定的随机性,因此据此得出的推论多多少少的总含有一定程度的不确定性.因此,我们必须对试验所提供的信息进行“合理”的加工和处理,以使做出错误推断的概率尽可能的小.一般地,在数理统计中所做出的许多推断我们都用一定的概率来表明推断的可靠或可信程度.这种伴随着一定概率的推断就称为统计推断.第一节抽样分布（一）总体分布及其特征总体分布：是指总体中所有个体关于某个变量（标志）的取值所形成的分布。总体参数：反映总体分布特征的指标一、抽样分布的基本问题三个概念：总体分布，样本分布，抽样分布指样本单位的抽取不受主观因素及其他系统性因素的影响，每个总体单位都有均等的被抽中机会抽样估计按照随机原则从调查对象中抽取一部分单位进行调查，并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断，从而认识总体的一种统计方法统计推断全及总体指标：参数（未知量）样本总体指标：统计量（已知量）抽样估计不可能进行全面调查时例如对破坏性的产品质量检查不必要进行全面调查时产品质量的检查与控制来不及进行全面调查时教育部本科教学工作水平评估对全面调查资料进行补充修正时抽样估计的应用设计抽样方案抽取样本单位收集样本数据计算样本统计量推断总体参数抽样估计的一般步骤也称母体，就是客观存在的，具有某种共同性质的许多单位所组成的整体。总体也叫样本或子样，是从全及总体中随机抽取出来，代表全及总体的那部分单位的集合体抽样总体通常总体的单位数用“N”通常样本的单位数（样本容量）用“n”常用的总体参数有两个：•总体均值（包括是非变量的均值）；•总体方差或标准差（包括是非变量的方差或标准差）。链接：我调查了500个样本来研究大学生的婚恋观。设有限总体容量为N，各单位某项标志的值分别为；若为是非标志则设具有某种属性的有个单位，不具有某种属性的有个单位，则NXXX,,210N1N⒈总体均值（总体平均数）：miimiiiNiiffXXNXX111或2、总体方差：miiimiiNiifXXfSXXNS12121221111或PNNQNNP1,013、总体成数（总体比例）5、总体是非标志的方差PQNNSP124、总体是非标志的均值PXP（二）样本分布及其特征样本分布：样本中所有个体关于某个变量（标志）的取值所形成的分布。•当样本容量很大，或者是当逐渐增大时，样本分布会接近总体分布。•如果样本容量很小，样本分布就有可能与总体分布相差很大，抽样估计的结果就会很差。样本统计量：反映样本分特征的指标，T样本统计量是随机变量，它的取值随样本的不同而发生变化。样本统计值：是样本统计量的值，由样本单位的标志值计算而来，用来估计总体参数。样本的函数且不含任何未知参数，统计量是例：我们选择奥运板块的个股作为样本。则样本分布为该板块60只股票在4月23日的涨跌情况样本统计量xii=1……604.86%x样本是随机产生的，为了提高样本的代表性，可以选择合适的抽样组织方式来产生样本抽样估计就是以可知但非唯一的样本统计量的值来估计未知但唯一的总体参数的值。★与总体参数相对应，常用的样本统计量有样本均值（或样本成数）、样本方差（或样本标准差）。⒈样本均值：miimiiiniiffxxnxx111或设样本中n个样本单位某项标志的标志值分别为，若为是非标志则设具有和不具有某种属性的样本单位数目分别为和个，则nxxx,,210n1n2.样本方差：miiimiiniifxxfsxxns12121221111或pnnqnnp1,013.样本成数（样本比例）：4.样本是非标志的均值：pxp5.样本是非标志的方差：pqnnsp12（三）抽样分布及其特征1、抽样分布的概念抽样分布，是样本统计量的概率分布，由样本统计量的所有可能取值和与之相应的概率组成。假设从容量为N的总体中抽取容量为n的样本最多可抽取m套不同的样本，则m个样本统计值的频率分布，即为抽样分布。实际的抽样分布形成取决于以下五个因素：总体分布（越集中，抽样分布越集中）样本容量（最关键因素，容量越大抽样分布越集中）抽样方法（采用重复或不重复方法，抽样分布不同）抽样组织形式（不同形式下的样本个数及结构不同，抽样分布也不同）估计量构造（样本估计量不同，抽样分布不同）1x1x2x2xxX大样本小样本Xx乘法公式：设完成一件事需分两步，第一步有n1种方法,第二步有n2种方法，则完成这件事共有n1n2种方法加法公式：设完成一件事可有两种途径，第一种途径有n1种方法，第二种途径有n2种方法，则完成这件事共有n1+n2种方法。有重复排列：从含有N个元素的集合中随机抽取n次，每次取一个，记录其结果后放回，将记录结果排成一列，NnNN共有Nn种排列方式.无重复排列：从含有N个元素的集合中随机抽取n次，每次取一个，取后不放回，将所取元素排成一列，共有PNn=N(N-1)…(N-n+1)种排列方式.NN-1N-2N-N+1组合（无重复）：从含有N个元素的集合中随机抽取n个，共有种取法.!!()!nNNNCnnNn组合（有重复）：从含有n个元素的集合