第一章数据分析的基础

抵达
1 ℃
2020-04-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

管理数量方法与分析课程代码：00150主讲教师：DD高等教育自学考试第一章数据分析的基础在这一章中，我们将讨论分组数据分析；中心趋势分析；离散程度分析；相关系数的测度与分析。学完本章后，你应当知道：本章的基本概念；数据分组与变量数列编制的方法及其应用；分布中心与离散程度的指标的种类、测定方法及其应用；偏度、峰度以及相关系数的作用及计算方法.本章学习要求第一节数据分组与变量数列第二节分布中心的测度第三节离散程度的测度第四节偏度与峰度第五节两个变量的相关关系本章教学内容第一节数据分组与变量数列一、变量数列1.定义：在对变量取值进行分组的基础上，将各组不同的变量值与其变量值出现的次数排列成的数列，称为变量数列.单项分组数列（适用于离散型变量且仅取值不多个时）表1-1组距分组数列（适用于连续型变量或取值较多）表1-2表1-1：某城市居民家庭人口数分布表居民家庭人口数分组（人）户数（户）比率（%）1502.98230017.863120071.1741307.99合计1680100.00组别次数（频数）频率表1-2：某班级40名学生数学考试考试成绩分布表成绩（分）人数（人）比率（%）50-6025.0060-70820.0070-801435.0080-901230.0090-100410.00合计40100.00组别次数（频数）频率变量数列2大要素：⑴由不同变量值所划分的组（组别）⑵频数（各组变量值出现的次数）备注：⑴频数越大的组所对应的变量值对其平均水平的作用越大，反之亦然；⑵频数：绝对数权数，用表示，频率：相对数权数，用表示.fff例1.1.根据抽样调查，某超市某天60位顾客的购货金额数据资料如下（单位：元）：50.144.238.677.582.320.480.279.896.060.729.662.1136.585.898.6116.339.465.0106.748.498.5126.7117.967.661.3151.036.819.454.690.890.0131.5115.235.6109.952.1120.531.959.259.586.512.049.392.136.857.330.015.039.726.343.6132.540.772.537.076.5100.024.566.238.8要求：编制组距数列.⑴单项数列的编制：列出组别、频数、频率即可；⑵组距数列的编制：①确定组数：通常在5-20多之间异距分组：适用于变动不均匀，变化幅度很大等距分组：适用于变动较均匀，优点为便于比较、分析.2.变量数列的编制斯特吉斯（H.A.Sturges）给出等距分组中大致计算组数的公式：其中为组数，为变量个数；在例1.1中，，由斯特吉斯公式求出组数：13.322lgmNmN60N13.322lg60m7②确定组距：变量最大值，最小值为，可大致计算组距的最低值，则有：如例1.1中，顾客购货金额变量的最大值151.0，最小值12.0，等距分组为7组，则最低组距为：选择整数maxmindmaxmindm151.012.019.867d20d③确定组限:上限和下限原则：上限不在内变量最小值为整数，可将此值作为最低一组下限变量最小值不为整数时，可将比此值小一点的整数作为最低一组下限.下限→上限→下一组下限→上限→…→最高组上限④计算各组的次数（频数）⑤编制变量数列：依各组变量值的变动范围、各组的次数，将各组变量值按照从小到大排列，并写出相应次数.表1-3：某超市60位顾客购货金额的次数分布表购货金额（元）顾客数（个）比重（%）10—30711.730—501525.050—701220.070—90813.390—110915.0110—13058.3130以上46.7合计60100组别次数（频数）频率3.累计频数与累计频率向上累计⑴累计频数（或频率）分布数列向下累计向上累计：描述“上限以下”向下累计：描述“下限以上”⑵累计频数（或频率）分布曲线：将以分组变量为横坐标，以累计频数（或频率）为纵坐标的点用折线连接起来.向上累计曲线：“呈上升趋势”向下累计曲线：“呈下降趋势”表1-4：某超市60位顾客购货金额的分布累计表购货金额（元）顾客数（个）比重（%）向上累计频数向上累计频率向下累计频数向上累计频率10—30711.7711.76010030—501525.02236.75388.350—701220.03456.73863.370—90813.34270.02643.390—110915.05185.01830110—13058.35693.3915.0130以上46.760100.046.7合计60100————⑶洛伦茨曲线累计频数（或频率）分布曲线可用来研究财富、土地、和工资收入是否公平，最早是由美国洛伦茨博士（Dr.M.O.Lorenz）提出，故又称洛伦茨曲线图.绘图方法见课本P9例1.3.4.变量数列分布图变量的次数分布：变量的次数分布显示不同取值出现的次数，概括变量取值整体上的分布状况.缺点：无法全面、系统地评价次数分布图次数分布表柱状图，直方图，折线图等第二节分布中心的测度一.分布中心的测度指标及计算方法分布中心：指距离变量的所有的取值最近的位置.能反映取值的一般水平.1.算术平均数：简单算术平均数加权算术平均数分布中心的测度中位数众数算术平均数⑴单项数列的算术平均数设某一变量x的不同取值为，则算术平均数公式为：设代表各组的变量值，分别对应出现的次数，则加权平均值的公式为：备注：描述的是在平均中所占的比例.12,,nxxx12,,nfffiixffxxffffix12inxxxxxnn12,,nxxx⑵组距数列的算术平均数找出每组的组中值（各组变量值的代表值），再将组距数列变形为单项数列，最后用⑴计算.组中值=（上限+下限）／2缺下限的组中值=上限—临组组距／2缺上限的组中值=下限+临组组距／2备注:①算术平均数容易受极端变量值影响；②权数对平均数大小起着权衡轻重的作用；③在组距数列中,以组中值代表各组变量值,假定各组内部的所有变量值是均匀分布的.而实际并非如此,因此对于组距数列计算平均数一般只是个近似.⑶算术平均数的数学性质：①各变量值与算术平均数利差的总和等于零；②各变量与算术平均数离差平方和最小；即：最小.③平均数保线性不变：设，则④n个相互独立变量和的平均数等于平均数的和；设，则()0xxxxxxxnxnn2()xxyabxyabx12nyxxxyxxx⑤n个相互独立变量乘积的平均数是平均数的乘积.设，则⑷算术平均数的变形——调和平均数各组变量值及频数加权算术平均数各组变量值及变量值总和调和平均数12nyxxxyxxxHx11Hxfxfmxxfmxfxfmxx2.中位数：⑴定义：变量值按照从小到大的顺序排成一列，位于中心位置的那个变量值称为中位数.备注：中位数能避免极端变量值的影响.⑵中位数的确定：①未分组资料中位数的确定：变量值从小到大排列，n奇数时，项变量值即为中位数；n偶数时，项与项的简单算术平均数.12n2n12n②单项数列中位数的确定：找到中间位置的变量值即可.③组距数列中位数的确定：ⅰ.用确定中位数所在的组；ⅱ.任一公式均可计算中位数：下限公式上限公式2fff2f12fmemSmLdf12fmemSmUdf上式中：表中位数；L,U分别代表中位数所在组的下限和上限；表变量值小于中位数的各组次数之和；表变量值大于中位数的各组次数之和；表中位数所在组的次数；d表中位数所在组的组距.em1mS1mSmf3.众数：变量在全部取值中出现次数最多的那个取值称为众数.（优点：简便，有代表性）⑴众数的确定：①单项数列的众数：频率（频数）最大值的变量值即为众数.②组距数列的众数：采用上限公式或下限公式确定众数.1012mLd下限公式上限公式式中：表众数；L,U分别代表中位数所在组的下限和上限；表众数组的次数与前一组次数之差；表众数组的次数与后一组次数之差；2012mUd0m12二.算术平均数、中位数、众数三者的关系1.在正态分布情况下：变量值的分布以算术平均数为中心，两边呈对称性、离中心越远的变量值的次数越少，离中心越近的变量值的次数越多，其分布形状类似钟形.0exmm2.在偏态分布情况下：左偏、右偏变量值中存在特别大或特别小的极端数值，其分布曲线不对称.中位数总在众数与算术平均数的中间位置.众数与中位数的距离约为中位数与算术平均数距离的2倍，则：102(3)exmm103(2)emmx032emmx第三节离散程度的测度研究变量取值的离散程度：①反映各个变量值之间的差异大小；②反映变量次数分布密度曲线的形状.离散程度的测度指标有：极差、四分位全距、平均差、标准差、方差和变异系数等.一、离散程度的测度指标：1.极差（全距）：最大值与最小值之差，表示变量的变动范围.记做R.单项数列的极差：组距数列的极差：极差=最大组上限—最小组下限备注：若组距数列中有开口组，则极值无法计算.极差计算简单、意义明了；但不能全面放映变量值的差异情况，最易受极端值影响.maxminR2.四分位全距：将一组由小到大排列的变量数列分成四等分，得到三个分割点,，，记IQR为四分位全距.例1.2某企业某班组9名工人的日产量如下（单位：件）121315161718202224，试确定其四分位全距.解：确定与的位置：的位置：，则可知在与之间的.1Q2Q3Q31IQRQQ1Q3Q1Q14(1)2.5n1Q2x3x12112322()Qxxx1213(1513)14的位置：，则可知在与之间的.四分位距缺点：没有充分利用数据信息，对于组距数数列计算较复杂.3Q34(1)7.5n3Q7x8x12137872()Qxxx1220(2220)2231IQRQQ211473.平均差：变量各个取值相对于算术平均数的偏差绝对值的算术平均数称为平均差.记为A.D简单平均法：加权平均法：备注：平均差越小，则算术平均数的代性越好.但平均差计算不方便，实际中不常用..ixxADn.iiixxfADf4.标准差：变量各个取值偏差平方的平均数的平方根称为标准差.记作（常用的指标）简单平均法：加权平均法：备注：标准差越小，算术平均数的代表性越好.标准差强化了离差，应用广泛.2()ixxn2()iiixxff5.方差：指标准差的平方.记作，则方差为.方差的性质：⑴方差等于变量平方的平均数减平均数的平方；⑵变量与算术平均数离差平方和具有最小的性质；2222()iixxnn22()ixxn222()()xxxAnn()Ax⑶变量线性变换的方差等于变量方差乘以变量系数的平方；设，则有：.⑷n个独立变量代数和的方差等于方差的代数和；设，则有：⑸n个独立变量代数和的标准差不大于各变量标准差的代数和；设，则有：yabx222yxb12nyxxx122222nyxxx12nyxxx121222222()nnyxxxxxx6.变异系数：各个衡量变量取值之间绝对差异的指标与算术平均的比率通称为变异系数.极差系数，平均差系数,标准差系数，变异系数主要用于不同变量的各自取值之间差异程度的比较.100%RRVxRV.ADV..100%ADADVxV100%Vx偏度：指取值分布的非对称程度.峰度：指分布密度曲线顶部的平坦程度或尖峭程度.一.偏度的测度直观偏度系数测度法偏度矩偏度系数测度法1.直观偏度系数测度法：利用变量分布中心的不同指标之间的直观关系而确定的分布偏斜程度的指标.主要有：皮尔逊（K.Pearson）偏度系数和鲍莱(A.L.Bowley)偏度系数.第四节偏度与