SPC:数据特征的描述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Chapter1MeasureofCentraltendencyandDispersion数据特征的描述中国最庞大的资料库下载数据特征的描述过程•数据收集•整理•显示•描述中国最庞大的资料库下载第一节、统计数据的搜集•两种数据来源:•原始数据•次级数据•两种数据形式•横截面数据•时间数列数据中国最庞大的资料库下载统计资料可利用组织:•国际劳工组织统计局:劳动力、就业、工资、社会保险、工会等•联合国教科文组织:教育、科学、文化、技术等•联合国棉农组织、卫生组织、国际货币基金会、世界银行等中国最庞大的资料库下载一、基本内容•调查目的•调查对象调查内容调查方法•调查结果满足调查目的中国最庞大的资料库下载二、调查方法方法对象特点适用条件普查全部单位一次性、周期性、数据准确、全面、使用面窄掌握总体情况有限总体抽样调查样本单位经济、实用、准确、适应面广掌握总体情况、有限总体与无限总体重点调查重点单位非随机性掌握趋势存在重点单位典型调查典型单位非随机性用于定性分析统计报表全部单位与非全部单位统一性、准确性中国最庞大的资料库下载三、调查对象一、全面调查不重复、不遗漏二、非全面调查代表性、选择偏性引例:1936年罗斯福与兰登的总统竞选《文学摘要》罗斯福(43%)兰登(57%)1千万实际结果:罗斯福(62%)兰登(38%)盖洛普:罗斯福(56%)5万人泛法航空中国最庞大的资料库下载四、调查内容-问卷设计•(一)问卷结构:•说明词、填写要求、问卷正文及结尾•说明词:主办单位及调查员身份、调查的目的和意义、承诺及感谢•问卷正文:需要调查的问题及答案、被调查者的背景资料•结尾:说明中国最庞大的资料库下载(二)、问卷的措辞•清楚定义内容:5w•“您使用什么品牌的化妆品”•用词通俗、词义明确•“您经常收看电视节目吗?”“1、从来不看;2、偶尔看;3、有时看;4、经常看;5、天天看”•避免隐含的选择(乘车、牛仔裤)•避免否定形式的提问•避免诱导性或倾向性的词汇、避免重叠、答案详尽中国最庞大的资料库下载(三)、问题的顺序•1、先易后难•2、封闭型问题置前,敏感性、开放性问题置后•3、注意对后继问题的影响:•(1、您在选择购物时,哪些因素是重要的?•2、您在选择购物时,售后服务这个因素的重要性如何?)•4、逻辑思路保持一致中国最庞大的资料库下载第二节、数据的整理•审核分组(品质数据、数•量数据)计算频数与频率数据的表现中国最庞大的资料库下载一、数据资料的可用性•方法错误•引:时间,空间,口径等•逻辑错误•引:产值与销售值,年龄与工作年限•主观错误•敏感性、政治性等•引:失业率与平均每周申请失业保险人数帕科特•贝尔康柏IBM帕科特•贝尔苹果苹果盖威特-2000帕科特•贝尔康柏康柏苹果…………………………………二、数据的分组与频率的计算(一)品质数据的分组与计算频数:每组数据值出现的次数表2-5购买50台计算机的样本数据帕科特•贝尔11合计50中国最庞大的资料库下载(二)、数量数据的整理数量数据频数分布的分组需要3个步骤:1、确定组数;2、确定组距;3、确定组限。引例:表:年终审计时间(天)1214191815151817202722232221332814181613、确定分组数目本例组数==5.3我们确定分5个组。2、确定组距近似的组距=本例组距=取整数5天。=中国最庞大的资料库下载按审计时间分组(天)频数10-14415-19820-24525-29230-341合计20表2-9审计时间数据频数分布4、计算频数与频率审计时间数据的相对频数和百分比频数分布按审计时间分组(天)相对频数百分比频数10-140.202015-190.404020-240.252525-290.101030-340.055合计1.00100中国最庞大的资料库下载按审计时间分组(天)频数向上累计频数分布向下累计频数分布10-14442015-198121620-24517825-29219330-341201合计20——表2-11审计时间数据的累积频数分布中国最庞大的资料库下载在数量数据整理中要注意的问题有:•1、在一些应用中,我们需要知道各分组的中点,也就是组中值。•2、开口组(即只有上限或只有下限的组),其组中值用邻组的组距计算。•3、在数据较少的情况下,可用品质数据整理的方式,采取单变量值分组。•4、连续变量与离散变量的组限问题上组限不在内•5、等距与不等距分组中国最庞大的资料库下载三、数据的表现•统计图•统计表•统计指标、直方图是用图形说明数量数据的另一种常用方法。图2-8审计时间数据直方图(一)统计图、条形图是用图的方式描述已概括成频数、相对频数或百分比频数分布的品质数据的图形•、饼图是用圆的各部分面积来呈现品质数据的常用方法。本例中所有各组计算机购买的百分比频数总和为100,一个圆有360°,则饼图中苹果机的部分为26%´360°=93.6°,其他组的部分以此类推算出、统计折线图与曲线图•洛伦茨曲线•生命曲线•投机需求曲线•质量曲线5、象形图中国最庞大的资料库下载按收入大小顺序排列的家庭数占总收入的%累计家庭数%累计收入的%最低的20%4.7204.7第二个20%114015.7第三个20%176032.4第四个20%24.48056.8最高的20%43.2100100洛伦茨曲线中国最庞大的资料库下载累计收入的%累计家庭的%中国最庞大的资料库下载(二)、统计表中国最庞大的资料库下载年份国内生产总值最终消费最终消费率年末人口)1989112704199018319.511365.261.3114333199121280.413145.960.8115838199225863.615952.159.91171711993199419951996合计34500.647110.959404.968498.2274978.120182.158.327216.258.234529.459.040171.758.6162562.6118517119850121121122389—中国最庞大的资料库下载第三节、数据特征的描述•绝对数与相对数•集中趋势:•众数、中位数、平均数•离散趋势:•全距•方差、标准差•方差系数、标准差系数中国最庞大的资料库下载一、绝对数与相对数•(一)绝对数•反映社会现象整体规模和水平•时期数•时点数•(二)相对数•结构、比较、计划等中国最庞大的资料库下载(三)绝对数与相对数的应用•1、指标内涵和可比性:GNP、工业增加值•2、指标的结合运用•引例:在美国,1985年有19893人遭谋杀,与1970年16848人遭到谋杀相比,增加了20%。这些数字揭示了在1970-1985年期间美国变成一个更多暴力的社会•中国的国民生产总值增长了8%,美国的为1%中国最庞大的资料库下载二、数据集中趋势的描述•(一)、众数Mode•众数是总体数据中出现次数最多的变量值。•例3-1:有10名大学生的年龄:18,18,19,19,19,19,19,20,20,21,在这里19岁的人数最多,所以19岁是众数。•例3-2:有10名职工的年龄:20,21,22,23,24,25,26,27,28,29,由于各年龄的人数相同,没有明显集中趋势点的数值,所以这里没有众数。中国最庞大的资料库下载注意:•1、是位置平均数,不受极端值的影响•2、假定各单位在组内是均匀分布的•3、信息量小,缺乏敏感性,不适合代数运算•4、用于非对称的次数数列、特别是品质标志数列•5、用于数列中有较多的数值向某一数值集中•6、有时会存在多个众数中国最庞大的资料库下载(二)、中位数Medium•中位数就是把计算对象的数据按大小顺序排列后,处于中间位置上的变量值。=中国最庞大的资料库下载•注意:•1、是位置平均数,不受极端值的影响•2、假定各单位在组内是均匀分布的•3、信息量小,缺乏敏感性,不适合代数运算•4、用于非对称的次数数列•引:个人收入、年龄中国最庞大的资料库下载(一)定义:均值就是分布中全部数据的算术平均值。(二)、确定1、对未经整理的原始数据,表示均值,则三、均值Mean、对分组数据中国最庞大的资料库下载某公司推销员工作量如下:表3-4推销量(件)组中值X推销员人数(人)FXF20-3030-4040-5050-6060-7025354555652810415028045022065合计——251065例中国最庞大的资料库下载对平均数的理解:•(1)某房间有10人平均身高1.6米,第11人走进,其身高1.9米,求11人的平均身高;若房间里20个人身高平均1.6米则第21人走进,21人的身高又会如何•(2)一教师出3个问题,每题1分班级中30%得3分,50%得2分,10%得1分,10%得0分;全班有10个人;全班有20人?•(3)经济衰退时,工人的平均工资高,平均失业期短;经济繁荣时,平均工资低,平均失业期长;•这会是真实吗中国最庞大的资料库下载注意:•平均数的大小受变量值和权重两个因素的影响•平均数收极端值的影响•权重的选择要注意其经济意义•正确理解各平均数指标、当数据有明显的集中趋势又是偏态分布时其代表性较好;2、不受极端数值的影响;1、具有不唯一性,有的分布有不只一个众数,有的分布没有众数;2、具有假定性,当假定不成立时其代表性会很差。中位数1、不受极端数值的影响;2、可描述集中趋势不明显;3、数据分布中心值;1、具有假定性,当假定性不成立时其代表性会很差;2、当分组数较少而分布又较集中时,中位数不一定准确。均值1、数据信息提取最充分,具有优良的数学性质;2、既是数据分布的中心,又是数据的重心,应用广泛,是其他统计方法的基础;1、对组距分组数据计算均值具有一定的假定性;2、受极端数值的影响;二)众数、中位数和均值的特点和应用场合中国最庞大的资料库下载离散程度是评价数据一般水平代表性大小的依据,并可以反映数据分布的均衡程度。一、全距(Range)与四分位距、全距也称极差,是用分布数据中的最大值减去最小值的差,表示为四分位距:将

1 / 73
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功