管理学院王雪华副教授第二章、数据的搜集与整理统计工作总是从收集资料开始的,但由于生产和实践过程中收集到的资料和数据往往是分散的,而且从表面上看不出有什么规律性,也不能说明任何问题,必须经过整理和归纳后,这一批数据所遵循的规律才能显露出来,方可得出有意义的统计结论。数据的收集数据的整理管理学院王雪华副教授数据的收集从理论上讲,进行大量观测、试验,就可以清楚地掌握随机现象的统计规律。但有时大量试验客观上是不允许的(如破坏性试验),这时只能得到有限的,甚至是很少的数据,以什么样的方式收集资料更为有效?——抽样管理学院王雪华副教授例子:国家医护协会对于医护专业未来护士的缺乏十分关注。为了了解现阶段护士们对于工作的满意程度,该协会发起了一向对全国的医院护士的调查研究。作为研究的一部分,一个由50名护士组成的小组被要求写出她们对工作、工资和升职机会的满意程度(见表一)抽样管理学院王雪华副教授几个概念总体(population):全国的医院护士---研究对象的全体/或研究对象的某项数量指标X的值的全体。一般用X表示。样本(sample):被抽到的这50名护士--总体中抽出若干个体所组成的集合。一般用X1X2…Xn表示一个样本容量为n的样本。管理学院王雪华副教授抽样的目的!1.总体?全体医护人员对工作的满意度3.这50名护士对工作的满意度资料2.样本!被抽到的50名护士4.将样本的结论推广到总体上管理学院王雪华副教授抽样抽样调查中应当注意的问题抽样方法的优点抽样方法抽样调查的应用管理学院王雪华副教授抽样方法的优点费用较低速度较快应用范围较广准确度较高管理学院王雪华副教授费用较低如果数据是从总体的一个很小的部分取得,那么他的费用就比普查小。在美国,政府说进行的最重要的经常性调查,使用的样本在105,000人左右,或者说大约从1240人中抽取一个人。在市场研究中,可能只要对几千人的样本进行调查。管理学院王雪华副教授速度较快收集和综合样本资料要比收集和综合全面调查的资料更快些。在迫切需要有关的信息时,考虑这一点是极为重要的。管理学院王雪华副教授应用范围较广就能取得的信息的种类来说,抽样调查可以发挥作用的范围更为宽广,而且具有更大的灵活性。管理学院王雪华副教授准确度较高在工作量减少以后,由于能雇用质量较高的工作人员并对他们进行深入的训练,还由于实地调查工作可以受到更仔细的检查监督,调查资料的处理页能够完成,因此与可能进行的全面调查相比,抽样调查可能取得更准确的结果。管理学院王雪华副教授抽样调查的应用联合国统计局经常发表由成员国进行的“当前所关心的的情况的抽样调查(SampleSurveysofCurrentInterest)”报告。1968年的报告就列出了46个国家的调查。这些调查很多是为了收集对国家计划显然很重要的情报,例如农产品产量、土地使用情况、劳动力的多少与失业人数、工业生产、批发与零售价格、人民健康情况与家庭的收支等等。管理学院王雪华副教授抽样调查的应用离婚的原因(匈牙利),家庭用水的消耗量(以色列),乳牛的年龄结构(捷克)以及职位空缺情况(美国)。在美国,大多数的大城市中都有商业性的机构从事为顾客设计和进行抽样调查的业务。市场研究在很大程度上依赖于抽样方法。工厂主与零售商要知道人们对新产品的包装方法的反应,对老产品的批评以及他们喜爱这一种产品,不喜爱另一种产品的原因。管理学院王雪华副教授抽样调查中应当注意的问题要更据调查的目的确定合理的调查总体明确待收集的数据都与调查目的有关并且没有遗漏基本数据根据精度要求,选择恰当的抽样方法和方案。事先对所需费用和时间加以估计,在小范围内预先试验,改进方案。有效组织现场实地的调查工作。管理学院王雪华副教授抽样方法1简单随机抽样(独立的、有代表性的、等可能性的)简单随机抽样也叫完全随机抽样,它是在无限总体中进行的无放回独立或在有限总体中进行的有放回随机抽样。任一样本被抽取的概率都是相等的情况,像平时的抽签,借助随机表进行的抽样等就是简单随机抽样。--不重复抽样与重复抽样之分管理学院王雪华副教授抽样方法2分层抽样将总体中的成员按某种原则划分成若干个子总体,每个子总体称为一层,在每层中进行简单随机抽样或其它抽样,称为分层抽样。分层抽样适用于调查既需要对总体又需要对局部进行估计的情况。如调查大连市民的收入情况。(当层内差异比较小,而层间差异比较大时,分层抽样可以提高估计的精度。)--不重复抽样与重复抽样之分管理学院王雪华副教授抽样方法3整群抽样将总体中的成员分为若干群,从这些群中抽取部分群,调查对象是被抽中的这些群中的所有成员。如民主选举前的民意测验。(当群内差异比较大,而群间差异比较小时,整群抽样比较准确)4系统抽样——等距抽样.准确性差将总体中的调查单位按某种次序排序,随机地选定初始单位,然后按相等的间距抽取其它样本单位。(要求对调查单位的排序次序必须进行细致研究)--不重复抽样与重复抽样之分管理学院王雪华副教授数据的整理为了探寻大量观测的样本数据中所隐藏的统计关系,有必要对数据加以整理和归纳。数据的描述性指标图、表表示管理学院王雪华副教授数据的描述性指标例子:某班30名MBA学生的年龄按上升顺序排列为:272728282828292929293030303030313131313132323333333334343435。数据集中趋势的度量数据离散趋势的度量管理学院王雪华副教授数据集中趋势的度量众数#—30,31;中数#--30.5;平均数#--30.67;上四分位数#---x23;下四分位数#---x8272728282828292929293030303030313131313132323333333334343435。管理学院王雪华副教授数据离散趋势的度量极差R#(全距)--8;两极的差方差S2#--5;公式为标准差S—2.25;方差开平方四分位差—2;上下四分位数的差的一半272728282828292929293030303030313131313132323333333334343435。21)(1n1XXnii管理学院王雪华副教授众数众数-就是出现次数最多的数(众数可以不唯一,也可以不存在。)272728282828292929293030303030313131313132323333333334343435。管理学院王雪华副教授中数中数(中位数)--将数据按从小到大的顺序排列后,位置居中的数。(偶数个数据时,将中间两个数平均)272728282828292929293030303030313131313132323333333334343435。管理学院王雪华副教授上四分位数上四分位数--将数据按从小到大的顺序排列后分别记为:x1,x2,x3,…,xn,则xi为上四分位数,其中i=n×3/4=23272728282828292929293030303030313131313132323333333334343435。管理学院王雪华副教授下四分位数下四分位数--将数据按从小到大的顺序排列后分别记为:x1,x2,x3,…,xn,则xi为下四分位数,其中i=n×1/4=8272728282828292929293030303030313131313132323333333334343435。管理学院王雪华副教授*两个重要的样本指标*样本均值X#样本方差S2#管理学院王雪华副教授SamplesA1992surveyconductedbytheFoundationforWomenandCenterPolicyAwarenessaskedmarriedworkingwomentoidentifythefactorsthatwouldcontributemosttoimprovedfamilylife.moreflexiblehours272higherpay208morehelpathome120betterdaycare56nothing144管理学院王雪华副教授样本均值xn为样本容量,反映样本数据的集中程度。显然它随样本而变化,因此是随机变量。样本均值x=niiX1n1管理学院王雪华副教授)2,(~nNX样本均值x的分布#根据中心极限定理:来自于正态总体N(μ,σ2)的样本均值标准化得到:)1,0(~n-xN管理学院王雪华副教授样本方差s2的分布样本方差S2=21)(1n1XXnii它反映样本数据的分散程度,显然他随样本而变化,也是随机变量。22)1(Sn~χ2(n-1)管理学院王雪华副教授*统计量#*设X1,X2,…,Xn是来自于总体X的一个样本,g(X1,X2,…,Xn)是关于X1,X2,…,Xn的函数,若连续、且不含有任何未知参数,则称g(X1,X2,…,Xn)为一个统计量。(统计量是指由样本确定的不含有其它未知数的函数)如样本平均X,样本方差S2等管理学院王雪华副教授*统计量例子*设总体X~N(μ,σ2),已知均值μ,而方差σ2未知。X1,X2,X3为来自总体的一个样本,指出以下哪些是统计量:(A)X1+3X2+σ2(B)X1+2μ(C)max{X1,X2,X3}(D)X1(E)X(F)S2答案:B、C、D、E、F管理学院王雪华副教授*综合例子*1。设总体X~N(1,4),,求P(0≤X≤2)和P(0≤X≤2),其中,X为样本容量为16的样本均值.2。在总体X~N(80,202)中随机抽取一容量为100的样本,为样本平均值与总体均值的差的绝对值大于3的概率?管理学院王雪华副教授*综合例子*3。已知某工厂的次品率为1%,设从一大批该厂生产的产品中随机地抽取一个容量为500的样本,令X为该样本的次品率,则X近似地服从什么分布?为什么?结束下一章管理学院王雪华副教授美国军用标准无论在任何国家或地区,其政府必然是最大的买家(消费者),美国更是如此。美国的国防部财力雄厚,购买的物品种类五花八门:上至大型电脑、飞弹、穿梭机等,下至灯泡、衣物、文具等,多姿多彩。真可谓是制造者必争之顾客。管理学院王雪华副教授美国军用标准这个顾客不同一般,其地位相当优越,主动订下其对产品品质的要求,编就了一本本的小册子,皆命名为MilitaryStandard(MIL--STD),其中包括所需产品的质量标准、原材料要求和要求的可靠度等。管理学院王雪华副教授美国军用标准例如:MIL-STD-001可能是关于军靴的质量要求,MIL-STD-002可能是关于水性笔的质量要求等.等编到105册的时候,他们认为有必要制定允许接受抽样标准.MIL-STD-105定名为“SamplingProceduresandTableforInspectionbyAttributes”管理学院王雪华副教授美国军用标准这是一个抽样系统,它的最大特点就是每次选取的不是一个而是一套三个的抽样计划-NormalStandard、TightenedStandard和ReducedStandard。例如:NormalStandard-50(5/6),TightenedStandard-50(3/4),ReducedStandard-20(2/5)。管理学院王雪华副教授美国军用标准这套法则是这样的:(1)在交易的初期,使用正常验收计划;(2)在使用正常计划的日子里,假如某连续送验的五批之中,有两批被拒收,则买家依合同转而使用收紧验收计划;管理学院王雪华副教授美国军用标准(3)在使用收紧计划的日子里,假如有连续送验的五批都被接收,则买家有义务恢复使用正常计划;(4)在使用收紧计划的日子里,假如连续十批的表现都未能唤回正常允许接收标准,那么买家有权终止合同;管理学院王雪华副教授美国军用标准(5)从开头起,假如连续十批都在正常标准下被接收了,则改用放宽标准的验收计划;(6)在使用正常计划的日子里,从每拒收一批起,假如连续14批都被接收,则改用放宽标准的验收计划;管理学院王雪华副教授美国军用标准(7)在使用放宽计划的日子里,只要有一个抽中的样本中含有多于允许接收数目的次品,则改用正常标准的验收计划;被美国政府各部门采用