1第七章样本设计——样本容量的确定2确定概率抽样的样本容量样本容量不能决定代表性,但可影响结果的精度。样本的精度样本的统计量(如对一特定问题回答的平均数)与其所代表的总体的值的接近程度。大样本比小样本更精确,但是没有成倍的关系。财务和统计问题一般原则:样本越大,抽样误差越小样本大,耗费的成本也高抽样成本随样本容量直线递增,抽样误差却只是以样本量增长速度的平方根递减3确定概率抽样的样本容量样本容量的确定通常是介于理论上的完善方案与实际上可行方案之间的一个折中方案教条式方法以“经验性”为幌子,认为样本容量应该是“为保证精度,一般至少应该是总体的5%”例如关于鞋子的调查:1万名铁人三项运动员;耐克对“飞人乔丹”进行调查,200万名潜在的篮球鞋购买者简单易行,但不是一种高效率、经济的方法,教条式方法忽略了抽样的精确度问题。4确定概率抽样的样本容量约定式方法认为某一个“约定”或某一个数量就是正确的样本容量。样本容量是一个恒量,不受总体容量的影响,但也是其缺点,总体容量可能少于恒量;精度的要求也会发生变化。5确定概率抽样的样本容量成本基础法将成本作为确定样本容量的基础。样本容量的确定不是将调查所获得的信息的价值作为首要考虑因素,而是把预算作为考虑因素,通常会忽视调查结果对管理决策的价值。如何才能在不考虑成本的情况下确定样本容量?6确定概率抽样的样本容量传统统计方法运用以下概念来创见一个有效的样本。总体标准差的估计值抽样误差的允许范围抽样结果在特定范围内的预期置信度7传统统计方法差异性指受访者对某一特定问题的答案在相异性(或相似性)方面的总括。对于有明确答案选项的资料。你购买可乐是否选择“可口可乐?”区间性资料、具有多种选项的资料汽车行驶的里程数。受访者的回答可以制成图表。8图7.1年驾驶里程分布阐明了差异性如果多数回答都接近于同一个数字,而且大多数的回答者都集中在某一小范围内,则差异性小;反之,则差异性就大9图7.2分布的伸展反映了差异性总和10传统统计方法差异性差异性的基本概念就是指回答的相似程度。差异性小意味着回答相当相似,差异性大表示回答很不相似。如果答案曲线图显示十分集中或呈“尖峰”状态,则差异性小。如果曲线图显示受访者在各种可能的答案选项间平均分布,则差异性大。测量差异性的指标——标准差1ixxnn2i=1(-)标准差=11如何运用标准差来测定差异性呢?将两个样本的标准差进行比较,以判定相关的差异性。12传统统计方法比较两个图形,可以得出结论:在1955年汽车拥有者的驾驶里程较少(平均),而且差异性也不大(标淮差),但现在的车主们年平均驾驶里程较多,差异性也较大。13正态分布的特征(根据以上图形)1.正态分布呈钟形且只有一个众数2.关于均值对称,集中趋势的三个衡量标准(平均数、众数、中位数)相等3.一个正态分布的特殊性由其均值和标准差决定4.正态曲线下方的面积等于1145.正态曲线下方任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率6.在均值的给定比例标准差范围内的概率为固定值。即所有的正态分布在平均数+-1个标准差之间的面积相同,都占曲线下方面积的68.26%,或者说占全部调查总体结果的68.26%。这叫正态分布的比例性。15正态分布重要的原因许多变量的概率分布趋于正态分布。爱吃快餐的人平均每月吃快餐的次数,每星期看电视的小时数,男性身高的分布等。中心极限定理—对于任何总体,不论其分布如何,随着样本容量的增加,抽样平均数的分布趋近于正态分布16xf(x)xxfx,eπ21)(22212•f(x)=随机变量X的频数•=正态随机变量X的均值•=正态随机变量X的方差•=3.1415926;e=2.71828•x=随机变量的取值(-x)正态分布2~(,)xN17正态分布标准正态分布任何正态分布都可以转化为标准正态分布均值等于0标准差等于118置信区间的概念是一个范围,其终点指定了对于一个问题的某一应答百分率。正态曲线的属性是,标准差的1.96倍从理论上表示95%的分布终点,标准差的2.58倍表明了99%的分布终点。95%的置信区间=1.96个标准差(±)均值99%的置信区间=2.58个标准差(±)均值以95%来举例说明。19抽样分布的概念总体分布总体中全部单位的频率分布,平均数为,标准差样本分布单个样本中所有单位的频率分布,具体的分布形式依赖于总体分布。抽样分布一个总体中许多独立样本均值的理论分布。在大样本的情况下,其分布近似服从于正态分布。20抽样分布的概念如果样本是随机的且容量足够大,则样本均值的分布近似于正态分布理论基础是中心极限定理:随着样本容量的增加,从任一总体中抽取的大量随机样本平均数的分布接近服从正态分布。其均值为,且标准差等于:n为样本容量,为总体的标准差xSn2~(,)xNn21平均数或百分率标准误差的概念实际总体值与所预期的典型样本结果的差距。平均数标准误差,即样本均值的标准差(抽样误差)。由于总体标准差是未知的,一般由样本标准差s代替。例如:驾驶里程调查中,样本容量n是100名驾驶者,标准差是3000公里,则平均数标准误差=300。211()nNCxiniNSxXCn22平均数或百分率标准误差的概念标准误差还适用于研究百分率的调查,称之为百分率标准误差。Sp百分率标准误差;p为样本中的百分率;q=1-p;n为样本容量。例:假设抽选中的100名驾驶者中有40%的人表示其汽车上配有辐射状轮胎。则标准误差为:=4.899211()nNCxiniNpqSpPnC23计算样本容量——均值问题2~(,)~(0,1){}11{,}=xxNNnnxpZnxZxZZnnnh22即则的置信度为的置信区间为:令hZh为可接受的误差水平,则n=24计算样本容量——均值问题在简单随机抽样的条件下,样本容量为其中:Z=标准误差的置信水平=总体标准差h=允许误差(可接受误差水平)n=Z22h225计算样本容量——均值问题置信水平Z和误差E的确定需要由调研人员同客户进行磋商后确定,要在精确度、置信度和成本之间进行衡量。估计总体标准误差的四种方法1.利用以前的结果2.进行试验性调查3.利用二手资料4.通过判断,把许多管理人员的判断集中起来进行分析26例如:估计快餐族平均每月吃快餐的平均次数:与公司的管理者进行磋商后,市场调研经理认为有必要估计一下吃快餐的平均次数。考虑到管理者对精确度的要求,他规定估计值不得超过实际值的0.10。这个值将作为h带入公式。此外,市场调研经理还认为,考虑全局,需要把实际总体平均值在区间以内的置信度定为95%。而若要置信度为95%,就必须是在2倍标准误差范围内(严格为1.96)。因此2作为Z值代入公式最后确定公式中的值,幸好公司做过类似的调查。调查对象是最近30天内吃快餐的平均次数。标准差为1.39,带入样本容量的公式。经过计算,可知样本容量为722时,可以满足提出的要求。27计算样本容量——比率问题保守估计可取P值为.50给定Z和E,P将得到最大可能样本P=0.50将会使PQ最大n=Z2PQh2