1实验5抽样估计的SPSS应用5.1实验目的根据随机抽样资料,掌握对总体指标做出具有一定可靠性的估计或推断的SPSS实验,并对实验结果做出解释。5.2相关知识5.2.1.抽样方法:重复抽样和不重复抽样。SPSS软件中所采用的抽样方法为不重复抽样,本实验采用不重复抽样方法。5.2.2.抽样组织:按照抽取样本单位时是否遵循随机原则,抽样技术可以分为概率抽样和非概率抽样。其中,概率抽样又称为随机抽样,即按照随机原则抽取样本。随机抽样的组织形式有:简单随机抽样、类型抽样、等距抽样、整群抽样等,本实验采用简单随机抽样形式。5.2.3抽样估计方法:点估计和区间估计1.点估计:用样本统计量的值直接作为总体参数的估计值。如用样本均值直接作为总体均值的估计值,用样本比率(或成数)直接作为总体比率(或成数)的估计值,用样本方差直接作为总体方差的估计值等。常用的点估计方法包括:(1)矩估计法;(2)极大似然估计法(3)稳健估计法,本文采用矩估计法。2.区间估计:是在点估计的基础上,给出总体参数估计的一个范围,所以区间估计相对于点估计更加精确,要优于点估计。5.3实验内容5.3.1建立SPSS数据文件5.3.2利用SPSS软件抽取随机样本,抽样比率为30%。5.3.3运用SPSS软件,对总体均值进行点估计和区间估计。5.3.4运用SPSS软件,对各个班级成绩的均值进行点估计和区间估计5.3.5运用SPSS软件,对总体比率(成数)进行点估计和区间估计。5.3.6撰写实验报告。5.4实验要求5.4.1准备实验数据22009级财管专业111名学生的概率论课程成绩,见“表5-12009级财管学生概率课成绩.xls”。5.4.2完成实验任务,对实验结果做出简要分析。1.依据样本学生的概率论成绩,采用点估计和区间估计的方法,推断学生总体概率论课程的平均成绩,置信水平为90%。2.依据样本信息,推断该课程成绩80分及以上的学生比率,置信水平为90%。3.分析实验结果,提交实验报告。5.5实验步骤5.5.1建立SPSS数据文件通过SPSS软件打开Excel表,即表“5-12009级财管学生概率成绩.xls”。第一步:选择菜单“文件→打开→数据”,弹出如图5-1所示的“打开数据”对话框。图5-1“打开数据”对话框→在“文件类型(T):”中选择“Excel”,在“查找范围(L):”中找到要读取的Excel文件“5-12009级财管学生概率成绩.xls”→单击【打开】按钮第二步:在打开的SPSS数据编辑窗口的变量视图下定义变量的类型→单击工具栏的“保存”,在弹出的“将数据保存为”对话框(如图5-2)中,在“查3找范围(L):”中找到要保存文件的位置,在“文件名(N):”中输入要保存的文件名“5-1成绩”,单击【保存】按钮,至此完成SPSS数据文件“表5-1,2009财管1-4班概率成绩.sav”的建立与保存。图5-2“将数据保存为”对话框5.5.2抽取随机样本用简单随机不重复抽样方法抽样,抽样比例为30%。SPSS的随机抽样抽取的方式有两种:其一,近似抽样:即用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案,抽取的个案数不一定精确地等于用户指定的百分比,会有小的偏差,但这种偏差不会对数据分析产生重要影响。其二,精确抽样:要求用户给出两个参数,第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。本实验在这里选择“近似抽样”的方式抽取随机样本。第一步:打开数据文件“表5-1,2009财管1-4班概率成绩.sav”,在菜单选择“数据”→“选择个案”,得到“选择个案”对话框→选择【随机个案样本】4按钮,如图5-3。图5-3“选择个案”对话框第二步:在“选择个案”对话框中,单击【样本(S…)】按钮,得到“选择个案:随机样本”对话框→选择【大约(A)】选项,输入数字“30”→点击[继续]按钮,如图5-4。图5-4选择个案:随机样本对话框第三步:在“选择个案”对话框中,在“输出”框中选择【将选定个案复制到新数据集(O)】按钮→在“数据集名称(S):”后面的框内输入文件名字“样5本”→点击【确定】按钮,如图5-5。图5-5“选择个案”对话框此时将得到新生成的样本数据文件,将此文件进行保存到指定的位置,且命名为“样本.sav”。综上,通过采用近似随机抽样方法,从111名学生中抽样30%的学生作为样本,得到SPSS样本数据文件,即“2009级财管学生概率成绩样本数据文件.sav”,样本容量为42。5.5.3对总体均值进行点估计和区间估计第一步:打开SPSS样本数据文件“2009级财管学生概率成绩样本数据文件.sav”,依次选择【分析】→【描述统计】→【探索】按钮,得到“探索”对话框。将“成绩”选入“因变量列表”框内,在“输出”框内选择“统计量”选项,如图5-6。6图5-6“探索”对话框第二步:单击【统计量】按钮,选择“描述性”选项,在“均值的置信区间(C):”框内输入“90”,单击【继续】按钮,如图5-7。(注意:如果只进行点估计,不需要给出置信度,因此就不需要此步骤了)图5-7探索:统计量对话框第三步:再返回到“探索”对话框中,如图5-8。7图5-8“探索”对话框第四步:单击【确定】按钮,系统输出结果如表5-1。表5-1点估计及区间估计结果统计量标准误成绩均值85.78571.85776均值的90%置信区间下限82.6593上限88.91215%修整均值86.4471中值88.0000方差144.953标准差12.03964极小值60.00极大值100.00范围40.00四分位距18.75偏度-.766.365峰度-.603.717从表5-1可以看出,样本均值为85.7857,根据统计学原理,在合理估计的假设前提下,点估计是把样本均值或是成数直接作为总体的均值或是成数。因此,以上计算的样本均值85.7857分可以作为总体均值的估计值,即估计的111名学生的概率论课程成绩为85.7857分;在90%的置信度下,对2009级111名财管专业学8生的概率论课程平均成绩进行区间估计,其区间范围在[82.6593,88.9121]之间。5.5.4对各个班级成绩的均值进行点估计和区间估计如果按某一标志分组(如以班级为标志分组)的各班进行参数估计,这为各个班级之间的比较提供了方便。平均成绩的区间估计实现有“频率”、“描述”、“探索”、“均值”等过程,学生自行练习“描述”过程的操作方法(“描述”过程的操作路径为:“分析”→“描述统计”→“描述”)。(注意:在“频率”、“描述”实现方法中只能对总体进行估计,不能一步实现对各班进行估计,“探索”则可以一步实现各班的估计。)这里主要介绍“均值”过程的实现方法。第一步:打开样本数据文件“2009级财管学生概率成绩样本数据文件.sav”,”,依次选择“分析”→“比较均值”→“均值”,得到“均值”对话框。图5-9“均值”对话框→将“成绩”选入“因变量列表(D):”框内→将“班级”选入“自变量列表”框内,如图5-10。9图5-10“均值”对话框第二步:单击【选项(O)…】按钮,得到“均值:选项”对话框,图5-11“均值:选项”对话框→在“统计量(S):”框中,将“均值、方差、标准差”选入到“单元格统计量(C):”框中→单击【继续】按钮。10图5-12“均值:选项”对话框第三步:在“均值”对话框中,单击【Bootstrap(B)…】按钮,得到“Bootstrap”对话框,图5-13“Bootstrap”对话框11→在“Bootstrap”对话框中,选择“执行bootstrap”→在“样本数(N):”框中输入“42”→在“置信区间”中的“水平(%)(D):”框中输入“90”→在“抽样”框内选定“分层(T)”选项,在“变量(V):”中将变量“班级”移入到右边的“分层变量(R):”框中→单击【继续】按钮(说明:本次样本容量为42,置信水平为90%)图5-14“Bootstrap”对话框第四步:再返回到“均值:选项”对话框中,单击【确定】按钮,输出结果见表5-2。12表5-22009级财管各班平均成绩的区间估计班级StatisticBootstrapa偏差标准误差90%置信区间下限上限财管1班均值93.7692.2418.927592.488095.7162方差12.859-2.2614.1713.76018.287标准差3.58594-.39354.645351.936574.27564财管2班均值90.1111-.49742.103585.375392.6667方差47.361-5.32316.64816.99971.936标准差6.88194-.534401.337794.122448.48145财管3班均值76.9091-.57362.503271.068781.2197方差111.891-3.38441.14831.086181.759标准差10.57785-.367802.089555.5551013.48158财管4班均值80.7778.14295.032071.179689.5364方差275.194-19.96875.195101.606380.556标准差16.58899-.801432.4748710.0560619.50748总计均值85.7857-.15141.344683.284088.1233方差144.9532.89124.496100.810204.888标准差12.03964.078701.0070710.0399814.31331a.Unlessotherwisenoted,bootstrapresultsarebasedon42stratifiedbootstrapsamples由表5-2可以看出:(1)选取容量为42的样本,以90%的置信水平下,对2009级111名财管专业学生的概率论课程平均成绩进行区间估计,其区间范围为[83.2840,88.1233];(2)还可以看出对各个班级的概率论课程平均成绩的区间估计结果:财管1班平均成绩的区间范围为[92.4880,95.7162],财管2班平均成绩的区间范围为[85.3753,92.6667],财管3班平均成绩的区间范围为[71.0687,81.2197],财管4班平均成绩的区间范围为[71.1796,89.5364]。可见,以上实验过程不仅给出了总体的参数估计结果,同时还给出了按某一变量分组(如以班级为变量分组)的各班参数估计值,这为各个班级之间成绩的比较提供了方便。5.5.5对总体比率(成数)进行点估计和区间估计(该估计由学生自己完成)13估计总体比率(成数),需要对成绩分组,其方法有两种:“可视离散化”和“重新编码”过程进行组距式分组。在此以“可视离散化”方法为例,说明总体比率(成数)的估计过程。1.用“可视离散化”方法对成绩分组,说明总体比率(成数)的估计过程。Step①:打开样本数据文件“2009级财管学生概率成绩的SPSS样本数据文件.sav””。在SPSS界面的数据编辑菜单中,选择【转换(T)】→【可视离散化(B)】,进入“可视化封装”变量选择(对话框略)。Step②:选择“成绩”变量进入“要离散的变量(B)”框中(对话框略)→单击【继续】按钮,进入到“可视化封装”分割点设置对话框(对话框略)。Step③:给分组后的变量命名。在“可视化封装”分割点设置对话框中,在分割点设置对话框的“离散的变量(B):”两个框后,分别输入“成绩分组(或成绩分段)”和“成绩(离散化)”作为离散化变量的名称和标签。在右下方处“上端点”点击“排除(E)()”(对话框略)。Step④:设置分割点。直接点击分割点设置对话框右下方的【生成分割点(M)…】按钮,得到“生成分割点”对话框(窗口略)→在“生成分割点”对话框中,在“等宽度间隔(E)”下的“第一个分割点的位置(F)”后的框中输入80,在“分隔点数量(N)”后的框中输入1,在“宽度(W)”后的框中输入20,单击【应…】按钮(对话框略)。Step⑤:生成分组标签。在分割点设