二、简答题1.简要区别描述统计与推断统计?答:描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。2.一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。3.在列联分析中,简述2统计量的计算步骤?4.简述单因素方差分析的基本步骤?(1)提出原假设(2)构造检验的统计量计算各样本的均值计算全部观测值的总均值计算各误差平方和:总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)计算统计量(3)统计决策(4)方差分析表(5)用Excel进行方差分析5.简述双因素方差分析的基本步骤?(1)提出假设(2)构造检验的统计量(3)统计决策6.简述方差分析的基本思路和原理?(1)图形描述(2)误差分解(3)误差分析7.简述2分布、t分布、F分布及正态分布之间的关系?这是三大抽样分布,他们都是基于正态分布建立起来的。8.回归分析主要解决哪几方面的问题?(1)从一组样本数据出发,确定变量之间的数学关系式。(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。(3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的可靠程度。9.回归分析与相关分析的区别?(1)相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,变量x称为自变量,用于预测因变量的变化。(2)相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。(3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。10.简述一元线性关系的检验步骤?(1)提出假设(2)计算检验统计量F(3)作出决策三、名词解释1.拉氏价格指数:以现期价格购买一个基期选定的商品组合的成本相对于以基期价格购买同一组合的成本的比值。2.帕氏价格指数:以现期价格购买一个现期选定的商品组合的成本相对于以基期价格购买同一组合的成本的比值。3.集中趋势:指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。4.置信区间:由样本统计量所构造的总体参数的估计区间。5.置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例。6.弃真错误:当原假设为真时拒绝原假设,所犯的就称为第一类错误,又称弃真错误,即α错误。7.取伪错误:当原假设为假时没有拒绝原假设,所犯的就是第二类错误,又称取伪错误,即β错误。8.多重共线性:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。9.趋势:是时间序列在长期内呈现出来的某种持续上升或持续下降的变动。10.线性趋势:指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律。11.回归方程:描述因变量y的期望值如何依赖于自变量x的方程方程。12.最小二乘估计:通过使因变量的观测值iy与估计值iyˆ之间的离差平方和达到最小来估计0和1的方法。13.判定系数:回归平方和占总平方和的比例。14.估计标准误差:说明实际值与其估计值之间相对偏离程度的指标。15.残差:是因变量的观测值iy与根据估计的回归方程求出的预测值iyˆ之差。16.拟合优度:指回归直线对观测值的拟合程度。17.组内误差:来自水平内部的数据误差。18.间接误差:间接测量的误差。19.系统误差:在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差。20.回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程。四、计算题4.2随机抽取25个网络用户,得到他们的年龄数据如下:19152925242321382218302019191623272234244120311723(1)计算众数、中位数:0M=19和23;eM=23(2)根据定义公式计算四分位数:1Q=19;3Q=26.5(3)计算平均数和标准差:x=24;s=1)(2nxxi=6.65(4)计算偏态系数和峰态系数:SK=33)2)(1()(snnxxni=1.08K=4224)3)(2)(1()1(])([3)()1(snnnnxxxxnnii=0.773(5)对网民年龄的分布特征进行综合分析:样本数据的均值为24岁,但标准差较大,说明网民年龄之间差异较大。从偏态和峰度系数来看,网民年龄呈现右偏尖峰分布。7.11某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(单位:g)如下:每包重量(g)包数96~9898~100100~102102~104104~106233474合计50已知食品包重量服从正态分布,要求:(1)确定该种食品平均重量的95%的置信区间。解:大样本,总体方差未知,用z统计量xzsn0,1N;x=101.4,s=1.829置信区间:22,ssxzxznn1=0.95,2z=0.025z=1.9622,ssxzxznn=1.8291.829101.41.96,101.41.965050=(100.89,101.91)(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的置信区间。解:总体比率的估计大样本,总体方差未知,用z统计量1pzppn0,1N;p=(50-5)/50=0.9置信区间:2211,pppppzpznn1=0.95,2z=0.025z=1.962211,pppppzpznn=0.910.90.910.90.91.96,0.91.965050=(0.8168,0.9832)7.18某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。(1)求总体中赞成新措施的户数比例的置信区间(α=0.05)),(为:户数比例的总体中赞成该项改革的,,,,已知:.77051.0即13.064.0500.64)-0.64(196.164.0np)-(1z的置信区间95%1.96z0.0564.0503205nα/20.05/2ppp(2)如果小区管理者预计赞成的比例能达到80%,要求估计误差不超过10%。应抽取多少户进行调查(α=0.05)?621.0)80.01(80.096.1)1()(zn1.96z0.0580.02222/20.05/2E应抽取的样本量为:,,已知:7.20顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在办理业务时所等待的时间(单位:分钟)如下:方式16.56.66.76.87.17.37.47.77.77.7方式24.25.45.86.26.77.77.78.59.310要求:(1)构建第一种排队方式等待时间标准差的95%置信区间。解:估计统计量:2221~1nSn样本标准差:22s=0.2272置信区间:222222121111nSnSnn1=0.95,n=10,221n=20.0259=19.02,2121n=20.9759=2.7222221211,11nSnSnn=90.227290.2272,19.022.7=(0.1075,0.7574)因此,标准差的置信区间为(0.3279,0.8703)(2)构建第二种排队方式等待时间标准差的95%置信区间。解:估计统计量:2221~1nSn样本标准差21s=3.318置信区间:222222121111nSnSnn1=0.95,n=10,221n=20.0259=19.02,2121n=20.9759=2.7222221211,11nSnSnn=93.31893.318,19.022.7=(1.57,11.06)因此,标准差的置信区间为(1.25,3.33)(3)根据(1)和(2)的结果,你认为哪种排队方式更好?答:第一种方式好,标准差小!8.4糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下:99.398.7100.5101.298.399.799.5102.1100.5已知包重服从正态分布,试检验该日打包机工作是否正常(a=0.05)?解:H0:μ=100;H1:μ≠100经计算得:x=99.9778;S=1.21221检验统计量:0xtsn=99.97781001.212219=-0.055当α=0.05,自由度n-1=8时,查表得2/αt=2。因为t<2t,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。8.10装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单位:分钟)如下:甲:313429323538343029323126乙:262428293029322631293228两总体为正态总体,且方差相同。问两种方法的装配时间有无显著不同(a=0.05)?解:建立假设H0:μ1-μ2=0;H1:μ1-μ2≠0总体正态,小样本抽样,方差未知,方差相等,检验统计量121211pxxtsnn根据样本数据计算,得1n=12,2n=12,1x=31.75,1s=3.19446,2x=28.6667,2s=2.46183。221112212112pnsnssnn=221210.922161210.7106712122=8.1326121211pxxtsnn=2.648当α=0.05时,临界点为2122tnn=0.02522t=2.074,此题中t>2t,故拒绝原假设,认为两种方法的装配时间有显著差异。8.14某工厂制造螺栓,规定螺栓口径为7.0cm,方差为0.03cm。今从一批螺栓中抽取80个测量其口径,得平均值为6.97cm,方差为0.0375cm。假定螺栓口径为正态分布,问这批螺栓是否达到规定的要求?(α=0.05)20:H=7;21:H70025.00549.180/03.0797.6/nx不能拒绝原假设。8.15有人说在大学中男生的学习成绩比女生的学习成绩好。现从一个学校中随机抽取了25名男生和16名女生,对他们进行了同样题目的测试。测试结果表明,男生的平均成绩为82分,方差为56分,女生的平均成绩为78分,方差为49分。假设显著性水平α=0.02,从上述数据中能得到什么结论?解:首先进行方差是否相等的检验:建立假设H0:21=22;H1:21≠22