盛世清北专业考研机构1人大统计学考研历年真题参考解答精华版(03-09)盛世清北专业考研机构22009年人大统计学专业课初试题参考解答一、设第一、二个总体均值分别为1与2,样本均值分别为1X与2X,样本方差分别为21S与22S。1.构造原假设和备择假设012112:0:0HH2.构造统计量。由于两总体方差相等,且均为正态总体,则可以构造如下检验统计量:121212()()11pXXtSnn其中222112212(1)(1)1564354953.521535pnSnSSnn则24204461.82017.31447.21111153.5()1636t3.计算临界值。给定显著性水平,如0.05,计算临界值120.05(2)(50)tnnt,由于5030,则0.050.05(50)1.645tz。4.做出决策。由于1.82011.645t,故拒绝原假设,即认为12。二、1.对于回归模型YX,的最小二乘估计为:'1'()XXXy。现在来看它的期望'1''1''1''1''1'()[()]()()()()()(())()()EEXXXyXXXEyXXXEXXXXXEXXXE从上面可以看出,要使为无偏估计,则必须满足()0E,所以只有当()0E时,才为有偏估计。盛世清北专业考研机构32.使()0E的原因:①遗漏了关键自变量,即全模型正确时,而我们误用了选模型。用选模型建模时,使得误差项中含有遗漏自变量的信息,从而期望不为零。证明过程如下证明:假设正确模型为YX,令(,)ptXXX,pt。而我们选用了模型ppYX来估计,得到'1'()ppppXXXy,则'1''1''1''1''1'()[()]()()()()(,)()pppppppppppppppttppppttEEXXXyXXXEyXXXXXXXXXXXXX从上式可以看出p是p的有偏估计。②加入了无关紧要的自变量,即选模型正确,而我们误用了全模型,这样会过度提取误差项信息,使得估计量有偏。证明过程和上式差不多。这里省略。3.解决办法:在选择自变量时,对因变量有重要影响的自变量尽量考虑全面,但自变量又不是越多越好,应该去掉那些对因变量没有影响或者影响很小的自变量。具体实施办法有前进法、后退法、逐步回归法等。三、是平稳过程,证明如下1()(cos())cos()211sin()[sin()sin()]220tEXEAtAtdAtAtAt2222222222()(cos())((cos()))[(cos())]1((cos()))cos()211[cos(22)][sin(22)]22242tVarXVarAtEAtEAtEAtAtdAAAtdAtA盛世清北专业考研机构422222(,)cov(,)()()()1()cos()cos()21[cos()cos(2)]221[cos(())sin(2)]224cos((4tststststsXXEXXEXEXEXXAttdAtsttdAAtstsA))ts即协方差函数只与ts有关。由平稳过程的定义知,题中所定义的过程为平稳过程。四、1.先来估计各层总体的方差。在比例估计中定义1,1,2,...,0,iiYiN第个单元具有所考虑的特征()其它则可得如下关于总体方差的式子22221111()[()](1)1111NNiiiiNNSYYYNYYYPQNNNN从上式我们可以估计出各层的方差2111111(1)0.50.50.25,0.51NsppsN2222222(1)0.70.30.21,0.45831NsppsN2333333(1)0.60.40.24,0.48991NsppsN(由于kN很大,故省略系数1kkNN。)2.考虑样本容量为600的简单随机抽样的方差。在简单随机抽样下总体比例的估计量为3000.51800.71200.60.58600p估计量方差的估计值为10.580.42()0.000406711599fpqvppqnn3.考虑奈曼分配的情形。设抽取的样本容量为'n,样本量在各层的分配公式为'1hhhLhhhWSnnWS盛世清北专业考研机构5代入数据得到''10.50.50.51490.250.30.45830.20.4899nnn''20.30.45830.28320.250.30.45830.20.4899nnn''30.20.48990.20190.250.30.45830.20.4899nnn则奈曼分配的估计量方差的估计为2211'''''''()(1)110.250.210.240.250.090.040.514910.283210.201910.06250.01890.00960.23560.514910.283210.20191LLhhhhsthhhhhhhpqpqvpWfWnnnnnnnnn4.计算'n。要使奈曼分层抽样与简单随机抽样有相同估计量方差,则必须满足()()stvpvp即'0.23560.0004067n解得'579n五、略。六、1.来看t的性质()0tE2222var()()[()]ttttEExcov(,)()()()0()tststsEEEts由上可看出,该模型违背古典线性回归模型的方差一致性假设,残差存在异方差性。2.加权最小二乘法。当残差存在异方差时,如果还是用最小二乘法估计参数,会带来严重的后果,如下①参数估计值虽是无偏的,但不是最小方差线性无偏估计;②参数的显著性检验失效;③回归方差的应用效果极不理想。鉴于此,我们必须寻求适当的方法对原来的估计方法进行变换,使变换后的估计方法满足同方差性假设。由于异方差性导致离差平方和盛世清北专业考研机构62011(,)(())niiiQyEy中的各项的比重不一样,地位不平等,导致使用普通最小二乘法时,回归线就被拉向方差大的项。而在此题中,残差系列与自变量观测值的平方成正比,即22var()ttx因此当我们在平方和各项前面加入一个权重21/iiwx时,各项的地位就平等了。从而克服了普通最小二乘法的弊端,这就是加权最小二乘法。它实施起来简单,原理清晰,是解决本题最好的方法。七、1.数据分析。在本题中有三个影响因素:时间、活动空间、安眠药。因变量是老鼠的活动状态,可以把它看成数值型变量。要研究的是时间、活动空间、安眠药对老鼠活动状态是否有显著的影响。我的分析思路是:首先,我把数据列成如下的表格吃药后立即记录的数据吃药不吃药关在一起11jx12jx分开喂养21jx22jx吃药后一小时记录的数据吃药不吃药关在一起11jy12jy分开喂养21jy22jy吃药后两小时记录的数据吃药不吃药关在一起11jz12jz分开喂养21jz22jz其中1,2,...,10j表示老鼠的编号,每个组有10只老鼠。,,xyz代表时间。其次,对每个表格的数据进行有交互作用的方差分析,通过分析得到活动空间、安眠药是否对老鼠活动状态有显著的影响,也可得到它们的交互作用是否对老鼠活动状态有显著的影响。通过在三个观测时间上各自的分析,最后得到安眠药在那个时间点上的效果最好。2.分析步骤。(和第八题的步骤差不多,这里就不写了。)注:上述问题属于有重复测量的方差分析问题,它与一般方差分析的不同之处在于它的盛世清北专业考研机构7时间观测值数据之间不是独立的、是相关的。这里将时间分开来处理,似乎有所不妥,特此说明,仅供参考。八、1.本题中职称和性别都是属性变量,满意度是数值型变量,要研究属性变量对数值型的影响,很自然会想到用方差分析方法,而本题中我们用无交互作用的双因素方差分析方法。①问题提出:在分析一个属性变量对一个数值型变量的影响时,我们把属性变量的各个水平各看成一个总体,然后比较这几个总体的均值,看它们是否有显著的差异,如果有显著的差异,则说明在各个水平下得到的数据之间是有差异的,即认为属性变量对数值型变量有显著影响。在本题中,比如我们要研究性别对满意度有无显著影响,我们的思路是把男、女两个水平各看成一个总体,然后根据数据设计一种方法检验它们的均值有无显著的差异,如果没有差异,那么我们认为两总体间的数据没有什么区别,即满意度差异不大,也即性别对满意度没有影响。②基本思想:在方差分析中我们假定因素的各个水平服从方差相等正态分布,这样在每个总体下抽取样本,由于抽样的随机性,会导致数据的不同,且各水平之间数据也会不同,我们现在要研究的各水平数据的差异性能完全由抽样的随机性解释吗?如果可以,我们认为个水平均值没有差异;否则,就有差异。具体的做法是,我们引进组内误差和组间误差两个概念,它们分别用组内平方和与组间平方和诠释。如果组间平方和与组内平方和经过平均后的数值相接近,则说明数据间的差异是由抽样的随机性引起的,不存在系统性差异,即属性变量对数值型变量没有影响。③分析步骤a.提出假设012112::HH,性别对满意度没有影响行因素假设性别对满意度有影响01231123::,,HH职称对满意度没有影响列因素假设不全相等职称对满意度有影响b.构造检验的统计量总误差平方和211()krijijSSTxx行因素误差平方和211()kriijSSRxx,均方误差1SSRMSRk列因素误差平方和211()krjijSSCxx,均方误差1SSCMSCr剩余因素误差平方和SSESSTSSRSSC,均方误差(1)(1)SSEMSEkrF统计量~(1,(1)(1)),~(1,(1)(1))RCMSRMSCFFkkrFFrkrMSEMSEc.统计决策。给定显著性水平,如果RFF,则拒绝原假设,说明行因素对观盛世清北专业考研机构8测值有显著的影响;如果CFF,则拒绝原假设,说明列因素对观测值有显著的影响。2.假定:①各个水平对应的总体都服从正态分布;②各个总体的方差相同;③各观测值是独立的;④性别和职称对满意度的影响是独立的,即它们之间没有交互作用。2008年人大统计学专业课初试题参考解答一、用中位数来描述家庭收入数据的集中趋势有优点亦有不足。1.中位数是指一组数据排序后处于中间位置的变量值,不受极端值影响,对偏斜程度较大的顺序或数值型数据代表性较好,所以它能够排除过高收入或过低收入带来的不良影响。2.作为描述数据集中趋势的指标,中位数的应用远不及平均值广泛,中位数只是一组数据中的一个值,因而对整个香港家庭收入信息有较大浪费;而平均值能包含所有收入信息,而且具有优良的数学性质,不过它易受极端值的影响,主要适用于测度偏斜度不大的数据。3.用中位数作为判别低收入的指标,那么低收入的比例一直