中国人民大学805统计学历年真题(2013-2000)2013年人大805统计学真题一、证明题:(20分)每题10分1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球,若和上一次取出的球颜色不同,则放回,回到第一步;若和上一次取出的球颜色相同,则丢掉,重复第二步。证明取出的最后一个球是红球的概率是1/2。2.证明n维正态随机向量的各分量相互独立的充要条件是互不相关。二、简述:(30分)每题10分1.设昆虫在树叶上产卵数X服从参数为的泊松分布,而只有树叶上有卵时才能判断是否有昆虫。在又设观察到的虫卵数Y,P(Y=i)=P(X+i|X0),求P(Y为偶数)和E(Y)。2.2n+1个独立同分布样本,分布函数是F(x)求中位数x(n+1)的分布3.设走进某商店的顾客数是均值为50的随机变量。又设这些顾客所花的钱数是相互独立、均值为100元的随机变量。再设任一顾客所花的钱数和进入该商店的总人数相互独立。试问该商店一天的平均营业额是多少?三、已知Y1,……,Yn是相互独立的随机变量,且均服从。求的矩估计和最大似然估计,并求他们的均方误差。(25分)四、X和Y是两个相关的随机变量:求证var(Y)=E(var(Y|X))+var(E(Y|X))并谈谈你对它的理解和应用。(25分)五、谈谈你对双因素方差分析的理解和认识。(25分)六、一元线性回归中有三个检验:线性相关检验,回归方程显著性检验以及X的回归系数的检验,谈谈你对它们的理解和它们之间的关系。(25分)2012年人大805统计学真题一、为研究不同地区与购买汽车的消费价格之间的相关关系,调查得到如下的数据:东部地区西部地区中部地区10~20万60405020~30万20303030~40万30305040~50万102040对于以上的数据可以用什么统计图表分析,并说明这些图表的用途。对于以上的数据可以用什么统计方法分析,并说明这些方法的用途。二、为检验一厂家生产的产品,提出如下的假设检验:H0:u=500,H1:u=!500现在抽取了部分的样品进行检验。若检验结果拒绝H0,则意味着什么?若检验结果没有拒绝H0,则又意味着什么?能否恰好取到一组样本证明H0:u=500成立?为什么?若检验的P=0.03,则意味着什么?P值的真实含义是什么?三、现研究某地区平均GDP与居民消费总额、固定投资、进出口额、年末总人口之间的关系,进行了多元回归分析。题目分别给出了三个表:表1:整体拟合程度:R,R方,调整的可绝系数。表2:整体线性关系的F检验表3:系数的显著性t检验,方差扩大因子VIF(存在多重共线性)请对上述回归模型进行综合评价。四、题目中给出了从99年1月到2004年3月某地区各月的销售额的一个时间序列图,该序列图中包含哪些成分?可以用什么方法来分析此模型,并简要叙述可种方法的基本原理。五、说明距离判别法与贝叶斯判别法的联系。六、说明大数定律与中心极限定理的内容和应用?七、在敏感性问题的调查中,为了保证回答者尽量真实回答,采用如下方法:以比例p的人回答敏感性问题(1):你具有特征A吗?回答结果为是或不是。另外1-p的比例人回答问题(2):比如你的手机号尾数是奇数吗?回答是的比例为t。假设总体具有特征A的人数比例为q,样本中回答是的比例为R。1.试提出q的一个估计。2.证明该估计是q的一个无偏估计。求出q的方差的表达式。2011年人大805统计学真题一、简答题(50分)1.简述加权最小二乘估计的基本思想。2.进行主成分分析需是否要知道数据的具体分布,请说明原因。3.k-均值聚类对比分层聚类,优点在哪里。4.题目给出了一个回归分析残差的散点图,有点线性趋势的那种,问据图分析可能出现了什么问题。5.简述方差分析和回归分析的异同。二、已知X与W相互独立(30分)。1.X与W都服从正态分布,且W的期望为零,Y=a+bX+W,求X与Y的联合分布。2.W服从正态分布,其期望为零,方差为Ɛ2(是表示平方),Y=b0+b1X+b2X2(是表示平方)+W,当X=x时求Y的条件期望。三、CPI是衡量经济发展的重要指标,CPI的计算包括收集数据的四个阶段和确定权数的两个阶段,(他这里描述了这六个阶段的具体操作方法)。(30分)1.结合调查知识和统计理论说明CPI所属类别(这个有待考证,希望大家来修正~)。2.指出CPI的调查过程中误差的可能来源。3.指出这个过程中涉及的调查总体、随机变量及待估总体的特征。4.如果每个阶段的调查都严格按照1—a的置信水平,那么总的置信水平是多少。四、假设女性和男性读书的语速都服从正态分布。研究者认为女性读书的语速比男性快,为证明这一点抽取了n1名女性和n2名男性,分别测得他们读书的语速,发现n1名女性的平均语速比n2名男性快,研究者由此得出女性读书的语速比男性快的结论。请问研究者的方法对吗?为什么?应该怎样验证?(20分)五、题目给出了从2006年1月到2010年6月的商品销售额的时间序列图(有明显线性趋势的),现在想预测2010年下半年的商品销售额,请问用什么应该模型,写出模型的具体形式和模型的建立过程。(20分)2010年人大805统计学真题一)五道问答题(50分)1.两地区的什么比例,运用均值的t检验,得出这两个地区的均值相等,是否正确,为啥子呢?2.卡方统计运用在哪方面3.贝叶斯统计与经典统计的区别4.时间序列的弱平稳的含义5.评述多重共线性的解决方法(二)给出三个运动员10次射击的数据,问用什么图可以表示这些数据?用哪些统计量可以分析这些数据(三)R型聚类与Q型聚类含义?聚类分析与判别分析区别?层次聚类的步骤?(四)该题中的第一类错误是什么?第二类错误是什么?顾客认为哪类错误比较重要?厂家认为哪类错误比较重要?(五)给出x1,x2,...,x7个自变量,要求找出各县区经济发展的内在原因。用什么模型?这种模型对数据有什么要求?模型有哪些假设?如何得到参数估计值?如何分析该模型?(六)如何验证正态分布?能不能说这个区间包含均值的真值?p=一个很小的数,能不能说银行的认识正确?2009年人大805统计学真题1.有两个正态总体,均值和方差未知。但已知方差相等,从第一个总体中抽取n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49.如何检验第一个总体的均值是否大于第二个总体的均值。2.在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。3.周期过程Xt=Acos(ωt+ψ),其中频率ω和振幅A都是常数,而相位ψ是一个在区间[-π,π]上服从均匀分布的随机变量,问{Xt}是否平稳?说明原因。4.把一个总体分为三层,各层的权重和预估的比例见下表。待估计的参数为总体比例,如采用内曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。(假设各层总体单位数量Nh都充分大,忽略“有限总体校正系数”)层总体权重Wh=Nh/N预估的层内总体比例10.50.520.30.730.20.65.与人大出出版社的21世纪统计学系列教材的《统计学(第二版)》的第四章习题中的第十题是一样的。6.若有线性回归模型yt=β1+β2Xt+εt,(t=1,2,…,n),其中E(εt)=0;E(εt2)=δ2Xt2,E(εtεs)=0(t≠s),问:(1)该模型是否违背古典线性回归模型的假定,请简要说明。(2)如果对该模型进行估计,你会采用什么方法?请说明理由。7.测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,药后一小时记录,药后两小时记录。对于不吃药的白鼠,记录时间与统一对中另外一只白鼠的记录时间相同。假定40只白鼠的初始活动状态相同。请详细阐述你用何种方法分析安眠药的效果?8.某大学从教师中抽取一个随机样本进行满意度调查。1分表示非常不满意,100分表示非常满意。数据汇总如下表,欲分析教师职称和性别对满意度有无显著性影响。(1)你会选择什么分析方法?简述你的分析思路(可用公式说明,不需计算结果)。(2)要采用改分析方法,数据必须满足哪些几本假定?请加以说明。男女调查人数满意度调查人数满意度教授30883082副教授30833080讲师307430752008年人大805统计学真题一、07年香港一则报道说:“随着经济的增长,香港低收入家庭的比例在增长,其中低收入的家庭是指低于中位数的家庭。”请你从统计的角度对该报道做简要评论。(10分)二、经常有人说方差分析是比较多个总体的均值是否相同,但为什么叫方差分析呢?请谈谈你对方差分析的理解,并说明方差分析解决问题的基本思路。(10分)三、如果时间序列在随时间变化的过程中既有趋势又有季节变动,你认为可以建立什么样的预测模型。请你写出模型形式并加以简要说明(10分)四、食品厂家说:净含量是每袋不低于250g。但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验(30分)(1)如果厂家自己检验,你认为提出什么样的原假设和备则假设?并说明理由。(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备则假设?并说明理由。(3)消协抽取20袋,如下数据(略了没抄),得p值为0.4297,在5.0的显著水平下,检验假设意味着什么?p值的含义是什么?(4)据样本数据得该食品每袋平均重量95%置信区间(241.1,257.5),你认为这种食品实际平均重量是否在该区间?为什么?五、在经典的多元线性回归模型里,针对自变量事实上是有许多假设的。(15分)(1)请具体指明这些假设有哪些?(2)说明这些假设所发挥的主要作用。(3)请讨论这些假设最终产生的影响。六、在有关统计知识方面内容的中学课本里编者认为基本的抽样方式只有三种,并不包括整群抽样,请说明你赞同与否并详列理由。(15分)七、叙述贝叶斯判别分析的原理(包括完整的假设)并说明:(30分)(1)与聚类分析相比,贝叶斯判别分析赖以进行的数据结构有何特点?(2)与其他判别分析相比,贝叶斯判别分析结果的表现形式有何不同?八、在诸如大坝、码头等工程设计中,坝高和码头高度的确定十分关键,要考虑许多因素,(1)以大坝为例,概略说明需考虑的主要因素(2)大坝高度通常利用长期洪水历史记录数据,依据几十年一遇的标准确定,请写出计算坝高详细的具体步骤(画出框图,并尽量避免过多使用文字)(30分)2007年人大805统计学真题一、(20分)下面是一种零件误差的数据(单位:克):6.14.76.56.27.76.45.57.16.15.35.76.15.34.04.83.23.91.94.93.85.32.65.35.55.82.76.87.45.63.3(1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,5.728882)。请问,若使该置信区间有意义,需要对总体进行何等假定?这种假定能不能用数据证明?是不是该区间以0.95的概率覆盖真实总体均值?如果不是,说出理由及合适的说法;(2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。如果进行t检验,需要假定哪些条件?t检验结果为p值等于0.0807。能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么?二、(20分)一家研究机构想估计在30个网络公司工作的员工每周加班的平均时间,为此进行抽样调查。请回答以下问题:(1)如果对这些员工进行随机电子邮件调查,由答复的邮件所得到的数据是不是简单随机样本?为什么?(2)抽样调查中,说“响应误差总是人们不说实话导致的”对不对?为什么?随机误差是不是可以避免的?(3)这些员工的加班时间是否独立?如果不是,原因可能是什么?