一、多项选择题1.有关样本的分布,以下陈述正确的是:ABCA.如果样本X1,…,Xn独立同分布来自Gamma分布,𝑋=1𝑛∑𝑋𝑖𝑛1在大样本下有近似的正态分布;(中心极限定理)B.如果样本X1,…,Xn独立同分布来自N(µ,σ2),𝑋=1𝑛∑𝑋𝑖𝑛1在大样本情况下有精确分布N(µ,σ2/n);(原分布为正态分布)C.如果样本X1,…,Xn独立同分布来自N(µ,σ2),即使样本量不大,𝑋=1𝑛∑𝑋𝑖𝑛1也服从正态分布;(原分布为正态分布)D.如果样本X1,…,Xn来自任意分布,在大样本情况下,由X1,…,Xn组成的数据有近似的正态分布;(不符合中心极限定理(样本均值))2.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;(P值一般[0,1])B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。(P值是概率值不是分布)3.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;(要利用QQ图鉴别样本数据是否近似于正态分布,只需要看QQ图上的点是否近似的在一条直线附近,而且,该直线的斜率为标准差,截距为均值。)B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值小于0.05;(P值小于0.05拒绝原假设,即正态分布不成立)C.对数据直方图做光滑后没有发现数据有很大的发散趋势;(通过形状是否为正态钟形来判断)D.χ2拟合优度检验,统计量的值偏小。(卡方统计量偏小则不拒绝原假设(H0:分布为正态))4.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156B256C356D456.(n=𝑧0.0252𝑆2𝑑2=4*1600/25=256)5.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;(在显著性水平一定的情况下(例如α=0.05),对于单侧检验时仍使用α进行统计推断,双侧检验则用α/2进行统计推断,同样条件下双尾检测区域小、效率更低)6.某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号:12345678促销前(辆):9083105971107855123促销后(辆):9780110931238457110A.两样本Z检验B.两样本t检验C.单一样本t检验D.单一样本Z检验(同一样本即8个销售点做不同实验进行均值比较,且当前为小样本830且总体方差未知,故使用单一样本t检验)7.在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是该统计量随着样本量的增大,它与它估计的总体参数越来越近,这种评价标准称为:CA.无偏性B.有效性C.一致性D.充分性(估计量除了无偏、小方差,此外随着样本容量增大估计量收敛于被估计的参数值,即相合性或一致性)8.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):CA.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]((y_-x_)±t*SQRT(sy2/ny+sx2/nx))=11.40±1.03或y_-x_±λ,其中λ=tα/2(n1+n2-2)*√(𝑛1−1)𝑆1𝑛1∗2+(𝑛2−1)𝑆2𝑛2∗2*√𝑛1+𝑛2𝑛1𝑛2(𝑛1+𝑛2−2)≈1.0365所以区间为11.40±1.0365即[10.36,12.43]9.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。(zα/2*SQRT(s2/n))10.某调查公司接受委托满意度调查,满意度分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:BA.9~15分B.11~13分C.12~14分D.6~18分(x_±z0.025*σ/√𝑛=12±2*3/6)11.一位社会学者随机抽取3000个家庭,想研究文化程度的高低与离婚率的高低是否有关,适合采用的检验方法应是(D)A.正态分布检验B.t分布检验C.χ2拟合优度检验D.χ2独立性度检验(针对因变量/自变量均是分类类型组成列联表,使用卡方独立性检验检验变量相关性)12.在假设检验中,备择假设所表达的含义总是指(D)A.参数是正确的B.变量之间没有关系C.参数没有发生变化D.参数发生了变化(由于研究者感兴趣的是备择假设H1的内容,所以假设检验的方向是指备择假设H1的方向。用θ表示总体参数,因为原假设假定总体参数未发生变化,而备择假设假定总体参数发生了变化,所以,“=”总是在原假设上。如果备择假设为总体发生了特定方向的变化,则备择假设去”=”,为双侧方向,假设检验为双侧检验(又称双尾检验);如果备择假设为总体参数沿某一方向发生了变化,则备择假设含有””或“”符号,备择假设为单向,假设检验为单侧检验(又称单尾检验))13.在估计某一总体的均值时,随机抽取了n个单元作样本,用样本均值作为估计量,在构造置信区间时,发现置信区间太宽,有可能的原因是:BCA.选择的估计量有偏B.样本量太小C.置信水平太大,应从0.10降低到0.05D.精度要求太高(参照9)二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2.解释下面符号的区别:s2,σ2和σ(提示:请按有放回和无放回抽样分别叙述)分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差σ2𝑋。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本X1,X2…,Xn,并且与总体同分布,从而样本均值的方差σ2𝑋=σ2/n。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本X1,X2…,Xn,σ2𝑋=D(𝑋)=1𝑛2∑𝐷(𝑋𝑖)𝑛𝑖+1𝑛2∑𝑐𝑜𝑣(𝑋𝑖,𝑋𝑗)𝑖≠𝑗=σ2/n-𝑛(𝑛−1)𝑛21𝑁−1σ2=𝑁−𝑛𝑁−11𝑛σ2(其中𝑁−𝑛𝑁−1为修正系数)当总体N充分大的时候,σ2𝑋接近于放回抽样的均值方差。3.统计推断与描述统计之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。4.解释p值检验的基本原理。p值是在原假设下出现检验统计量的实现值及(向备择假设方向)更极端的值的概率。p-值度量从样本数据得到的信息对原假设的支持程度。p值越小,就越有理由说明样本数据不支持原假设。如果p值小于显著性水平α,那么能够拒绝原假设,否则就不能拒绝。因此p值常常被称为该检验的观测显著性水平。5.请说明Gamma分布与卡方分布之间有哪些区别与联系?伽玛分布(GammaDistribution)是统计学的一种连续概率函数。Gamma分布的概率密度函数为f(x,α,β)=βαxα-1e-βx/Г(α)(x0),f(x,α,β)=0(x=0),自由度为n的卡方分布是Gamma分布在α=n/2,β=1/2时,即Gamma(n/2,1/2)的特例。6.求Gamma分布的矩估计。Gamma分布的概率密度函数为f(x,α,β)=βαxα-1e-βx/Г(α)(x0),f(x,α,β)=0(x=0),则通过积分运算:E(X)=∫𝑥+∞0f(x,α,β)dx=α/β,E(X2)=∫𝑥2+∞0f(x,α,β)dx=α(α+1)/β2,令µ1=α^/β^=A1=X_,µ2=α^(α^+1)/β2=A2=1𝑛∑𝑋𝑖2𝑛1得参数的矩估计α^=𝑋2𝑆𝑛2,β^=𝑋𝑆𝑛27.假设检验中的两类错误之间有什么关系?能否同时减少两类错误?根据样本观察值进行检验时,由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断。(1)正确的判断是:当原假设H0:θ∈Θ0成立时,接受原假设H0:θ∈Θ0;或当原假设H0:θ∈Θ0不成立时,拒绝原假设H0:θ∈Θ0;(2)错误的判断是:当原假设H0:θ∈Θ0成立时,拒绝原假设H0:θ∈Θ0,此类弃真错误称为第I类错误;或当原假设H0:θ∈Θ0不成立时,接受原假设H0:θ∈Θ0,此类取假错误称为第II类错误。一个“好”的检验方法,应该使得犯这两类错误的概率都尽可能的小,但一般来说,当样本容量固定时,不能使第I类错误和第II类错误同时很小。8.简述损失函数和风险函数的定义损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数,损失函数参数的真值为θ,决策的结果为d,两者的不一致会带来一定的损失,这种损失是一个随机变量,用L(θ,d)表示。风险函数是损失函数的期望值,表示为:R(θ,d)=E[L(d,θ)]。决策的目标是要找出一个决策方案d,使其对各个自然状态风险值均为最小。应用时,常常对θ(参数的真值)确定一个概率分布,并使其平均的风险值r(d,θ)达到最小,其中:r(d,θ)=E[R(d,θ)]=∑1(d,θ)p(θj)9.解释t分布和正态分布之间的差异联系:随看自由度增大t分布趋近于标准正态分布;当n30时二者相差很小;当n→∞时二者重合.区别:①正态分布是与自由度无关的一条曲线;t分布是依自由度而变的一组曲线.②t分布较正态分布顶部略低而尾部稍高.10.解释假设检验和置信区间的区别假设检验与置信区间都是根据样本信息推断总体参数,二者可相互转换,形成对偶性,都是统计推断的重要内容。主要区别:1)参数估计是根据样本统计量估计总体参数的真值;假设检验是根据样本统计量来检验对总体参数的先验假设是否成立;2)区间估计通常求得的是以样本估计值为中心的双侧置信区间,而假设检验以假设总体参数值为基准,不仅有双侧