__________________________________________统计学___________________________________________①统计学解答题部分1、一组数据的分布特征可以从哪几个方面进行描述?答:数据分布的特征可以从三个方面进行测度和描述:(1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;(2)分布的离散程度,反映各数据远离其中心值的趋势;(3)分布的形状,反映数据分布的偏态和峰态。2、影响样本量大小的因素有哪些?简述这些因素与样本量的关系。答:(1)研究对象的变化程度;(2)所要求或允许的误差大小(即精度要求);(3)要求推断的置信程度。关系:当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。3、简述统计数据的类型和特点。答:一、类型:1)按计量尺度:分类数据、顺序数据和数值型数据;2)按收集方法:观测数据和实验数据;3)按被描述的现象与时间的关系:截面数据和时间序列数据。二、特点:1)按计量尺度分时:分类数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。2)按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。3)按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。4、在假设检验中,当不拒绝原假设时,为什么不采取“接受原假设”的表示方式?答:(1)从假设检验的原理看,不拒绝原假设意味着我们所构成的与原假设相矛盾的小概率事件没有发生,但可能还有许多其他的与原假设矛盾的小概率事件,我们没有也无法证实所有的这些小概率事件不会发生。(2)在假设检验中通常先确定显著性水平,这就等于控制了第I类错误的概率,但是犯第Ⅱ类错误的概率却是不确定的。(3)综上,我们把假设检验中出现接受0H的结果解释为“没有发现充足的证据反对0H”,或者更严格的解释为“在显著性水平α下没有发现充足的证据反对0H”,而不用“接受原假设H0”的表示方式,因为我们无法证明原假设是真的。5、什么是判定系数?它在回归分析中的主要作用是什么?答:①判定系数是回归平方和占总平方和的比例,记为2R,其计算公式为:2R=SSR/SST。②在回归分析中,2R主要是用于测度回归直线对观测数据的拟合程度。取值范围为[0,1]。2R越接近于1,回归直线的拟合程度就越好;2R越接近于0,回归直线的拟合程度就越差。若所有的观测点都落在直线上,2R=1,拟合是完全的;如果2R=0,那么回归直线对数据完全没有拟合。__________________________________________统计学___________________________________________②6、解释95%的置信区间。答:如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。7、说明区间估计的基本原理?答:区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率度量。8、测度两个分类变量相关性的统计量有哪些?他们有什么不同?答:测度两个分类变量相关性的统计量有以下几个:Φ相关系数、列联相关系数(c系数)相关系数、v(1)Φ相关系数:描述2×2列联表数据相关程度最常用的一种相关系数且Φ系数没有上限。(2)列联相关系数(c系数):主要用于大于2×2列联表的情况且c系数小于1.(3)v相关系数:取值在0-1之间,当两个变量相互独立时,v=0;当两个变量完全相关时,v=1.若列联表中有一维为2,v相关系数=Φ相关系数。9、什么是方差分析?它研究的是什么?答:(1)方差分析:就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)本质上来说它所研究的是分类型自变量对数值型因变量的影响。10、方差分析中有哪些基本假定?答:方差分析有三个基本假定:(1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。2(2)各个总体的方差σ必须相同。也就是说,各组观察数据是从具有相同方差的正态总体中抽取的。(3)观测值是独立的。也就是说,每个样本数据是来自因子各水平的独立样本。11、相关分析主要解决哪些问题?答:相关分析就是对两个变量之间线性关系的描述与变量,它要解决的问题包括:1.变量之间是否存在关系?2.如果存在关系,它们之间是什么样的关系?3.变量之间的关系强度如何?4.样本所反映的变量之间的关系能否代表总体变量之间的关系?为解决这些问题,在进行相关分析时,对总体主要有以下两个假定:1.两个变量之间是线性关系。2.两个变量都是随机变量。12、在回归分析中,F检验和t检验各有什么作用?答:一元线性回归中,自变量只有一个,t检验和F检验是等价的。被t检验拒绝,它也被F检验拒绝。在多元回归分析中,F检验只是用来检验总体回归关系的显著性,而t检验则是用来检验各个回归系数的显著性。13、解释回归模型和估计的回归方程的含义答(1)回归模型:描述因变量y如何依赖于自变量x和误差项的方程。只涉及一个自变量的一元线性回归模型可表示为:y=β0+β1x+ε(2)估计的回归方程:回归模型中的参数β0和β1是未知数,必须利用样本数据去估计他们。用样本统计量^β0和^β1代替回归方程中的未知数β0和β1,就得到了估计的回归方程。它是根据样本数据求出的回归方程的估计。对于一元线性回归,估计的回归方程形式是:^y=^β0+^β1x14、解释多重判定系数和调整的多重判定系数的含义和作用?答:多重判定系数:是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反应了在因变量y的变差中被估计的回归方程所解释的比例。调整的多重判定系数:用样本容量n和自变量的个数k去调整R得到作用:避免增加自变量而高估R22__________________________________________统计学___________________________________________③15、解释多重共线性的含义。答:当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。16、多重共线性的判别方法主要有哪些?答:(1)模型中各对自变量之间显著相关。(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数βi的t检验却不显著。(3)回归系数的正负号与预期的相反。(4)容忍度与方差扩大因子(VIF)。容忍度越小,多重共线性越严重,当小于0.1时,存在严重多重共线性。VIF越大,多重共线性越严重,一般认为VIF大于10时,存在严重多重共线性。17、时间序列由哪几个要素组成?答:时间序列由4要素组成,即趋势(T)、季节性或季节变动(S)、周期性或循环滚动(C)、随机性或不规则波动(I)。①趋势是时间序列在长时期内呈现出来的某种持续向上或持续下降的变动,也称长期趋势。②季节性也称季节变动,它是时间序列在一年内重复出现的周期性波动。③周期性也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡变动。④时间序列除去趋势、周期性和季节性之后的偶然性波动,称为随机性,也称不规则波动。18、解释时间序列的预测程序。答:在对时间序列进行预测时,通常包括以下几步骤:第一步:确定时间序列所包含的成分,也就是确定时间序列的类型。第二步:找出适合此类时间序列的预测方法。第三步:对可能的预测方法进行评估,以确定最佳预测方案。第四步:利用最佳预测方案进行预测。计算题部分第四章统计数据的概括性描述4.1一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:24710101012121415要求:(1)计算汽车销售量的众数、中位数和平均数。(2)根据定义公式计算四分位数。(3)计算销售量的标准差。(4)说明汽车销售量分布的特征。解:(1)众数:100M。中位数:5.5211021n中位数位置,1021010eM。平均数:6.91096101514421nxxnii。(2)5.24104nQL位置,5.5274LQ。5.7410343nQU位置,1221212UQ。__________________________________________统计学___________________________________________④(3)2.494.156110)6.915()6.914()6.94()6.92(1)(222212nxxsnii(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。4.2随机抽取25个网络用户,得到他们的年龄数据如下:单位:周岁19152925242321382218302019191623272234244120311723要求;(1)计算众数、中位数:(2)根据定义公式计算四分位数。(3)计算平均数和标准差;(4)计算偏态系数和峰态系数:(5)对网民年龄的分布特征进行综合分析。解:(1)从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众数,即190M和230M。将原始数据排序后,计算的中位数的位置为:13212521n中位数位置,第13个位置上的数值为23,所以中位数23eM。(2)25.64254nQL位置,19)1919(25.019LQ。75.184253位置UQ,56.252-7257.052)(UQ。(3)平均数242560025231715191nxxnii。65.61251062125)2423()2417()2415()2419(1)(222212nxxsnii(4)偏态__________________________________________统计学___________________________________________⑤系数:08.165.6)225)(125(242533ixSK。峰态系数:77.065.6)325)(225)(125()125()24(3)24()125(254224iixxK。(5)分析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。4.3某银行为缩短顾客到银行办理业务等待的时间。准备采用两种排队方式进行试验:一种是所有颐客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。第二种排队方式的等待时间(单位:分钟)如下:5.56.66.76.87.17.37.47.87.8要求:(1)画出第二种排队方式等待时间的茎叶图。(2)计算第二种排队时间的平均数和标准差。(3)比较两种排队方式等待时间的离散程度。(4)如果让你选择一种排队方式,你会选择哪—种?试说明理由。解:(1)茎叶图如下:茎叶数据个数551667837134885(2)796398.78.76.65.5x。714.0808.419)78.7()78.7()76.6()75.5(2222