统计学简答题划重点

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.数据的计量尺度有哪几种?有定类尺度、定序尺度、定距尺度、定比尺度。定类尺度也称类别尺度或列名尺度,它是把事物按属性或类别分组。其计量的结果只是表现为某种类别,而对各类间的其他差别却无法测度。定序尺度也叫顺序尺度,它是对事物之间等级差别或顺序差别的测度。具有定类尺度的所有性能。定距尺度也叫间隔尺度,是对事物间的类别或次序间的间距的测度,其计量结果表现为数值。定比尺度也叫比率尺度,它与定距尺度属于同一层次,其计量结果也表现为数值。2.常用的统计调查方式主要有哪些?⑴统计报表。是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。⑵普查。是为特定目的而专门组织的一次性全面调查。⑶抽样调查。是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。3.分类数据,顺序数据的整理及图示方法各有哪些?⑴用频数分布表展示分类数据和顺序数据⑵用图形展示分类数据和顺序数据①条形图②饼图4.数据型数据的整理及图示方法有哪些?试述组距分组的步骤。⑴用频数分布表(变量数列)展示数值型数据①单变量值分组②组距分组⑵用图示展示数值型数据①直方图②箱线图③线图④茎叶图组距分组的步骤:①确定组数②确定各组的组距③整理成频数分布表5.试描述均值,中位数,众数的特点及应用场合均值的计算是建立在每个观测值之上的,因此均值受极端值的影响很大。在这种时候,均值歪曲了数据实际传递的信息,因此,当数据集有极端值时,均值并不是集中趋势的最好的描述。众数、中位数和均值各自具有不同的特点,在实际应用中,应选择合理的测度值来描述数据的集中趋势。当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,选择用均值比较好,因为均值包含了全部数据的信息,易被大多数人所理解和接受;当数据为偏态分布是,特别是当偏斜的程度较大时,应选择众数或中位数;当数据为定类尺度时,如商品(服装、鞋类)等的规格,用众数是较好的选择。6.为何要计算离散系数方差、标准差等都是测度数据分散程度的绝对值,其大小一方面取决于原变量值本身水平的高低,也就是与变量值的均值大小有关。另一方面,它们受原变量值计量单位的影响,不同计量单位的数据,无法直接通过方差、标准差等比较其离散程度。为消除变量值水平高第2页低和计量单位不同对离散程度测度值的影响,需要计算离散系数。7.方差分析的基本原理方差分析的主要思想是将影响指标值的一个或几个因素取不同的水平,然后建立相应的方差分析模型,由此给出检验因素的不同水平对指标是否有显著影响的统计分析过程8.简述方差分析的基本步骤(1)分析变异原因,计算各变因的平方和、自由度及其均方。(2)列方差分析表并做出F测验,以明了各变因的重要程度。(3)对各个平均数进行多重比较,最后做出结论。9.简述方差分析和回归分析的异同相关与回归分析是研究变量之间不确定性统计关系的重要方法相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。具有共同的研究对象,都是对变量间相关关系的分析,二者可以相互补充。相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在相当程度的相关关系时,进行回归分析去寻找变量间相关的具体数学形式才有实际的意义。同时在进行相关分析时,如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中相关系数的确定也是建立在回归分析基础上但它们在研究目的和对研究方法上有明显区别10.简述回归方程的显著性检验与回归系数的显著性检验的区别和联系t检验常能用作检验回归方程中各个参数的显著性,而f检验则能用作检验整个回归关系的显著性。各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系.t检验是对单个变量系数的显著性检验,F检验是对整个模型的拟合优度检验,即所有变量对被解释变量的显著性检验11.多元回归中为什么要对可决系数进行修正随着模型中解释变量的增加,多重可决系数R的平方的值会变大。当解释变量相同而解释变量个数不同时运用多重可决系数去比较两个模型拟合程度会带来缺陷,因为可决系数只考虑变差,没有考虑自由度。12.多元回归模型的基本假定有哪些多元线性回归模型的基本假定有:零均值假定、随机项独立同方差假定、解释变量的非随机性假定、解释变量之间不存在线性相关关系假定、随机误差项ui服从均值为0方差为色个码的平方的正态分布假定。13.异方差的含义是什么异方差性是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定是:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。14.什么是多重共线所谓多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。15.简述全面调查,非全面调查,概率抽样,非概率抽样四者之间的关系根据调查是否针对总体的所有单元进行,调查有全面调查和非全面调查之分全面调查:针对总体中的每一个单元都进行信息搜集的调查,又称为普查。非全面调查:仅仅针对总体中一部分单元进行信息搜集的调查。狭义的抽样调查是非全面调查中最常用、最重要的一类。而狭义的抽样一般仅指概率抽样调查,广义的抽样调查指的即是非全面调查,分为概率抽样调查和非概率抽样调查概率抽样:按照一定概率从总体的所有单元中随机选择一部分单元进入样本的抽样方法非概率抽样:样本不是按照一定概率抽出,而是由抽样者主观抽出或者是任由受访者自愿进入样本的抽样方法16.非概率抽样的主要形式有哪些,非概率抽样的缺点是什么主要有判断抽样,便利抽样,自愿抽样,滚雪球抽样,配额抽样判断抽样也称为立意抽样,是指由抽样者根据自己的主观经验抽取样本。便利抽样是指调查人员根据自己的方便,自行确定入样的单元自愿抽样是指样本由自愿参加的受访者所构成的抽样。滚雪球抽样是利用样本点(构成样本的单元)寻找样本点,即由目前的受访者去寻找新的具有某一特征的受访者。当调查的客体为某一特殊群体时,调查的客体往往不容易取得,只能先取得个别客体。再由他们去联络其他人。配额抽样是指先将总体中所有单元按一定分类标志分为若干类,然后在每类中采用便利抽样或判断抽样的方式选取样本,样本的类别结构与总体大致成比例,在各类的配额内,调查员则根据自身的经验或方便进行选举。缺点:难以评价样本的代表性;无法估计抽样误差;偏倚往往较大.17.概率抽样的主要形式有哪几种,他们各适用于什么条件,各有什么特点1.简单随机抽样若总体中每个个体被抽到的机会是均等的(即抽样的随机性),且在抽样取走一个个体之后总体内成分不变(即抽样的独立性),这种抽样方式称为简单随机抽样。简单随机抽样一般用下述三种方法:(1)抽签法。把总体中的每一个个体都编上号码,并做成签,充分混合后从中随机抽取一部分,这部分所对应的个体就组成一个样本。(2)查表法。查随机数表,确定从总体中所抽取个体的号码,则号码所对应的个体就进入样本。随机数表可随意从任何一区、任何一个数目开始,依次向各个方向顺序进行。(3)计算机造数法。用电子计算机编造随机数程序,把随机数作为总体中抽出个体进入样本的号码。2.系统抽样(等距抽样)系统抽样方法实际上是等间隔法的机械抽样。它把总体中所有个体按一定顺序编号,然后依固定间隔取样,间隔的大小视所需样本容量与总体中个体数目的比率而定,起始数字必须是随机决定的。等距抽样又有直线等距抽样,对称等距抽样和循环等距抽样三种。这种方法与简单随机抽样相比,方便、易学、易做,当总体按一定顺序排定后,第一个样本一经确定,其他样本也随之确定。但是,这种抽样方法在名单排列中,如果存在周期性部分,则会造成偏差。因此,在等距抽样间距确定以后,选择起点时,应根据掌握的信息,尽量避开总体可能存在周期的点。3.分层抽样(类型抽样)分层抽样是先把总体按一定标志分成不同类型或层次,然后从各种不同类型中随机抽取若干单位组成样本。分层抽样在各层中抽取的样本也可看成总的样本数在各层的分摊,它又有三种方法:(1)等比例抽样。即各层所抽样本数占各层总体单位数的比例相等。(2)按各层的离散情况分配样本。某层的离散程度大,则该层多分摊一些样本。(3)最优分配。既考虑到各层的单位数的多少,又考虑到各层的离散情况。4.整群抽样整群抽样是先将各单位划分为若干群(组),然后以群为单位从中随机抽取一些群,对抽中的群的所有单位进行调查18.误差主要包括哪两类,引起误差的原因分别是什么主要包括抽样误差和非抽样误差抽样误差:是指由样本数据对总体特征进行估计时所引起的代表性误差,原因是由于每次抽取一个样本,而样本中包含的哪些单元是随机的,不同的样本由于包含的单元不同,得到的估计值自然不同,各个估计值与总体特征之间不可避免的出现差距,由此产生了抽样误差。非抽样误差:其来源比较复杂,主要有抽样框未能不重不漏包含所有抽样单元导致的抽样框误差,调查测量不准确引致的测量误差,还有无回答误差和粗大误差19.什么是抽样平均误差,抽样平均误差,方差,偏差的关系怎样抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样平均数(或成数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。20.影响样本容量的主要因素有哪些①总体的标志变异程度,即总体方差或标志变异程度大,应抽取的单位数就应该越多,反之就少。②允许的误差范围即抽样极限误差。允许的误差范围越小,应抽取的单位数就越多;反之就越少。③抽样推断的置信度即概率保证程度。概率保证程度与概率度有关。若要求推断的概率保证程度越高,那么值越大,抽取的单位数就要多些,反之则可少些。④抽样方法。一般在同样的条件下,采用重复抽样比不重复抽样需要的样本容量大。⑤抽样组织形式。一般分层抽样和等距抽样比简单随机抽样需要的样本单位数少;整群抽样比简单随机抽样需要的样本单位数多

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功