1第一章1.什么是统计学?统计学是一门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。2.数据分为哪几种类型?各自的用途是什么?根据计量方法的不同,可将数据分为分类数据、顺序数据和数值型数据三种。分类数据用来研究事物的构成状况。顺序数据既可用来研究事物的构成状况,也可用来研究事物构成的等级顺序特点。根据数据的收集方法的不同将数据分为观测数据和试验数据两种。社会经济现象的统计数据几乎都是观测数据。自然科学领域的数据大多数都为试验数据。根据时间状况的不同可将数据分为截面数据、时间序列数据和面板数据。截面数据往往用来描述某一时刻不同单位、不同地区等的差异情况。时间序列数据往往用来描述现象随时间变化的趋势和规律特点。3.举例说明总体和个体、标志和变量等概念。总体是同类事物的集合。如人口普查中的全国人口就是一个统计总体。总体中的个别事物为个体或称为总体单位。如人口总体中的每一个人就是一个个体。标志是说明个体某种特征的概念。某个个体在某特征上的具体表现称为标志表现。例如对于人口总体,性别、年龄、职业、文化程度等都是标志。变量可以看作是取不同数值的量。比如年龄、性别、产值等都可看作是变量。4.描述统计和推断统计的区别和联系描述统计学研究如何取得反映客观现象的数据,并通过图表的形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。其内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据的分布特征与分析方法等。推断统计学则是研究如何根据样本数据去推断总体数量特征的方法,他是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。描述统计是整个统计学的基础,推断统计学则是描述统计的进一步深入。2第二章1、什么是统计分组,其作用如何?形式有哪些?统计分组是根据统计分析的目的和要求,按一定的标志将总体划分为若干个不同的组成部分。通过统计分组可揭示事物的内在规律,其作用有二:(1)区分社会经济现象的类型。(2)反映和研究总体的内部构成。(3)分析研究现象之间的依存关系。有单项式分组和组距式分组两种形式。2、统计分组过程中应注意哪些问题?离散型变量与连续性变量的分组有无区别?在分组时,为遵循统计分组的完备性和互斥性原则,应注意以下几点:(1)第一组的下限应不高于最小的变量值,最后一组的上限应不低于最大的变量值。(2)若分组变量为连续性变量,相邻两个组的组限应采用重叠的变量值,同时为遵循互斥性原则,在按组归类整理时,遵循“上限不在内原则”。(3)若分组变量为离散型变量,相邻两组的组限可以重合也可以不重合,若重合仍然采用“上限不在内”的原则进行归类整理。3、统计调查有哪些方式?其特点和适用范围如何?统计调查的方式主要包括普查、统计报表、抽样调查、重点调查和典型调查。(1)普查是一种专门组织的一次性全面调查。重点了解重要的国情国力的一种调查方式。(2)统计报表是按照国家有关的规定,自上而下同一布置,自下而上逐级提供统计资料的调查组织方式。(3)抽样调查是取得数据资料的最主要的一种方式,它是按照随机原则从总体中抽取部分单位组成样本,对样本指标进行测定,根据样本指标推断总体指标的一种非全面调查。抽样调查有三个特点:第一,从总体中随机抽取样本。提高了样本的代表性。第二、利用样本指标可推断总体指标的数值。第三、抽样误差可以准确计算并事先加以控制。抽样调查有简单随机抽样、分层抽样、等距抽样和整群抽样四种组织形式。(4)重点调查是为了了解总体的基本情况,在总体中选择个别重点单位进行调查。重点单位是指其标志总量占全部单位标志总量的绝大比重的单位。(5)典型调查是对总体单位有初步了解的基础上,有意识的选择部分有代表性的单位进行调查。代表性单位是指那些最充分、最集中地体现总体某些共性的单位。4、什么是分布数列?如何编制分布数列?把总体中的各个组与其对应的个体数目一一对应排列,形成反映全部数据按其分组标志在各组内的分布状况的数列称为频数分布或次数分布数列,简称分布数列。编制分布数列的步骤:(1)按斯特格斯(H.A.Sturges)提出的经验公式确定组数K:210N10loglog1K。(2)确定各组的组距KRd。(3)组限的确定。(4)各组次数或频率的计算。5、某公司48名工人某年月平均生活费支出(元)如下,试根据此资料编制组距式分布数列。并绘制直方图。3352、312、336、257、408、321、234、268、204、358、270、466、328、347、369、349、397、386、318、382、430、300、484、289、523、476、315、377、294、458、326、365、492、209、446、446、302、277、548、334、400、424、282、308、371、363、337、302解:统计分组(1)组数7lg322.31loglog1210N10NK(2)507204548KRd(3)确定组限最小组的下限从最小值204向下延伸4个单位确定为200,最高组的上限从最大值548向上延伸2个单位确定为550.(4)计算各组次数或频率形成分布数列组别次数200—2503250—3007300—35015350—40010400—4506450—5005500—5502直方图略6、试根据如下资料绘制茎叶图。72、75、60、52、65、90、95、85、76、8692、63、75、53、87、77、69、85、86、6463、66、71、78、84、98、79、62、57、76茎叶523760233456971255667898455667902584第三章1、简述算术平均数、中位数和众数的特点及其应用场合。算术平均数是描述集中趋势最常用的指标,等于总体总量除以总体单位数。易受极端数值的影响。它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,三个均值相等或接近相等,这时应选择均值作为集中趋势的代表值。但均值的主要缺点是易受数据极端值的影响,对于偏态分布的数据,均值的代表性较差。中位数是将变量值按大小顺序排列,处于中点位置的变量值。主要适合于作为定序数据、数值型数据的集中趋势测度值,不受数据极端值的影响,对数据中的误差不敏感,当调查数均众存在个别极端数值时,用中位数代表其一般水平比算术平均数好。众数是变量数列中出现次数最多或密度最大的变量值,从分布的角度看,它能够鲜明地反映随机变量分布的集中趋势,因此,众数也是分布密度曲线的高峰位置对应的变量值,是反映分布中心的指标。众数可用于定类数据、数值型数据的集中趋势测度值,其特点是不受数据极端值的影响2、为什么要计算离散系数?极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,都具有一定的量纲,其数值的大小除了与变量的离散程度有关外,还受两个方面的影响:(1)与原变量值本身水平高低有关,也就是说各变异指标与变量的均值大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的,离散程度的测度值自然也就小;(2)它们与原变量值的计量单位有关,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的变量数列,是不能用上述测定离散程度的指标直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散绝对指标的影响,需要计算具有可比性相对变异指标。3、什么是偏度和峰度,如何测定?偏斜程度是指分布密度曲线的非对称性的大小,通常用偏态系数绝对值的大小来衡量。偏斜状态的则定方法有经验则定法、矩法则定两种。峰度是随机变量分布密度曲线的峰尖程度。通常与正态分布相比较,若分布的形状比正态分布更瘦更高,则为尖峰分布;若比正态分布更矮更胖,则为平峰分布。54、算术平均数、中位数和众数三者之间有何关系?(1)如果数据的分布是对称的,则众数、中位数、和均值完全相等OeMMX(2)如果数据是左偏分布OeMMX(3)如果数据是右偏分布OeMMX(4)当数据分布的偏斜程度不是很大时,算术平均数到众数的距离是算术平均数到中位数距离的3倍。即:)(3eoMXMX5、选择题(1)不同数列的标准差不能简单进行对比,这是因为不同数列的(A,D)A平均数不同B标准差不同C个体数不同D计量单位不同(2)某居民区家庭人口数的分布资料如下:家庭人口数(人)1234567户数(户)10508060302010该居民区家庭人口数的中位数是:(C)A130户B130.5户C3人D4人(3)变量数列中出现次数最多的值是(D)A算术平均数B调和平均数C中位数D众数6、为了了解大学生每月生活费用支出情况,某省在全省高校中随机抽取了250名学生进行调查,调查得样本资料如下:试计算:(1)250名学生的平均生活费用月支出额;(2)月生活费用的中位数和众数;(3)月生活费用的标准差。解:(1)=244(2)中位数所在组200—25018.2435011030-12520021dfSNLMmme(3)91.24050)90110()20110(20110200)()(1110iffffffLM7、某信息传呼台两名接线员5天中每天接呼次数资料如下:A接线员12010876184165B接线员94681135599按月生活费支出分组(元)人数(人)xXf150以下150—200200—250250—300300—350350以上10201109015512517522527532537512503500247502475048751875合计250610006从日均次数的代表性和接线次数和日分布的均衡性角度作简要评价和分析。解:B接线员日均次数的代表性较好8、某投资银行的年利率按复利计算,10年的年利率分别是有一年为7%,有3年为8%,有四年为10%,有两年为11%,试求平均年利率。解:%29.109%)111(%)110(%)108(%)107(1024312121FFNFFGNXXXX平均年利率为9.29%第四章1、选择题(1)要求估计量的数学期望等于被估计的总体指标的真值,称为(C)A一致性B有效性C无偏性D充分性(2)在不放回抽样下,样本均值得方差等于(c)A2BS2C1--2NnNnD22(3)置信区间的长度越短,估计的精度则(a)。A.越高B.越低C.与长短无关D.无法判定(4)若1ˆ和2ˆ均为总体指标的无偏估计量,下列哪种情况表示1ˆ比2ˆ更有效(c)A)()(21ˆˆEEBVar(1ˆ)Var(2ˆ)CVar(1ˆ)Var(2ˆ)DMSE(1ˆ)MSE(2ˆ)2、影响样本容量的因素有哪些?(1)总体中个体之间的差异程度。即总体方差)1(2PP或。总体方差越大,所需的样本容量越大;反之,总体方差越小,所需的样本容量越小。(2)允许误差d的大小。允许误差越小,估计的精确度越高,则所需的样本容量越大;反之,允许误差越大,估计的精确度越低,则所需的样本容量越小。(3)估计的可靠性高低。估计的可靠性越高,所需的样本容量越大;反之,估计的可靠性越低,所需的样本容量越小。(4)抽样方式。在其他条件相同的情况下,采用重置抽样方式比采用不重置抽样方式所需的样本容。3、如果总体方差未知,在确定样本容量时,应如何?在实践中,估计样本量时若2未知,可根据以下方法来确定2:第一,根据历史资7料已有的方差代替;第二,在正式抽样调查之前,开展一次试验性调查,根据试验性调查所得资料加以估计;第三,如果有多次实验结果或多个历史方差,则根据最大的方差来代替总体方差计算样本量。4、解:5.3xs2=1.457201.0x9.31.35、解:X=2