统计学第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。2.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。(4)从匹配样本的观察值中推断两品牌口味的相对好坏。第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。3.一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。4怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。5对比率数据的平均,为什么采用几何平均?答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。6.简述众数、中位数和均值的特点和应用场合。答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。7为什么要计算离散系数?答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。练习题:1.频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)频率%A1414B2121C3232D1818E1515合计100100条形图(略)2(1)采用等距分组:n=40全距=152-88=64取组距为10组数为64/10=6.4取6组频数分布表如下:40个企业按产品销售收入分组表按销售收入分组(万元)企业数(个)频率(%)向上累积向下累积企业数频率企业数频率100以下512.5512.540100.0100~110110~120120~130130~140140以上91274322.530.017.510.07.5142633374035.065.082.592.5100.03526147387.565.035.017.57.5合计40100.0————(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40100.03采用等距分组全距=49-25=24n=40取组距为5,则组数为24/5=4.8取5组频数分布表:按销售额分组(万元)频数(天数)25-3030-3535-4040-4545-50461596合计40461596051015Frequency253035404550sales4..(1)排序略。(2)频数分布表如下:100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~66022660~67055670~68066680~6901414690~7002626700~7101818710~7201313720~7301010730~74033740~75033合计100100直方图(略)。(3)茎叶图如下:6518661456867134679681123334555889969001111222334455666778888997000112234566677888971002233567788972012256789973356741475等距分组n=65全距=9-(-25)=34取组距为5,组数=34/5=6.8,取7组频数分布表:按气温分组天数-25----20-20----15-15----10-10----5-5---00---55---108810141447合计658810141447051015Frequency-30-20-10010tempture7(1)茎叶图如下:A班树茎B班数据个数树叶树叶数据个数03592144044842975122456677789121197665332110601123468892398877766555554443332100700113449876655200812334566632220901145660100003(3)A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低8.箱线图如下:(特征请读者自己分析)Min-Max25%-75%Medianvalue各城市相对湿度箱线图35455565758595北京长春南京郑州武汉广州成都昆明兰州西安9.(1)x=274.1(万元);Me=272.5;QL=260.25;QU=291.25。(2)17.21s(万元)。10.甲企业平均成本31113111iiiiimxmx=19.41(元),乙企业平均成本32123112iiiiimxmx=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。11.x=11kiiikiixff426.67(万元);2111kiiikiixxfsf=116.48(万元)13(1)离散系数,因为它消除了不同组数据水平高低的影响。(2)成年组身高的离散系数:024.01.1722.4sv;幼儿组身高的离散系数:032.03.713.2sv;由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。14.表给出了一些主要描述统计量方法A方法B方法C平均165.6平均128.73平均125.53中位数165中位数129中位数126众数164众数128众数126标准偏差2.13标准偏差1.75标准偏差2.77极差8极差7极差12最小值162最小值125最小值116最大值170最大值132最大值128先考虑平均指标,在平均指标相近时考虑离散程度指标。应选择方法A,其均值远高于其他两种方法,同时离散程度与其他两组相近。15.(1)风险的度量是一个不断发展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值(valueatrisk)。(2)无论采用何种风险度量,商业类股票较小(3)个人对股票的选择,与其风险偏好等因素有关。第三章1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象。从总体中随机抽取容量为n的样本12,,,nxxx,它的分布称为样本分布。由样本的某个函数所形成的统计量12,,,nfxxx,它的分布称为抽样分布(如样本均值、样本方差的分布)2.重复抽样和不重复抽样下,样本均值的标准差分别为:22,1NnnnN因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数3.解释中心极限定理的含义答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。第四章、参数估计1.简述评价估计量好坏的标准答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数的估计量有1ˆ和2ˆ,如果1ˆE,称1ˆ是无偏估计量;如果1ˆ和2ˆ是无偏估计量,且1ˆD小于2ˆD,则1ˆ比2ˆ更有效;如果当样本容量n,1ˆ,则1ˆ是相合估计量。2.说明区间估计的基本原理答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。3.解释置信水平为95%的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。4.简述样本容量与置信水平、总体方差、允许误差的关系答:以估计总体均值时样本容量的确定公式为例:22/22znE样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。练习题:2.解:由题意:样本容量为49n(1)若1515,2.14349xn(2)/20.05,1.96*2.1434.20028Ezn(3)若/2/2120,,1204.20028,1204.20028115.7997,124.20028xxzxznn3.解:由题可得:36,3.317,1.609nxs尽管采用不重复抽样,但因为样本比例很小(不到0.5%),其抽样误差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算。36n为大样本,则在的显著性水平下的置信区间为:/2/2,ssxzxznn当/20.1,1.64z,置信区间为(2.88,3.76)当/20.05,1.96z,置信区间为(2.80,3.84)当/20.01,2.56z,置信区间为(2.63,4.01)5解:假设距离服从正态分布,16,9.375,4.113nxs平均距离的95%的置信区间为0.0250.02515,15ssxtxtnn=(7.18,11.57)7解:由题意:3250,64%50np。因为,1npnp均超过5,大样本(1)总体中赞成比率的显著性水平为的置信区间为/2/211,pppppzpznn当0.05时,/2164%*36%1.96*13.3%50ppEzn置信区间为(50.7%,77.3%)(2)如果要求允许误差不超过10%,置信水平为95%,则应抽取的户数:22/22211.96*0.8*0.2620.1znE8.此题需先检验两总体的方差是否相等:2222012112:,:HH在5%的显著性水平下,2212/96