《应用统计学》总复习2012年12月第一章绪论第二章数据搜集第三章数据的图表显示第四章数据的概括性度量第五章概率与概率分布第六章抽样与抽样分布第七章抽样调查和参数估计第八章假设检验第九章相关与回归第十章时间数列分析与预测第十一章指数第一章绪论统计与统计学的概念统计数据的类型统计学的一些基本概念统计的三种含义1.统计工作:是指搜集、整理、分析和显示统计数据的活动。2.统计资料:是指统计活动的结果,即统计数据。3.统计学:是一门关于搜集、整理、分析、解释统计数据的方法论科学和艺术。统计的研究对象:客观现象的数量表现、数量关系和数量变化统计学的研究对象:统计工作的规律性统计与统计学的概念统计数据的类型数据的类型按计量尺度分分类数据、顺序数据、数值型数据按数据的收集方法分观测数据和实验数据按被描述的现象与时间的关系截面数据和时间序列数据统计学的一些基本概念1、统计总体、总体单位、样本、样本容量二者的关系:没有总体单位,总体就不存在;没有总体,也就无法确定总体单位。2、标志与指标、变量、变量值标志;描述总体单位特征的名称统计指标:描述总体数量特征的名称数量指标:是指反映事物的规模或总量的指标。质量指标:是指反映事物的性质、质量和管理水平的指标。两者的关系:指标数值由数量标志汇总而来,两者随总体单位的相互转化而转化。但两者说明的对象不同,表现形式也不同。变量:说明现象某种特征的名称,变量值:变量的取值,称变量值。统计学的一些基本概念(续)3、参数和统计量参数:研究者想要了解的总体的某种特征值统计量:由样本数据构成的不依赖于任何未知参数的函数4、指标体系:以共同的研究目的为纽带而相互联系的一系列统计指标,叫指标体系。重点、难点在具体的调查中,能辨别总体、总体单位、样本、样本容量、参数、统计量例:一项调查表明,消费者每个月在网上购物的平均花费是200元,这一研究的总体、样本、样本容量、参数、统计量分别是什么?重点、难点辨别变量(数据)的类型员工对某项改革措施的态度(赞成、中立、反对)汽车产量消费者在网上购物的原因数据、变量、变量值的区别参数与统计量的区别与联系离散型变量与连续型变量的概念分类数据、顺序数据、数值型数据的含义本章主要术语统计学:收集、整理、分析、解释数据的科学*描述统计:研究数据的收集、处理、汇总、图表描述、概括和分析的统计方法*推断统计:研究如何利用样本数据来推断总体特征的统计方法。*总体:包含所研究的全部个体的集合。有限总体:是指总体的范围能够明确确定,而且元素的数目是有限可数的。无限总体:是总体所包括的元素是无限的,不可数的。*样本:从总体中抽取的一部分元素的集合。*参数:用来描述总体特征的概括性数字度量。*统计量:由样本数据构成的不依赖于任何未知参数的函数。*变量:说明现象某种特征的名称。标志:说明总体单位特征的名称指标:说明总体数量特征的名称。*分类变量:说明事物类别的一个名称*顺序变量:说明事物有序类别的名称*数值型变量:说明事物数字特征的一个名称第二章数据的搜集数据的来源统计调查的种类统计调查的方式、方法统计调查方案的设计调查误差(一)统计调查的概念与种类数据的来源:直接来源(原始数据)间接来源(二手数据)统计调查:根据统计研究的目的,有计划、有组织地搜集统计资料的过程。统计调查的要求:准确性、及时性调查的种类1、统计调查根据被研究总体的范围,分为全面调查和抽样调查。2、统计调查按调查登记的时间是否连续,分为连续调查和不连续调查。3、按调查组织形式,分为专门调查和统计报表*抽样调查〈1〉概率抽样:是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。(2)非概率抽样:是指抽取样本时不依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。(3)概率抽样与非概率抽样的比较非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确定的,无法使用样本结果对总体相应的参数进行推断。非概率抽样主要合适于探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样操作简便,成本低。概率抽样是依据随机原则抽选样本,样本统计量的理论分布是存在的,可以根据调查的结果对总体的有关参数进行估计。概率抽样的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间。概率抽样要求的技术含量较高,调查的成本一般来说比非概率要高。概率抽样的基本形式①简单随机抽样。②类型抽样(分层抽样)③等距抽样。④整群抽样。⑤多阶段抽样非概率抽样调查判断抽样。重点调查:是专门组织的一种非全面调查,它是对所要调查的全部单位中选择一部分重点单位进行调查。(所谓重点单位,是着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但是它们的某一主要标志的标志总量在总体标志总量中却占有绝大比重。)典型调查。典型调查是在对现象总体进行初步分析的基础上,有意识的选择具有代表性的单位进行调查,借以认识事物发展变化规律的一种非全面调查方法。随意抽样(方便抽样)配额抽样。配额抽样就是先将总体进行较详细的若干种分类,然后将既定的样本容量分配给各个类别,在每一类中由调查员任意抽取规定个数的被调查单位进行调查,以取得样本数据的一种非随机抽样调查方法。滚雪球抽样自愿样本数据的收集方法数据的收集方法询问调查自填式实验法电话调查面访式观察法统计调查方案1、调查目的:即统计研究所要解决的问题。2、调查对象:是应搜集其资料的许多单位的总体。确定调查对象的同时,还必须确定调查单位和报告单位。3、调查项目:调查项目又称调查纲要,它是依附于调查单位的基本标志,由调查的目的任务和调查对象的性质特点所决定。4、调查方式方法。5、调查时间和时限:调查时间是调查资料所属的时间,即所谓客观时间,它又分为时期时间和时点时间。调查时限是进行调查工作的期限,包括搜集资料和报送资料的整个工作所需要的时间,即所谓主观时间。6、调查的组织工作:包括明确调查机构、调查地点、选择调查的组织形式等。调查误差调查误差:调查所得数据和研究对象的真实结果之间的差异调查误差的分类:抽样误差(代表性误差):由于抽样的随机性所带来的误差非抽样误差(工作误差):除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异。包括抽样框误差、回答误差、无回答误差、调查员误差、测量误差本章重点二手资料的含义和使用注意事项概率抽样与非概率抽样的含义,区别与联系理解概率抽样的五类具体抽样方式的含义概率抽样的特点理解非概率抽样的五类具体抽样方式的含义及适用场合理解抽样误差与非抽样误差的含义。二者区别:抽样误差只是针对概率抽样而言的。而无论是概率抽样还是非概率抽样,或者全面调查,都存在非抽样误差。第三章数据的图表展示(统计整理)统计整理的定义和步骤数据预处理的内容统计分组汇总显示统计整理的定义和步骤统计整理:统计整理是根据统计研究的目的要求,对调查所取得的各项资料进行科学的分组和汇总的工作过程。统计整理的四个步骤:1)对调查资料进行预处理;2)根据研究的目的和分析的需要,选择分组标志,进行具体分组;3)对各项资料进行汇总,计算各种指标;4)编制统计表与图,表述整理的结果。数据的预处理数据审核:是指检查数据中是否存在错误。对原始数据主要从完整性和准确性两个方面去审核。对二手数据主要是审核数据的适用性和时效性。数据筛选:是指根据需要找出符合特定条件的某类数据。数据排序:是指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。统计分组统计分组:是指根据统计研究的目的和要求,将总体单位或全部数据按照一定的标志划分成若干类型组别。分类:按分组标志的类别:品质分组和数量分组。数量标志分组的方法主要有两种:一是单变量值分组,二是组距分组(按组距是否相等,可分为等距分组和异距分组)按分组标志的多少:简单分组、复合分组、并列分组统计分组的原则:一定要遵循“不重不漏”的原则。步骤(组距分组):1、选择分组标志(关键)2、确定组数3、确定组距4、确定组限。5、列出各分组。汇总计算的指标分类数据:频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据占全部数据的比值百分比(percentage):将对比的基数作为100而计算的比值比率(ratio):不同类别数值的比值顺序数据:1.累积频数(cumulativefrequencies):各类别频数的逐级累加2.累积频率(cumulativepercentages):各类别频率(百分比)的逐级累加汇总的方法手工汇总计算机汇总品质分组和单变量分组,用“数据透视表”工具组距分组,用frequency或“直方图”工具分组数据的展示-频数分布表频数分布:在分组的基础上,列出各组及落在其中的数据个数,称为频数分布(次数分布、统计分布)。实质:把总体的全部单位按某标志所分的组进行分配所形成的数列,又称分配数列或分布数列分配数列包括两个要素:1º总体按某标志所分的组;2º各组所占有的单位数——次数。分配数列的种类:根据分组标志的不同分为品质分配数列和变量分配数列;变量分配数列又有单项式数列和组距式数列。任何一个分布都必须满足:1º各组的频率大于0;2º各组的频率和等于1(或者说100%)频数分布图次数分布的主要类型:①钟型分布:特征是两头小,中间大;②U型分布:特征是两头大,中间小;③J型分布:特征是次数随着变量值的增大而增多,或次数随着变量值的增大而减小;频数分布图的制作品质数列和单项式数列条形图、折线图、饼图(环形图)组距数列直方图、折线图统计表定义:把汇总结果的资料按一定的规则在表格上表现出来,这种表格就叫统计表,广义上说,任何用以反映统计资料的表格都是统计表。统计表的结构(P66)统计表的编制规则:统计表的各种标题,应简明,确切,概括地反映出表的内容;表中的主词各行和宾词各栏应先列各个项目,后列总计;如果统计表的栏数较多,通常要加以编号;表中数字应填写整齐,对准位数;统计表中必须注明数字资料的计量单位;必要时统计表应加注明或注释。统计图常用的统计图及适用的数据类型分类数据。可选用条形图、饼图、环形图顺序数据。除条形图、饼图、环形图外,还可使用累计频数分布图对于数值型数据,除用于顺序数据的图形外,还可使用直方图对于未分组数据,可使用茎叶图和箱线图对于时间序列数据,常用线图。多变量数据,常用散点图、气泡图和雷达图。直方图与条形图的区别。(见讲义)鉴别图形优劣的准则重点*数据预处理的含义和主要内容:审核、筛选和排序分类数据的整理与展示*频数与频数分布的含义和计算*比例、百分比、比率的含义和计算数值型数据的整理和展示*组距分组的基本步骤*数据分组的方法:单变量值分组和组距分组P61数据分组:每组的上限和下限,组距,组中值,开口组的组中值确定规则**组距分组要遵循的基本原则是“不重不漏”P63*时间序列数据的最佳图形展示——线图P70*统计表的主要构成部分:表头、行标题、列标题、数字资料和表外附加。P76*编制频数分布表的步骤第四章数据的概括性度量集中趋势的测量离散程度的测量偏态与峰度的度量集中趋势的测量一、众数:出现次数最多的变量值。二、中位数是一组数据按大小排序后,处于正中间位置上的变量值。中位数也是一个位置代表值。中位数位置=(N+1)/2*三、算术平均数是最常用的一种集中趋势测度值。它是总体各单位某一数量标志值的平均,它等于总体各单位某一数量标志的标志值的总和除以总体单位数。(了解算术平均数的性质)简单算术平均数是将变量数列中各标志值简单相加求得标志总量,然后除以总体单位总量而求得的平均数。计算公式为:加权算术平均数它是先将各组标志