1第1章统计与统计数据一、学习指导统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。章节主要内容学习要点1.1统计及其应用领域什么是统计学概念:统计学,描述统计,推断统计。统计的应用领域统计在工商管理中的应用。统计的其他应用领域。1.2数据的类型分类数据、顺序数据、数值型数据概念:分类数据,顺序数据,数值型数据。不同数据的特点。观测数据和实验数据概念:观测数据,实验数据。截面数据和时间序列数据概念:截面数据,时间序列数据。1.3数据来源数据的间接来源统计数据的间接来源。二手数据的特点。数据的直接来源概念:抽样调查,普查。数据的间接来源。数据的收集方法。调查方案设计调查方案的内容。数据质量概念。抽样误差,非抽样误差。统计数据的质量。1.4统计中的几个基本概念总体和样本概念:总体,样本。参数和统计量概念:参数,统计量。变量概念:变量,分类变量,顺序变量,数值型变量,连续型变量,离散型变量。二、主要术语1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。2.描述统计:研究数据收集、处理和描述的统计学分支。3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。4.分类数据:只能归于某一类别的非数字型数据。5.顺序数据:只能归于某一有序类别的非数字型数据。6.数值型数据:按数字尺度测量的观察值。7.观测数据:通过调查或观测而收集到的数据。8.实验数据:在实验中控制实验对象而收集到的数据。9.截面数据:在相同或近似相同的时间点上收集的数据。10.时间序列数据:在不同时间上收集到的数据。211.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。12.普查:为特定目的而专门组织的全面调查。13.总体:包含所研究的全部个体(数据)的集合。14.样本:从总体中抽取的一部分元素的集合。15.样本容量:也称样本量,是构成样本的元素数目。16.参数:用来描述总体特征的概括性数字度量。17.统计量:用来描述样本特征的概括性数字度量。18.变量:说明现象某种特征的概念。19.分类变量:说明事物类别的一个名称。20.顺序变量:说明事物有序类别的一个名称。21.数值型变量:说明事物数字特征的一个名称。22.离散型变量:只能取可数值的变量。23.连续型变量:可以在一个或多个区间中取任何值的变量。3第2章数据的图表展示一、学习指导数据的图表展示是应用统计的基本技能。本章首先介绍数据的预处理方法,然后介绍不同类型数据的整理与图示方法,最后介绍图表的合理使用问题。本章各节的主要内容和学习要点如下表所示。章节主要内容学习要点2.1数据的预处理数据审核数据审核的目的。原始数据和二手数据的审核内容。数据排序数据排序的目的。分类数据和数值型数据的排序方法。数据筛选数据筛选的目的。用Excel进行数据筛选。数据透视表数据透视表的用途。用Excel进行数据透视。2.2品质数据的整理与展示分类数据的整理与图示概念:频数,频数分布,比例,百分比,比率。用Excel制作分类数据的频数分布表。分类数据的图示:条形图,帕累托图,对比条形图,饼图。顺序数据的整理与图示概念:累积频数,累积频率。累积频数分布图。2.3数值型数据的整理与展示数据分组概念:数据分组,单变量值分组,组距分组,等距分组,不等距分组,组距,组中值。频数分布表的制作步骤。用Excel制作频数分布表。数值型数据的图示直方图的绘制。茎叶图的绘制。箱线图的绘制。直方图与条形图的区别。茎叶图与直方图的区别。线图的绘制。散点图的绘制。气泡图的绘制。雷达图的绘制。2.4合理使用图表鉴别图形优劣的准则图形应包括的基本特征。鉴别图形优劣的准则。统计表的设计统计表的结构。统计表的设计。4二、主要术语24.频数:落在某一特定类别(或组)中的数据个数。25.频数分布:数据在各类别(或组)中的分配。26.比例:一个样本(或总体)中各个部分的数据与全部数据之比。27.比率:样本(或总体)中各不同类别数值之间的比值。28.累积频数:将各有序类别或组的频数逐级累加起来得到的频数。29.数据分组:根据统计研究的需要,将原始数据按照某种标准划分成不同的组别。30.组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。31.组距:一个组的上限与下限的差。32.组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。33.直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。34.茎叶图:由“茎”和“叶”两部分组成的、反应原始数据分布的图形。35.箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布的图形。56第3章数据的概括性度量一、学习指导数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。本章将从数据的不同类型出发,分别介绍集中趋势测度值的计算方法、特点及其应用场合。本章各节的主要内容和学习要点如下表所示。章节主要内容学习要点3.1集中趋势的度量众数概念:众数。众数的特点。中位数和分位数概念:中位数,四分位数。中位数和四分位数的特点。中位数和四分位数的计算。平均数概念:平均数,简单平均数,加权平均数,几何平均数。简单平均数和加权平均数的计算。平均数的性质。几何平均数的计算和应用场合。众数、中位数和平均数的比较众数、中位数和平均数在分布上的关系。众数、中位数和平均数的特点及应用场合。3.2离散程度的度量异众比率概念:异众比率。异众比率的计算和应用场合。四分位差概念:四分位差。四分位差的计算和应用场合。方差和标准差概念:极差,平均差,方差,标准差。极差的计算和特点。平均差的计算和特点。样本方差和标准差的计算。总体方差和标准差的计算。相对位置的度量概念:标准分数。标准分数的计算和应用。经验法则。切比雪夫不等式。离散系数概念:离散系数。离散系数的计算。离散系数的用途。3.3偏态与峰态的度量偏态及其测度概念:偏态,偏态系数。偏态系数的计算。偏态系数数值的意义。7峰态及其测度概念:峰态,峰态系数。峰态系数的计算。峰态系数数值的意义。用Excel计算描述统计量。Excel统计函数的应用。二、主要术语和公式(一)主要术语1.众数:一组数据中出现频数最多的变量值,用oM表示。2.中位数:一组数据排序后处于中间位置上的变量值,用eM表示。3.四分位数:一组数据排序后处于25%和75%位置上的值。4.平均数:一组数据相加后除以数据的个数而得到的结果。5.几何平均数:n个变量值乘积的n次方根,用mG表示。6.异众比率:非众数组的频数占总频数的比率。7.四分位差:也称为内距或四分间距,上四分位数与下四分位数之差。8.极差:也称全距,一组数据的最大值与最小值之差。9.平均差:也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。10.方差:各变量值与其平均数离差平方的平均数。11.标准差:方差的平方根。12.标准分数:变量值与其平均数的离差除以标准差后的值。13.离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比。14.偏态:数据分布的不对称性。15.偏态系数:对数据分布不对称性的度量值。16.峰态:数据分布的平峰或尖峰程度。17.峰态系数:对数据分布峰态的度量值。(二)主要公式名称公式中位数为偶数为奇数nxxnxMnnne1222121简单样本平均数nxxnii18加权样本平均数nfMxkiii1几何平均数nniinnmxxxxG121异众比率imimirfffffV1四分位差LUdQQQ极差)min()max(iixxR简单平均差nxxMniid1加权平均差nfxMMkiiid1简单样本方差1)(122nxxsnii简单样本标准方差1)(12nxxsnii加权样本方差1)(122nfxMskiii加权样本标准差1)(12nfxMskiii标准分数sxxzii离散系数xsvs9未分组数据的偏态系数3)2)(1(sxxnnnSKi分组数据的偏态系数313kiiiMxfSKns未分组数据的峰态系数()()()()()()()iinnxxxxnKnnns2424131123分组数据的峰态系数3)(414nsfxMKkiii10第4章抽样与参数估计一、学习指导参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断我们所关心的总体参数。本章首先介绍抽样分布的有关知识,然后讨论参数估计的一般问题,最后介绍一个总体参数估计的基本方法和参数估计中样本容量的确定问题。本章各节的主要内容和学习要点如下表所示。章节主要内容学习要点4.1抽样与抽样分布概率抽样方法概念:简单随机抽样,简单随机样本,重复抽样,不重复抽样,分层抽样,系统抽样,整群抽样。用Excel抽取简单随机样本。抽样分布概念:抽样分布,样本均值的抽样分布,样本比例的抽样分布,样本方差的抽样分布。中心极限定理。样本均值抽样分布的特征。样本均值的抽样分布与总体分布的关系。样本比例抽样分布的形式和特征。样本方差抽样分布的形式。4.2参数估计的一般问题估计量与估计值概念:估计量,估计值。点估计与区间估计概念:点估计,区间估计,置信区间,置信水平。置信区间构建的原理。置信区间的解释。11评价估计量的标准概念:无偏性,有效性,一致性。4.3总体均值的区间估计正态总体、方差已知,或非正态总体、大样本正态总体、方差已知时的置信区间。非正态总体、大样本时的置信区间。用Excel计算给定的正态分布的临界值。正态总体、方差未知、小样本正态总体、方差已知时的小样本置信区间。正态总体、方差未知时的小样本置信区间。用Excel计算给定的t分布的临界值。4.4总体比例的区间估计总体比例的区间估计总体比例的置信区间。4.5总体方差的区间估计总体方差的区间估计总体方差的置信区间。用Excel计算给定的2分布的临界值。4.6样本容量的确定估计总体均值时样本容量的确定样本容量的计算方法。估计总体比例时样本容量的确定样本容量的计算方法。二、主要术语和公式(一)主要术语36.简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。37.简单随机样本:从含有N个元素的总体中,抽取n个元素作为样本,使得总体中每一个样本量为n的样本都有相同的机会(概率)被抽中。38.重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止。39.不重复抽样:一个元素被抽中后不再放回总体,而是从所剩元素中抽取第二个元素,直到抽取n个元素为止。40.分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。41.系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。42.整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,随后再对抽中的各个群中所包含的所有元素进行观察。43.抽样分布:在重复选取样本量为n的样本时,由样本统计量的所