第一章绪论第一节统计学的性质及分类一、统计学的性质统计学的概念:以搜集、整理、分析或推断数据,并以此为依据对所研究对象做出判断或决策的方法科学论。二、统计学的分类理论统计学研究如何对客观现象的数量进行计量、观测、概括和表述,是统计学的基础和统计研究工作的第一步,内容包括统计指标及其设计、统计调查、统计整理、统计图表、集中趋势测度、离散程度测试、统计指数和时间序列常规分析等理论方法。推断统计学是现代统计学的核心内容,它以概率论为理论依据,利用部分数据对总体数据的某些性质或数量特征进推断和检验。理论统计学和应用统计学的关系:理论统计学所提出的科学的数量方法为应用统计学研统计学的性质社会经济现象和自然现象总体现象的数量表现及其规律研究数量方面的方法科学论社会经济统计学天文统计学通过对个体数量特征的认识过渡到对总体数量特征与规律性的认识对于数据的搜集、整理分析、认识间的关系及其变动规律都用到一定的方法统计学的分类理论与实践理论统计学和应用统计学统计方法描述统计学(现代统计学的基础)推断统计学(现代统计学的核心)究提供了理论依据和条件,而应用统计学的发展又可进一步改进、完善和发展理论统计学所提出的数量方法。第二节统计学的基本概念一、总体和个体总体:构成统计活动研究对象的全部事物的整体为总体(有限总体、无限总体)个体:总体中每个个体事物。总体容量:总体中全部个体事物的数量称为总体的容量。统计总体根据统计研究的目的来确定。二、样本样本是指从总体中随机抽取出来,并作为其代表的那一部分个全所组成的子集。样本的特点:每个个体必须取自于总体的内部,从一个总体可以抽取许多个不同的样本,样本是总体的代表,样本的随机性。三、变量变量:客观现象的特征取值或类别在一个以上者均为变量四、指标及其测度变量的分类取值是否可用数字表示属性变量数字变量取值是否连续离散变量连续变量按变动是否有确定性确定性变量随机变量因果关系所处的位置因变量自变量研究对象范围内生变量外生变量取值是否有客观性实在变量虚拟变量指标测试的计量尺度定类尺度定序尺度定距尺度对个体进行类别分类如:人分男、女排序或等分如:一级品、二级品差距如:山峰相对于地面的高度定比尺度绝对数量有比例关系。如:空调的产量用来测度研究对象某种特征数量的概念称为统计指标,简称指标。第三节统计指标体系及其设计一、统计指标体系的概念反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。二、统计指标体系中指标的分类三、统计指标体系设计的内容:1、设置框架2、确定内涵和外延3、确定计量单位4、确定计算方法四、统计指标体系设计的原则统计指标体系设计的原则:目的性、科学性、可行性、联系性统计指标体系中指标的分类绝对数指标相对数指标弹性相对指标绝对数量的统计指标又称总量指标两个相互联系的统计指标相除而得的比率又称比率指标增长率之比按反映时间状况不同分为时期指标(流量)和时点指标(存量)按计量单位可分为:实物指标和价值指标结构相对指标、比值相对指标、动态相对指标、弹性指标、强度相度指标弹性系数第二章数据的调查与整理第一节数据调查的方式与程序一、数据调查的方式数据调查的概念:根据研究目的要求,对总体中个体的相应特征进行观测取得数据的工作过程。数据资料具有代表性和真实性是对统计资料调查的基本要求。调查方式:现场调查、实验调查。二、数据调查的一般程序数据调查的环节:制定方案、登记数据、数据整理与显示。确定调查目的是首要问题第二节现场调查一、调查的抽样方式现场调查:随机抽样和非随机抽样调查的抽样方式:普查、抽样调查抽样调查:从总体中抽取部份个体进行观测,取得样本数据,然后依据样本数据推算总体数据。随机抽样又称为概率抽样调查,被调查总体中的每个个体被抽中或不被抽中的概率相同非随机抽样:又称非概率抽样调查,凭调查人员主观判断进行选取,便利而随意选取。随机抽样分类简单随机抽样整群抽样等距抽样分层抽样被抽中的机会都相等顺序排队固定顺序、间隔分层次、层次中抽个体分成群,随机抽取一些群体样本二、调查的观测方式三、问卷调查的设计问卷设计技术主要包括:提问方式和提问次序调查问卷提问方式:封闭型提问、开放性提问。提问次序:先一般后特殊,所谓漏斗式。第三节试验观测第四节数据整理与显示一、分类遵循两个原则:互斥性、完备性非随机抽样分类任意抽样立意抽样配额抽样便利抽样或偶然抽样主观选择具有代表性依据一定的标准规定调查的观测方式访问法观察法口头访问书面访问所得到资料真实、可靠试验观测原则:均衡分散性整齐可比性方法:完全随机随机区组观测个体分类:单值分类、组距分类统计表概念:显示数据资料表格统计表的结构:总标题、横栏标题、纵栏标题、数据资料、表示附注。第三章次数分布第一节次数分布的编制与显示一、次数分布的概念次数分布的概念:各个不同数值及每个不同数值出现的次数顺序排列二、次数分布表及其编制次数分布表概念:表示观测变量的次数分布的统计表单值分组次数分布表:每一个不同的取值代表一个组的变量值,并计算各组出现的个数或次数。累计频数和累计频率累计频数(或频率)分布数列:可采用向上累计或向下累计。向上累计:由变量值低的组向变量值高的组累计频数。向下累计:由变量值高的组向变量值低的组累计频数。重点掌握:直方图和柱状图第二节次数分布的理论模型一、次数分布理论模型的概念和意义随机变量的概率分布的表示方法主要有三种:概率分布表、概率分布图、概率分布函数。二、离散型随机变量的概率分布离散型随机变量分布类别两点分布又叫贝努力试验p+q=1超几何分布泊松分布二项分布泊松分布:对于描述在一个特定时间或空间范围内某一事件发生的次数有用。一、间隔期内发生次数概率相等二、某一间隔内发生与否相互独立。三、连续型随机变量的概率分布第四章分布特征的测度第一节分布中心的测度一、分布中心的概念及意义分布中心的定义:距离一个变量的所有取值最近的数值变量分中意义:1、变量取值的一个代表,反映取值一般水平。2、可以揭示取值的次数分布在直角坐标系上的集中位置。二、分布中心的测度指标及其计算方法1、算术平均数(简单算数平均数、加权算术平均数)、中位数、众数(重点计算)算术平均数又称均值,它是一组变量值的总和与其变量值的个数总和的比值,是测量分布中心最常用指标。2、组距数列算术平均数首先计算出每组的组中值,组中值就是各组变量的代表值组中值=(上限+下限)/2缺下限的组中值=上限-邻组组距/2缺上限的组中值=下限+邻组组距/23、应用算术平均数应注意的问题㈠容易受极端变量值的影响,极大值或极小值应剔除㈡权数不取绝于它的绝对值大小,而取决于它的比重㈢组中值作为各组变量值的代表4、算术平均数的数学性质连续型随机变量的概率分布均匀分布F分布正态分布x2分布指数分布t分布㈠变量值与平均数离差总和等于零㈡变量值与平均数离方平均和为最小二、中位数中位数概念:将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值。中位数的确定:(1)未分组资料中位数的确定:变量值由小到大排列(n+1)/2确定中位数所处的位置,最后寻找位置的变量值为中位数,若变量值n为偶数,则以排在数列中n/2项n+1/2项变量值的简单算术平均数作为中位数。(2)单项数列中位数的确定:计算向上或向下累计次数,由公式计算结果与累计次数的结果确定中位数在单项数列中所处组的位置,则该组上的变量值就是中位数。(3)组距数列中位数的确定(例题公式重点)p88三、众数众数概念:变量取值出现次数最多的那个变量值众数的确定:未分组的变量值,统计出现次数最多的那个变量值,若是单项数列则频数(或频率)最大的变量值就是众数。众数组距数列:依距各组变量值出现次数的多少确定众数所在的组,然后采用上限公式或下限公式确定众数即可。(公式、例题)p90算术平均数、中位数和众数三者之间的关系:在正态分布的情况下,三者在数量上完全相等。第二节离散程度的测试一、离散程度通过对变量取值之间离散程度的测定,反映各个变量值之间的差异大小,可以反映中心指标变量值代表性的高低。离散程度测试指标极差四分位全距变异系数平均差方差标准差(根方差)第五章抽样估计第一节抽样估计的理论基础抽样估计的基本内容根据总体的部份数据信息去估计未知总体指标的理论和方法。1、大数定律大量的独立重复测量值的算术平均值具有稳定性,对于这种稳定性构成大数定律的基本内容。两个重要的大数定律:贝努里大数定律、辛钦大数定律第二节抽样方法与抽样分布重复抽样和不重复抽样(掌握概念)抽样分布:对于给定的总体和抽样方式以及样本容量,样本指标取值的概念分布就称为抽样分布第三节点估计一、总体参数与其估计量总体参数:根据样本数据来推断总体指标数值,总体指标又称为参数根据样本来推断总体指标数值称为抽样估计估计量:估计总体指标数值的统计量估计值:估计量的数值为该总体指标的估计值二、构造估计量的方法-矩法估计构造估计量的方法:矩法估计,用样本矩作为总体同一矩的估计量或者用样本矩的函数作为总体相应矩的函数的估计量,最直观、最简单也是较为常用的方法就是矩法估计。三、判断估计量优劣的标准常用的标准主要有:一致性(基本要求)、无偏性(不应存在偏大或偏小偏差)、有效性、充分性、稳健性。常用的抽样分布样本均值样本比例(总体比例估计量)样本方差(正态分布总体中应用)估计量的标准误:样本估计值与总体指标真值之间存在着误差,误差越大,抽样估计的精确程度就越低。标准误的概念:样本估计量的标准差通常称为该估计量的标准误差。标准误的计算:(例题、公式)样本均值的标准误:(例题、公式)(三)影响标准误的因素(1)总体中各个个体之间的差异程度(2)样本容量的大小,样本容量越大,标准误差越小,抽样估计误差也就越小(3)抽样的方式与方法第四节区间估计区间估计的概念:事先给定的概率保证程度下,根据样本估计量的概率分布确定可能包含未知总体参数的某个区间,作为对未知总数的估计。第六章相关与回归分析第一节相关分析一、相关关系当一个变量的变化完全决定另一个变量的变化或两个变量之间是一种严格的确定的关系时我们称之为函数。相关关系的概念:存在着一定的联系但又不是严格的,确定的关系。相关分析的主要内容:1、确定现象之间有无相关关系。2、确定相关关系的表现形式。3、测定相关关系的密切程度。二、相关关系的描述-散点图如两变量之间的变化方向是一致的,即存在着正相关。如两变量之间的变化方向是相反的,即为负相关。1、相关的形态:若变量Y与变量X的相关关系表现为线性组合或绘制的散点图近似的表现为一条直线,则称为线性相关,绘制的散点图近似地表现为一条曲线,则称为非线性相关或曲线相关。2、相关的方向:正相关、负相关三、相关程度的测定-相关系数的计算(公式、例题)相关系数的性质与具体含义:1、r的取值在-1~1之间,即-1≤r≤1r>0表明正线性相关关系r<0表明负线性相关关系当r=1时,表明完全相关当r=0时,表明为无线性相关当0<r<1时,表明为无完全相关2、r具有对称性3、r的数值大小与X和Y的计量尺度无关4、r是两个变量之间线性关系的变量指标第二节一元线性回归分析1、建立回归模型2、估计回归模型参数3、对回归模型可信程度进行检测4、利用回归模型,预测或控制因变量的水平估计线性回归方程式:Y=b0+b1X5、模型参数估计:b1=b2=判定系数公式(例题)第七章时间数列分析与预测第一节时间数列的编制与分类一、时间数列时间数列是把不同时间上的同一指标数据按时间先后顺序排列所形成的数列。二、编制时间数列的基本原则(1)同一时间数列的数据所属时间长短及数据之间的间隔长度具有可比性(2)不同时期的数据核算范围应当一致。(3)不同时期的数据核算内容应当一致。(4)计算价格和计量单位应具有一致性。第二节时间数列特征指标的测度(本节的计算为重点内容)水平指标:发展水平、平均发展水平、增长量和平均增长量速度指标:发展速度、平均发展速度、增长速度和平均增长速度时点数列计算平均发展水平:间隔相等、间隔不相等(公式、例题)相对时间数列、平均时间数列、计算平均发展水平