统计学的性质(一)统计活动的内容与阶段对各种数据资料的搜集、整理、分析和推断的活动过程称为统计活动,一项完整的统计活动过程可分为统计资料的搜集整理和统计资料的分析推断两大阶段。(二)统计学的定义与分科统计学就是关于数据资料的搜集、整理、分析和推断的科学。关于统计资料的搜集整理和分析推断的理论与方法构成了统计学的全部内容。(1)理论统计学与应用统计学(2)描述统计学与推断统计学统计学的基本概念(一)总体和个体组成统计活动研究对象的全部事物的全体集合,就称为统计总体,简称总体或母体;而总体中的各个事物则称为个体,总体中个体的数量称为总体容量。1、自然物体总体与人为划定个体的总体;2、有限总体与无限总体;3、具体总体与设想总体(抽象总体)。统计指标体系及其设计(一)统计指标体系的定义反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。(二)构建统计指标体系的意义(三)指标体系中指标的分类1、水平指标——(1)存量指标与流量指标,(2)实物指标与价值指标。2、比率指标——(1)比例相对指标,(2)比值相对指标,(3)动态相对指标,(4)弹性相对指标,(5)强度相对指标。(四)指标体系设计的内容1、确定统计指标体系的框架;2、确定每一个指标的内涵和外延;3、确定每个统计指标的计量单位;4、确定每个统计指标的计算方法。(五)指标体系设计的原则1、目的性原则2、科学性原则3、可行性原则4、联系性原则数据采集的方式与程序(一)数据采集——根据统计指标体系的要求,对所研究总体中个体的相应指标进行观测记录取得数据的活动过程。(二)数据采集活动的基本要求——采集到的数据资料要具有代表性和真实性。所谓代表性,是要求所观测到的样本必须对所研究总体具有代表性;而所谓真实性,则是要求所采集到的数据必须是真实的实际数据。(三)数据采集方式的分类——现场调查和试验观测试验观测(一)试验观测设计的原则1、均衡分散性原则2、整齐可比性原则(二)试验观测的方法1、完全随机试验观测2、随机区组试验观测3、拉丁方试验观测4、正交试验观测次数分布的概念(一)次数分布:观测变量的各个不同取值及其出现次数的顺序排列,称为变量的次数分布。(二)总体次数分布和样本次数分布(三)次数分布的作用——观测变量的次数分布包含了观测变量取值的全部信息。根据观测变量的次数分布,可以对观测变量的各种分布特征进行描述和分析。次数分布表及其编制(一)次数分布表的种类1、单值分组次数分布表2、组距分组次数分布表(二)组距分组次数分布表的编制方法1、确定组数等距分组的斯特吉斯公式:m=1+3.322lgN2、确定组距等距分组的参考组距:3、确定组限4、计数各组的次数5、列出次数分布表一、分布中心测度的意义分布中心的概念——所谓分布中心,就是指随机变量的一切取值的散布中心。二、分布中心测度指标用来测度随机变量次数分布中心的指标可以有多种,其中在统计分析推断中常用的主要有算术平均数、中位数和众数等几种。(一)算术平均数1、定义——算术平均数又称算术均值,是随机变量的所有观测值总和与观测值个数的比值。2、计算方法(1)简单算术平均数——适用于未分组整理的各个单个观测数值,其计算公式为:mxMinxMaxwiinxxnii1(2)加权算术平均数——适用于已分组整理的次数分布数据,其计算公式为:(3)算术平均数的变形——调和平均数。对于由观测变量的各个分组和各组变量总值顺序排列所形成的分组数据。算术平均数的公式需变换成调和平均数的形式:当各组的变量总值mi相等时,就可简化为:(二)中位数1、定义中位数是在按观测变量值的大小顺序排列所形成的变量值数列中点位置上的变量值。对于观测变量x,假设共取得n个观测值,各个观测值按大小顺序排列为x(1)、x(2)、…、x(n),则其中位数可定义为:2、组距分组次数分布数据的中位数计算(三)众数1、定义:众数是随机变量的观测值中出现次数或密度最大的变量观测值。2、组距分组次数分布数据计算众数三、均值、中位数和众数三者之间的关系ffxxinii1niiniiiffxx11niiiniimxmx111niixnx11为偶数。为奇数;nxxnxxnnn,21,~12221wfffUxwfffLxmUmL2~2~wffffffUxwffffffLx101010101010一、总体参数及其估计量总体指标又称为总体参数,根据样本数据来推断总体指标数值就称为参数估计。集中了样本中有关总体参数信息的样本指标称为统计量,该统计量就可用来估计所求的总体指标的数值。用来估计总体指标数值的统计量又称为该总体指标的估计量,该估计量的数值就称为该总体指标的估计值。总体参数值是确定的,但是未知的;样本估计量是随机变量,其估计值是某个给定样本的计算值。二、构造估计量的方法—矩法估计(一)矩法估计的概念——所谓矩法估计,概括来说就是用样本矩作为总体同一矩的估计量,用样本矩的函数作为总体相应矩同一函数的估计量。(二)常用的总体参数及其矩法估计量三、判断估计量优劣的标准为了保证用于估计总体指标的估计量准确可靠,就必须要求所使用的估计量具备一些优良的性质,这些性质就构成了判断一个估计量优劣的标准。常用的标准主要有一致性、无偏性、有效性、充分性和稳健性等。(一)一致性对于总体指标的一个估计量,若其取值随着样本容量的增大越来越接近于总体指标的真值,即估计误差越来越小的可能性越来越大直至100%,则该估计量就称为总体指标的一致估计量,或称为相合估计量。可以证明,由矩估计法所构造出的估计量都是所估计总体指标的一致估计量。如样本均值是总体均值的一致估计量,样本比例p是总体比例P的一致估计量,样本方差s2也是总体方差σ2的一致估计量。(二)无偏性对于总体指标的一个估计量,若其估计值的数学期望等于该总体指标的真值,即其niiniixnNxNNnnpPxnx111ˆˆ1ˆyxxyniiniisssrxxnsxxnsˆ1ˆ1ˆ121222估计误差的数学期望为0,则该估计量就称为是总体指标的无偏估计量。可以证明,样本均值是总体均值的无偏估计量,而常规样本方差却并不是总体方差σ2的无偏估计量,修正样本方差s2是总体方差σ2的无偏估计量。修正样本方差即无偏样本方差为:(三)有效性对于任一总体指标,若存在两个无偏估计量,其中一个估计量的估计误差平均来说小于另一个估计量的估计误差,则称前一个估计量比后一个估计量有效。无偏估计量的估计误差大小可用其方差衡量,所以两个无偏估计量比较,方差较小者较为有效。对于一个总体指标来说,若在其所有无偏估计量中能够找到一个估计量,其方差最小,则该估计量就称为是该总体指标的最佳无偏估计量。可以证明,样本均值是总体均值的最佳无偏估计量。对于有偏估计量,衡量其有效性可用均方误差代替方差。估计量的均方误差为:(四)充分性对于一个总体指标,若其估计量提取了样本中包含的有关该总体指标的全部信息,则此估计量就称为该总体指标的充分估计量。在多数情形下,矩法估计给出的总体指标的估计量均是充分的。如在正态分布总体之下,样本均值是总体均值的充分估计量,样本方差s2也是总体方差σ2的充分估计量。(五)稳健性如果用来估计总体指标的样本估计量对样本数据的污染不敏感,也就是说估计量的数值不受被污染数据的干扰或受其干扰不大,那么该估计量就是总体指标的一个稳健估计量。实践中常用的一种估计总体均值的稳健估计量是切尾均值,切尾均值的计算公式为:四、估计量的标准误(一)标准误的概念样本估计量的标准差通常称为该估计量的标准误差,简称标准误。即:标准误是衡量一个估计量抽样估计误差大小的一个尺度。(二)标准误的计算1、样本均值的标准误niixxns122112ˆˆEMSE2ˆˆˆˆEEVar2、样本比例的标准误(三)影响标准误的因素1、总体中各个体之间的差异程度。总体中各个体取值之间的差异程度大即σ2也大,各总体指标估计量的标准误的数值也就大,抽样估计误差也就大。2、样本容量的大小。样本容量大,总体指标估计量的标准误则小,抽样估计误差也就越小;反之,样本容量越小,抽样估计误差及其标准误也就越大。3、抽取样本的方式方法。抽样方式方法不同,总体指标估计量的标准误就会不同,抽样估计误差的大小也就不同。七、区间估计的概念八、区间估计的方法(一)均值的区间估计1、大样本下均值的区间估计由中心极限定理可知,对于大样本而言,样本均值的概率分布总可近似地看作是正态分布。若事先给定置信概率为1-α,则查标准正态分布概率数值表,可得标准正态分布的上侧分位数zα/2,就可得出总体均值μ的置信区间为:(一)均值的区间估计(二)比例的区间估计总体比例是两点分布总体的均值,其估计量样本比例则是来自该总体的随机样本的均值。因此,在大样本条件下,可根据中心极限定理用类似于大样本情形下总体均值区间估计的方法来对总体比例进行区间估计。有:(三)方差的区间估计由抽样分布理论可知,对于来自正态总体的一个简单随机样本,其修正样本方差s2与总体方差σ2比值的(n-1)倍服从自由度为(n-1)的χ2分布。若给定置信概率1-α,查自由度为(n-1)的χ2分布表可得两个分位数χ1-α/2和χα/2,则可得正态总体方差σ2的置信区间为:(四)单侧置信区间nzxnzx22,nppzpnppzp1,12222122221,1snsn九、样本容量的确定若在给定1-α的置信概率之下,要求用样本均值估计总体均值的抽样估计误差不超过δ,则由总体均值的抽样估计误差限的计算公式,可计算出必需最小样本容量。(一)放回抽样(二)不放回抽样一、假设检验的原理(一)统计假设和检验统计量所谓统计假设,就是关于总体分布特征的某种论断。关于总体参数假设的检验,是假设检验的核心内容。记总体参数为θ,若要判断θ是否等于某已知数值θ0,则该参数假设可表示为:H0:θ=θ0,H1:θ≠θ0其中,假设H0:θ=θ0就是所要检验的假设,称为原假设或零假设;而假设H1:θ≠θ0则称为对立假设或备择假设。要检验某个假设是否正确,需根据样本所提供的信息来进行。包含总体分布特征的全部样本信息的样本指标,是进行假设检验的依据,称为检验统计量。(二)显著性水平和拒绝域进行假设检验,概率论中关于小概率事件在一次试验中是不可能事件的原则是其所遵循的基本原则。通常取小概率事件的概率临界值为0.05或0.01,用α表示,称为假设检验的显著性水平。在原假设成立的条件下,由检验统计量的概率分布,对于给定的显著性水平,就可确定出由抽样误差引起的样本估计值对总体参数原假设值的可能的最大偏离ˆfα/2α/2θ0拒绝域L2接受域U2拒绝域ˆ22220znNnnNzzzNNzn00222222222222222111值,作为判断原假设正确与否的临界值。样本估计量偏离总体参数原假设值过大的区域,就是否定原假设的区域,称为否定域或拒绝域,而否定域以外的区域则称为接受域。1、双侧检验若要检验的假设为:H0:θ=θ0,H1:θ≠θ0则否定域应建立在与原假设值的正负偏离超出给定临界值的两边,这种检验方法称为双侧检验。2、左侧检验若要检验的假设为:H0:θ≥θ0,H1:θ<θ0则否定域应建立在与原假设值的负偏离超出给定临界值的一边,这种检验方法称为左侧检验。3、右侧检验若要检验的假设为:ˆfαθ0拒绝域L接受域ˆˆfαθ0接受域U拒绝域ˆH0:θ≤θ0,H1:θ>θ0则否定域应建立在与原假设值的正偏离超出给定临界值的一