第一章统计与数据描述统计(DescriptiveStatistics):用表格、图形和数字来概括、显示数据特征的统计方法推断统计(InferentialStatistics):从总体中抽取样本,并利用样本数据来推断总体特征的统计方法。参数(parameter):描述总体数量特征的概念常用希腊字母。统计量(statistic):描述样本数量特征的概念,常用英文字母表示定序数据也可以有负数,但是不可以计算算术平均值根据较高层次的计量尺度可以获得较低层次的计量尺度。定距数据:出生年月也称间隔尺度,例如年份、摄氏温度,数据表现为“数值”,可以进行加减运算,“0”是只是尺度上的一个点,不代表“不存在”定比数据:体重也称比率尺度,例如体重、身高、华氏温度,数据表现为“数值”,可以进行加减、乘除运算,“0”表示“没有”或“不存在”,变量是用来描述现象某种令人感兴趣的特征的概念。横截面、时间序列和面板数据区分数据是时点数还是时期数的方法之一看其加总后的结果是否有意义。若有意义则该指标必定是时期数。反之,则必定是时点数。小结:统计学是一门收集、分析、展示和解释数据的科学描述统计和推断统计总体和样本,参数和统计量分类数据、顺序数据、间距数据和比率数据定性数据和定量数据横截面数据、时间序列数据、面板数据统计指标的概念和表现形式第二章数据的搜集抽样单位的名单称为抽样框(SamplingFrame)。抽样框应尽可能与目标总体相一致。例如名单抽样框、区域抽样框、时间表抽样框。简单随机抽样也称纯随机抽样。直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。可分为有放回和无放回两种方式。通常有抽签法和随机数法两种抽选方法。重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大系统抽样(也称等距抽样):将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。主要适用场合:总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的总体内单位数过多,而抽取的样本又较多时总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查)分层抽样也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。总体方差等于层间方差和层内方差的加权和,而抽样误差只受层内方差的影响。因此分层时应使层间方差尽可能大(从而层内方差小)。整群抽样:先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位。按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式。总体方差等于群内方差和群间方差的加权和,而抽样误差只受群间方差的影响。因此分群时应使群间方差小。各种抽样方式的特点要记下来呢多阶段抽样,先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,„„如此下去直至抽取所要调查的基本单位的抽样方法。方便抽样,纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题。也译为便利抽样、偶遇抽样。判断抽样,调查者根据主观经验和判断从总体中选取有代表性的单位构成样本。配额抽样,是非随机抽样方法中最常用的一种抽样方法。分为两个步骤:1.根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额;2.然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位。雪球抽样,也译为滚雪球抽样。其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止。封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。答案要穷尽。答案要互斥。小结:对使用者来说,数据的来源包括一手数据和二手数据。实际中常用的统计调查方式主要有抽样调查、普查和统计报表。常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。常用的非概率抽样方法有:方便抽样、判断抽样、配额抽样和雪球抽样。抽样调查中的误差包括抽样误差和非抽样误差两部分。非抽样误差主要包括抽样框误差、无回答误差和计量误差。数据收集方法主要包括访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深访、直接观察等。调查方案设计的好坏直接影响到调查数据的质量。问卷设计是科学与艺术的结合。第三章数据的描述单变量值分组:将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。对不等距分组:纵轴必须表示为频数密度。等距分组可以是频数频数密度=频数/组距(面积之和=总频数)列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。直方图与条形图的异同:都是用来反映数据的分布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。应该是不能够用于分类数据的直方图的各矩形通常是连续排列,条形图则是分开排列。折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。茎叶图:绘制统计图时的注意事项:长宽比例要适当,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。统计表的注意事项:表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。离散系数是标准差与其相应的均值之比,表示为百分数。计算均值时,根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。算术平均数:易受极端值影响(使用了全部数据),数学性质优良,主要用于数值型数据,数据对称分布或接近对称分布时应用中位数:不受极端值影响,数据分布偏斜程度较大时应用;主要用于顺序数据众数:不受极端值影响,不具有惟一性,数据分布偏斜程度较大时应用;主要用于分类数据时间序列中每一个观测值称为发展水平。将不同时期的发展水平加以平均得到的平均数称为平均发展水平。对于时期序列、时点序列和相对数序列、平均数序列,平均发展水平的计算方法有所不同。(1)时期序列:(2)“连续”时点序列:按时期序列的公式计算。发展速度-100%等于增长速度。nanaaaaniin121.......小结:统计数据的分组和频数分布;列联表条形图、圆形图、直方图、线图,茎叶图的绘制和应用统计表的构成一般要由表头、行标题、列标题、数据资料组成绘制统计图表的注意事项集中趋势是一组数据向其中心值靠拢的倾向和程度。常用测度指标有:算术平均数、众数、中位数、分位数等。平均发展水平和平均发展速度的计算离中趋势反映的是一组数据中各观测值之间的差异或离散程度。常用测度指标包括极差,四分位距,方差和标准差,离散系数等数据分布的偏态与峰度的含义箱线图的绘制和含义Z分数的计算和含义第四章参数估计与假设检验用来推断总体参数的统计量称为估计量(estimator),其取值称为估计值(estimate)。同一个参数可以有多个不同的估计量。参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。点估计:用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。有效性指随着样本容量的增大,估计量越来越接近被估计的总体参数。抽样分布是区间估计的理论基础从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。统计量的抽样分布就是这一统计量所有可能值的概率分布。抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。样本均值的方差等于总体方差的1/n简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于n,这个指标在统计上称为标准误。简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于这一系数称为有限总体校正系数。当抽样比(n/N)0.05时可以忽略有限总体校正系数。抽样平均误差:样本均值的标准差,也就是前面说的标准误。它反映样本均值(或比例)与总体均值(比例)的平均差异程度。必要样本量受以下几个因素的影响:1、总体标准差。总体的变异程度越大,必要样本量也就越大。2、最大允许误差。最大允许误差越大,需要的样本量越小。3、置信度1-α。要求的置信度越高,需要的样本量越大。4、抽样方式。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。不重复抽样时的必要样本量:比重复抽样时的必要样本量要小。式中n0是重复抽样时的必要样本容量。根据决策规则得出拒绝或不能拒绝零假设的结论。注意“不能拒绝零假设”不同于“接受零假设”。零假设和备择假设:把研究者要证明的假设作为备择假设;检验一种声明是否正确,一般将所作出的声明作为原假设。12NnNn1NnNNnnn001理解假设检验的小概率原则掌握确定零假设的方法掌握一个总体均值和比例的检验方法掌握两个总体均值的检验方法(独立样本和匹配样本)理解假设检验中p值及计算方法了解用SPSSStatistics进行假设检验的操作方法,熟悉SPSS的输出结果。第五章方差分析方差分析(Analysisofvariance,ANOVA)的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。可以看作t检验的扩展,只比较两个均值时与t检验等价。方差分析的基本假设:(1)在各个总体中因变量都服从正态分布;(2)在各个总体中因变量的方差都相等;(3)各个观测值之间是相互独立的。三个平方和的自由度分别是SST的自由度为n-1,n为全部观察值的个数SSA的自由度为r-1,其中r为因素水平的个数SSE的自由度为n-r如果因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。如果是比较方差则是4:1在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为事后检验(PostHoctest)。包括0的是差异不显著第六章非参数检验非参数检验的特点:(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面。(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析。(3)在参数检验和非参数检验都可以使用的情况下,非参数检验的功效(power)要低于参数检验方法。以下情况应该首选非参数检验:(1)参数检验中的假设条件不满足,从而无法应用。例如总体分布为偏态或分布形式未知,且样本为小样本时。(2)检验中涉及的数据为定类或定序数据。(3)所涉及的问题中并不包含参数,如判断某样本是否为随机样本,判断某样本是否riixxmSSA12)(rimjiijxxSSE112)(来自正态分布等。(4)对各种资料的初步分析。用于单个样本的2拟合优度检验、K-S拟合优度检验、中位数的符号检验用于两个匹配样本的Wilcoxon符号秩检验用于两个独立样本的Wlicoxon秩和检验用于多个独立样本的Kruskal-Wallis检验。结果分析例子:结论:计算出的卡方统计量的值为11.250,自由度为2,相应的p值(渐近显著性)为0.004,小于a=0.05。所以检验的结论是拒绝总体中消费者对3种材料的偏好程度无差异的零假设。大样