第一章统计概述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章概述一.统计统计(statistics)一词具有多种含义,它可能指:用于统计处理的数据,对数据的统计处理,使用统计手段收集、分析、解读数据的技术,关于统计技术的学问,即统计学。1.1总体与样本统计数据分为总体数据和样本数据:总体(population):一组研究对象或者一组观察数据。样本(sample):从特定总体中选择的一组研究对象或观察数据。总体数据和样本数据对应的统计量数分别称为参量和统计量:参量(parameter):对总体的统计学描述。统计量(statistic):对样本的统计学描述。比如,一个变量的总体平均数就是一个参量,而该变量的样本平均数就是一个统计量。1.2统计分析的分类描述统计和推断统计统计分析首先根据是否进行统计推断分为描述统计和推断统计两大类。描述统计(descriptivestatistics):对已知数据的特征进行描述的统计方法。推断统计(inferentialstatistics):根据样本特征去推断总体特征的统计方法。比如,总体平均数和样本平均数都属于描述统计,根据样本平均数去推断总体平均数就是推断统计。一般来说,在使用样本的时候总体平均数或其它参量是未知的,这时就需要进行推断统计来获得关于总体的信息了。单变量分析和多变量分析统计分析又根据所分析的变量的个数分为单变量分析和多变量分析。单变量分析(univariateanalysis):同时只分析一个变量的统计方法。多变量分析(multivariateanalysis):同时只分析多个变量的统计方法。比如,根据一个变量的样本平均数去推断总体平均数,这只涉及一个变量,是单变量分析。计算一个变量和另一个变量的相关性,涉及到两个变量,这就是最简单的多变量分析。以上所述其实并不准确。严格来说,多个因变量才称为多变量分析,一个因变量多个自变量仍然称为单变量分析。参数统计和非参数统计统计分析又根据其所依赖的基本假设分为参数统计和非参数统计。参数统计(parametricstatistics):已知总体的分布或者对总体的分布有确定假设(一般是正态分布)条件下的统计方法。初等的统计方法一般都是参数统计。非参数统计(non-parametricstatistics):不知晓总体的分布或者对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。二.模型2.1科学模型广义来说一切科学研究的对象都视作变量,而科学研究的目的就是要尽可能解释这些变量的变异性(variation),或者说就是确定这些变异性的来源。追根究底,一个变量的变异性的来源其实就是其它变量。因此,可以说科学研究就是要弄清变量之间的关系,而模型(model)就是对变量关系的概括。在自然科学,特别是物理学中,大量的模型是确定性模型(deterministicmodel),也就是说能够建立变量之间的确定关系。比如牛顿第二定律a=F/m,通过自变量F和m就确定了因变量a,这一模型在经典力学中是没有任何意外情形的。确定性模型一般都有一定的前提条件。比如经典力学模型只在低速和宏观的情形下成立,在高速(接近光速)和微观的情形下就无法成立。2.2统计模型对数据进行统计分析的目的就是要建立统计模型(statisticalmodel)。比如平均数(Mean)和标准差(StandardDeviation)就是最常见最简单的统计模型,它们用来描述单个变量的集中和变异的特征。统计模型把变量的变化分为两部分:确定分量(deterministiccomponent)和不确定分量。不确定分量一般称为随机分量(randomcomponent)。实际上,随机分量并不见得真的是随机的,只不过是当前的统计模型无法解释它而已(注:一种观念认为世界上根本就不存在真正的随机事件,所谓随机就是指当前的知识无法解释。)。统计模型和确定性模型的差别在于,确定性模型只包含了确定的部分,而统计模型不只包含了确定的部分,还包含了不能确定的部分。确定性模型之所以能够抛弃不确定分量,只留下确定分量,是因为在一定的条件下它对其中的自变量与因变量的关系提供了机理性的解释。比如自由落体运动模型中,设定下落初速度为零,除重力以外的其它外力为零。在这个模型中,重力是落体运动的决定性因素。这个模型提供了特定条件下落体运动的完备解释。统计模型却无法抛弃不确定分量只留下确定分量,这是因为统计模型所给出的变量关系并非一定条件下的完整的机理性解释。比如我们会发现中小学生的年级和身高之间存在一定的相关性,因而可以建立一个用性别和年级来预测学生身高的统计模型。但是这个统计模型本身只是对两个变量之间的数量关系的一个统计描述,并不包含关于学生身高的机理解释。如果我们改成用学生的年龄作为自变量去预测身高,此时具有一定意义上的机理性解释了。但是这个模型仍然是统计模型而非确定性模型,因为我们没有限定一个基础条件去剔除所有的随机分量。由于统计模型中的变量关系不具有完整的机理解释的意义,我们就无法设定一个条件来只考虑其中的自变量,而忽略其它变量。比如我们不能假定学生的其它因素都忽略不计,只考虑年龄对身高的影响,这样的假定显然是荒谬的。尽管统计模型不能提供即便是一定条件下的完整的机理性解释,它在实践中仍然可以有用。统计模型所揭示的变量关系,在一定程度上可以丰富我们对现实世界的理解,在一定程度上可以用于预测变量的变化。根据变量的关系不同,统计模型可分为线性模型(linearmodels)和非线性模型(non-linearmodels)。2.3理想模型和经验模型确定性模型一般都是理想模型,也就是说是建立在非常特殊的前提条件上。比如说自由落体运动模型的一个限定条件就是真空,或者说没有空气阻力。理想模型和现实世界显然有所不同,因而把它用于现实世界就无法得到准确的结果。尽管如此,在某些时候理想模型用于现实世界的准确性仍然是可以接受的。比如当空气阻力相对较小时,将其忽略不计,当作理想的自由落体运动仍然可以得到比较令人满意的结果。如果在应用中对准确度的要求较高或者现实条件对理想前提条件偏离较远,不能直接使用理想模型,那么就需要对理想模型进行修正,加入更多的变量,这就形成了经验模型。比如根据流体力学把空气阻力的影响加入到落体运动模型中去。必须要注意到的是,无论如何,没有一个模型是绝对完美的,任何模型都只是在一定程度上对现实世界的近似((“Essentially,allmodelsarewrong,butsomeareuseful.”--Box,GeorgeE.P.;NormanR.Draper(1987).EmpiricalModel-BuildingandResponseSurfaces.Wiley.pp.p.424.ISBN0471810339.))。模型之所以无法与现实世界完全符合,是因为现实世界中存在了太多的变异性,而能够包含现实世界全部变异性的只能是现实世界本身。2.4模型的科学意义表面看来,模型所涵盖的现实世界的变异性越多越好,然而并非如此。模型不但应当是具有广泛的预测力的,也应当是具有科学意义的(scientificallymeaningful)。这两个目的之间存在着内在的冲突,一个模型的普适性越强,即对现实世界的变异性的覆盖面越广,那么它使用的变量就越多,它就越复杂、越难理解,它的科学意义也就越不明显。而科学所追求的解释力是建立在对现实世界的理解上的,因而我们总是先建立尽可能简洁的模型,通过暂时的普适性上的损失换来科学理解上的深刻性。比如自由落体运动虽然和现实中的很多落体运动不符,但是通过自由落体运动模型我们获得了对落体运动的一般规律的理解。进而我们可以把自由落体运动作为理解更复杂的落体运动的起点,只要对简单模型进行修改就可以建立更复杂的模型用于解释更复杂的现象。对于不同的实际情况我们可以对简单模型进行不同的修改来于之适应,显然简单模型的另一个优势是更具灵活性。总之,通过对简单模型逐步细致化的方法,我们才能够建立既有科学意义又有普适性的系统知识。2.5拟合与残差研究者在建立模型时只能基于自己所掌握的数据,而研究者所掌握的数据其实是对现实世界的抽样,它显然不可能包含现实世界中全部的变异性。而我们所要建立的统计模型可以说是对我们所掌握的数据的再次抽样。我们尝试建立模型并不是为了让它和原始数据完全符合,而是希望通过这个模型来概括数据。既然概括就未必需要百分之百的准确。一个模型要越准确,它就要变得越复杂,越难理解。现实中我们总是在复杂性和准确性之间进行权衡。因此,统计模型和样本数据之间总是有个差距。样本数据中的变化,有一部分能够被统计模型解释,这就是拟合的部分;另一部分不能被统计模型解释,这就是误差(error),在推断统计中称为残差(residual)。2.6过度拟合另外要注意的一点就是,统计模型是基于样本建立的,但是其模拟的真正目标是总体数据。也就是说统计模型是通过模拟样本去模拟总体。一般来说,统计模型和样本符合得越好,那么它和总体也就符合得越好。但是这个结论其实只在一定程度上成立。当模型和样本拟合到一定程度之后,会出现它和总体的拟合下降的现象,这称为过度拟合(over-fitting)。过度拟合之所以会出现,是因为样本和总体相似而又不完全相同。当统计模型一开始和样本越来越拟合时,它和总体也越来越拟合,这时样本和总体的相似性是主要因素。当统计模型和样本拟合得越来越好时,它和总体的拟合会开始下降,这时样本和总体的差异开始成为主要因素。三.变量3.1变量的定义变量的定义有两种方式:一是概念化定义(conceptualdefinition),即用其他概念来描述变量,这种方式的定义便于揭示变量的意义。比如:速度定义为描述物体运动快慢的物理量。一是操作化定义(operationaldefinition),即通过数学操作或实验操作来描述变量,这种方式的定义便于揭示变量的本质。比如:速度定义为位移除以时间(数学操作)。3.2变量的数值特性根据变量所取的值的性质的不同可将变量分为质性变量和量性变量。分类变量(categorical/qualitativevariable)的取值为非数值性的分类或标签。比如性别、种族、血型、成绩等级(优良中下)等。数值变量(numerical/quantitativevariable)的取值为数值。比如年龄、身高、体重等。根据变量所取的值是否可以排序可分为有序变量和无序变量。有序变量(orderedvariable)的值是可以进行排序比较的。比如年龄、身高、体重、成绩等级(优良中下)等。无序变量(unorderedvariable)的值是不可以进行排序比较的。比如性别、种族、血型等。根据变量所取的值是否连续可分为连续变量和离散变量。连续变量(continuousvariable)可取的值的个数是无限且不可数的。比如年龄、身高、体重。对于连续变量的测量总是在一定程度上的近似,而不可能是精确值。比如年龄的测量一般精确到年,身高的测量一般精确到毫米,体重的测量一般精确到克等。离散变量(discretevariable)可取的值的个数是有限的或者无限且可数的。所有的分类变量都是离散变量。有的数值变量也是离散变量,比如试卷中的题数、班级中的人数等。这里需要的特别注意的是测验的得分,表面看来测验的得分是离散变量,但是它背后所代表的知识、能力等心理特质其实是连续的,因此测验的得分往往当做连续变量来处理。3.3变量的因果关系根据变量在研究中因果地位的不同可分为自变量(independentvariable)、因变量(dependentvariable)、外部变量/无关变量(extraneousvariable)和混杂变量(confoundingvariable)。量性研究的目的一般就是要揭示因果关系,反映在变量上就是要了解自变量对因变量的影响。其中自变量就是实验者控制和操作的变量,因变量就是随自变量而变化的变量。比如要研究教学方法对学生成绩的影响,那么就首先要对学生按照教学方法分组。比如A组采用一种新式的教学方法,称为实验组;另一组采用传

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功