第一讲:统计基本概念及描述性统计理论研究问题及假设概念的操作化定义变量的测量选取样本问卷调查实验设计收集数据分析数据得出结论基本研究步骤统计分析的分类&测量尺度描述性vs.推断性统计学所包含的统计分析可以分为两大类:描述性统计分析(DescriptiveStatistics)推断性统计分析(InferentialStatistics)描述性统计描述性统计分析:通过制表画图及计算统计量等方式,对收集的数据进行概括、描述、和探索。其目的是用简洁有效的方式去描述复杂繁琐的数据!收集的数据(n=500)你可以让人家看500个原始数据(e.g.,20页)如果有人问你数据的情况?你还可以让人家看概括性的图表和统计量(e.g.,2页)例子:交大学生对学校生活的满意度如何?推断性统计推断性统计分析:通过样本特征来推断总体特征。或者说通过已知的样本统计量来推断未知的总体参数。总体(e.g.,几百万本科毕业生)样本(2000本科毕业生)抽样推断总体参数样本统计量例子:2013中国本科毕业生的就业率是多少?推断性统计计算出的样本统计量(样本的就业比例)是描述性的,然后通过某种方法推断它和真实的总体参数的相似或接近程度是推断性统计。只需收集部分数据就可以推断出我们感兴趣的总体的特征。这就是统计学的魅力所在!推断性统计的准确性在于样本是否很好地代表总体,以及推断方法的正确性。测量尺度(scalesofmeasurement)测量(measurement):根据规则,对人或事物的特征用数值来表示。数据有不同等级的测量尺度,根据测量尺度,才能正确解释变量的赋值。测量尺度定类(nominal)定序(ordinal)定距(interval)定比(ratio)测量尺度定类(nominal:givinganame):等级最低,只是给不同类别起个名称;类别可以用名字来表示,也可以用数值来表示;数值本身没有实质性意义,仅是一种符号,为了区分不同的类别;只具有等于(=)或不等于(≠)的数学特性。典型例子:性别、户口、民族、婚姻状况等•男=0,女=1;(也可以是其它任意数值)•男=M,女=F;测量尺度定序(ordinal:orderingindividualsorobjects):数据表现为“类别”但有序;不同类别之间有一定的顺序;类别的取值反映了排列次序;相邻取值之间不一定是等距的;数学特性:=,≠,,典型例子:•教师的职称(讲师=1、副教授=2、教授=3)•满意度(非常不满意=1,不满意=2,中立=3,满意=4,非常满意=5)•学生的成绩排名(第一名,第二名,…..)测量尺度满意度的取值1~5,反映了人们满意度由弱到强的排序,但是相邻数值之间的距离并不是满意度在真实程度上的差异的体现。如果张三选择5,李四选择4,王五选择3,我们知道张三比李四的满意程度高,但是高多少我们并不知道。我们也知道李四比王五的满意程度高,但是高多少我们也不知道。虽然5和4相差1,4和3也是相差1,但5比4高的程度与4比3高的程度并不一定是相等的。成绩的排名,第一名和第二名可能仅差2分,但第二名和第三名的成绩可能差5分。测量尺度定距(interval:equaldistance):数值的大小反映了排列次序;相邻取值之间是等距的;但没有真正意义上的0点;可以对它们做加减运算,但不可以做乘除运算。典型例子:温度,年份,成绩等•0度并不说明没有温度;它只是人们把结冰时的温度设置为0度,不是绝对的,而是任意的;•25与20度之间相差5度,15度与10度之间也是差5度;(可以说:25度比20度高5度,15度比10度也是高5度)•我们不能说:外面(30度)比室内(15度)热两倍!测量等级定比(ratio:equaldistance):等级最高数值的大小反映了排列次序;相邻取值之间是等距的;有绝对的真正意义上的0点;可以对它们做加减乘除运算。典型例子:年龄,身高,体重,收入,子女个数等•收入为0就表示没有收入;•收入2000就比收入1500多500,收入1000比500也是多500;•收入2000是收入1000的两倍。比较测量尺度注意:在社会学研究中,只满足“定距”而不能满足“定比”要求的变量并不多。因此,在社会学中一般不再区分定距和定比,而是把它们当作一类,称为“定距”变量。一个变量,它的层次等级并不是唯一的。如果变量是高等级的,它必然可以作为低等级来使用。但降低等级会损失信息量。收入―年薪多少(定距)高中低收入(定序)年龄―多大年龄(定距)老中青年龄段(定序)测量尺度的重要性不同的统计方法是针对不同测量尺度的数据的。只有明确了变量的测量尺度,才能正确选择适合的统计分析方法!研究问题―变量类型―统计分析方法描述性统计分析单变量描述分析(univariatedescriptivestatistics)分布形状(shapeofthedistribution)集中趋势(centraltendency)离散程度(variabilityordispersion)描述性统计分析——集中趋势描述单变量描述分析(univariatedescriptivestatistics)分布形状(shapeofthedistribution)集中趋势(centraltendency)均值(mean)中值(Median)众值(mode)离散程度(variabilityordispersion)集中趋势描述集中趋势的统计量:用一个统计量去描述数据分布的中心位置,又称为“位置统计量”。常用的统计量有:均值(Mean):数据的算术平均值中位数(Median):把数据分成50%和50%的数值众数(Mode):一组数据中的出现次数最多的数值均值(Mean)特性:考虑了每个数据,所以增加或减少一个数据,均值就会发生变化;很容易受极端值(ExtremeValues)的影响。比较:1,3,5,7,91,3,5,7,90$10200,$10400,$10700,$11200,$11300,$11500,$200000($37900vs.$10883)•“均值”适合于描述单峰和基本对称分布的集中趋势;•“均值”不适合用来描述严重偏态分布的集中趋势。例如,一个国家会因少数富翁的存在,使平均收入变得很高。•对严重偏态分布,应使用中值来描述集中趋势。中值(Median)特性:中值只是考虑了中间位置的数据值,所以仅用中位数描述数据会损失很多信息。但它受极端值的影响较小,因此对偏度较大的数据(如收入),中位数比均值更能代表数据的中心位置。比较:1,3,5,7,91,3,5,7,90众值(Mode)特性:中值是一组数据中出现次数最多的数据值。众数不一定唯一,也可能不存在;1,3,5,7,91,1,3,3,7众数不太稳定,数据很小的波动就可以影响到它的值;1,1,3,3,71,1,3,3,7,1众数是定类数据仅能使用的集中趋势统计量。三个值的关系正态分布双峰对称分布矩形分布三个值的关系正偏分布负偏分布如何选用这三个值根据变量的测量等级判断:定距:均值、中值、众值定序:中值、众值定类:众值对定距型变量,根据分布的形态判断:对称或接近对称的分布:均值、中值(均值可能更好,因为它利用了每个数据)严重偏态分布或存在一定数量的极端值:中值描述性统计分析——离散程度描述单变量描述分析(univariatedescriptivestatistics)分布形状(shapeofthedistribution)集中趋势(centraltendency)离散程度(variabilityordispersion)异众比率(variationratio)极差(range)四分互差(interquartilerange)方差(variance)及标准差(standarddeviation)离散系数(variationcoefficient)离散程度离散程度:指一组数据的分散程度或者说数据之间的差异程度。常用的统计量有:异众比率(Variationratio)–定类变量全距或极差或范围(Range)–定序/定距变量四分位距或四分互差(InterquartileRange–IQR)–定序/定距变量方差(Variance)–定距变量标准差(StandardDeviation)–定距变量异众比率当用“众值”来描述数据的集中趋势,“异众比率”表示非众数在总数N中所占的比例:当=0时,说明变量只有一个取值,那就是众值;这时,众值可以完全代表变量。当-1时,说明数据非常分散,众值几乎没有代表性。当=1时?极差一组数据最大值和最小值的差,又称“全距”:最简单的测量离散程度的统计值未考虑数据的分布受极端值的影响很大四分位距四分位数(quartiles):将数据从小到大进行排序,然后分为四等份,处于三个分割点的数据就是四分位数:Q1Q2Q3四分位距:IQR=Q3-Q1测量了中间50%的数据的范围,反映了中间50%数据的离散程度。优点:IQR优于极差和标准差在于它不易受极端值的影响!所以当分布偏度很大或者说有少部分极端值时,适合用IQR描述离散程度!方差和标准差对定距变量,方差和标准差是最常用也是最重要的描述离散程度的方法。反映了各变量值与均值的平均差异。和均值一样,计算方差和标准差需要用到每个数据值。根据总体数据计算的,称为总体方差和标准差;根据样本数据计算的,称为样本方差和标准差。方差和标准差总体的方差和标准差:样本的方差和标准差:NX22)(NXSD2)(1)(22nXXs1)(2nXXsSD方差和标准差方差和标准差均大于等于0;值越大说明数据越分散;等于0时,数据全部相等,无差异。标准差的单位和原始数据的单位相同,所以,它比方差容易解释。不能根据标准差来比较不同变量的离散程度,因为标准差和原始数据的尺度有关,比较:100、200、300(SD=100)10、20、30(SD=10)离散系数数据标准差与其相应均值之比也称为“变异系数”测量了数据的相对离散程度用于对不同组别数据离散程度的比较计算公式为:离散系数离散系数描述性统计分析——分布形态描述单变量描述分析(univariatedescriptivestatistics)分布形状(shapeofthedistribution)频次分布(frequencydistribution):频次表和各种图形集中趋势(centraltendency)离散程度(variabilityordispersion)频次分布(定类)定类变量的频次表:列出各类别;计算各类别的频次;绘制频次表。频次:变量值落在某个类别中的次数相对频次:各类别占总数据的比值百分数:各频次占总样本量的百分数性别频次(frequency)相对频次(relativefrequency)百分数(percentage%)男120.6060女80.4040总数201.00100频次分布(定类)适合描述定类变量的图形有“条形图(bargraphs)”和“饼图(piegraphs)”,可以手工绘制,也可以用excel或任意统计软件来绘制。条形图条形图:•用长条的高度来表示类别的频次或百分比;•长条的宽度没有意义,画成等宽的长条即可;•如果是定类变量,图形应画成离散的长条,但类别的顺序没有关系。•如果是定序变量,长条的排列次序应与变量取值的次序相一致!频次分布(定类)饼图(或圆瓣图):饼图:•用圆形代表现象的总体,用圆瓣(扇形)代表现象中的一种情况,其面积大小代表了所占数量或百分比。•制作:将每个类别的百分数乘以360度,即可得出各圆瓣之圆心角度数。性别频次(frequency)百分数(percent%)角度男12600.60X360=216女8400.40X360=144总数20100频次分布(定序)定序变