《社会统计学》教案主讲教师:张静教学目的和要求:通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析知识应用于社会调查研究之中,掌握统计方法的灵活运用。本课程偏重统计方法的实际应用,而非其数理基础。在教学过程中,注重对于不同统计分析方法适用条件的说明,统计公式的讲解,以及对于统计值意义的说明。教学重点和难点:本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解释。难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应用。教法特点说明:课堂讲授为主,注重对实例的讲解。教材和参考书目:1、卢淑华著:《社会统计学(第三版)》,北京大学出版社,2007年。2、李沛良著:《社会研究的统计应用》,社会科学文献出版社,2002年。3、柯惠新等著:《调查研究中的统计分析法》,北京广播学院出版社,1992年。4、风笑天著:《现代社会调查方法》,华中科技大学出版社,2001年。5、袁方主编:《社会研究方法教程》,北京大学出版社,1997年。第一章统计学的简史教学目的和要求:通过本章的学习使学生了解统计学的产生、发展历程,对概率论、描述统计、推论统计有初步的认识。教学重点和难点:重点是概率论的兴起,难点是大数法则、正态分布。教学方法:课堂讲授教学内容:一、统计学的起源统计技术:古埃及、古中国(大禹治水)统计学:17世纪中叶Status(拉丁词汇,国家、状态)——Statistics研究国家的宏观状态①国势学②政治算术二、国势学(17世纪的德国)德国大学学派:H·Coring用文字记录一个国家的状况和制度G·Achenwall第一个定义——把国家的显著事项全部记录下来的学科三、政治算术(17世纪的英国)英国的经验主义者:用数量或数字的方法说明国家的特征J·Graunt《关于伦敦死亡表的观察》用数量分析社会、政治问题WilliamPetty《政治算术》四、概率论(数理特征更加明显)1.JBernoulli(贝努里)瑞士大数法则借助大数法则可以从社会现象复杂不定的偶然性中寻找规律,它说明了社会现象的稳定性2.Gauss(高斯)德国正态分布(中心极限定理的基础)五、数理统计学AdolpheQuetelet(阿道夫·凯特勒)法籍比利时人数理统计学派的创始人“经验社会学之父”《社会物理学》“平均人”六、描述统计高尔顿(FGalton)回归现象根据对1078对父、子身高的散布图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子。但平均而言,身材高大的其子要矮些,而身材矮小的其子要高些。或者说,无论高个子或矮个子的后代,都有向均值方向拉回的倾向。这种遗传上身高趋于一般,“退化到平庸”的现象,即是回归现象。卡·皮尔逊(KPearson)分布、相关、频数、皮尔逊系数七、推论统计部分→整体T检验、F检验第二章社会调查研究与统计分析教学目的和要求:通过本章的学习使学生了解社会调查研究的历程,明确统计分析在社会调查研究中所处的位置和作用。熟悉统计分析的具体内容,牢记统计分析方法的选择标准,能够熟练地判断应用。教学重点和难点:重点是社会调查研究的历程,难点是统计分析方法的选择标准,尤其是变量的测量层次。教学方法:课堂讲授,结合实例讲解教学内容:第一节社会调查研究历程一、概念二、社会调查研究的历程1.确定课题重要性、可行性(主观限制、客观限制)课题的选择应具有一定的理论意义或应用价值,应当是社会迫切解决理论问题或实际问题就要有一定的迫切性,另外还要注意课题的可行性,以及研究者的主客观条件是否具备等。2.初步探索通过查阅文献和向有经验的,有知识的人请教或者自己进行探索性调查,搜集获取第一手资料。3.建立假设差异式(如果A越高,则B也越高)(如果A越高,则B也越高)函数式(A不同则B不同)文化程度经济地位提出离婚4.理论解释和澄清概念概念的操作化:把那些通常只存在于我们头脑中的抽象概念,转化为我们看得见、摸得着,可以观察的具体指标社会地位——个人在社会中的位置——收入、职业、受教育程度5.设计问卷封闭式问题、开放式问题6.试填问卷7.调查实施8.资料整理:问卷的核对、登录9.统计分析与命题检验二、社会学研究的两个层次1.抽象层:包括概念命题理论2.经验层:包括观察量度测定分析等两者的关系紧密相联系遵循着:理论来源于实践,而又必须受到实践的检验第二节社会调查资料的特点和统计分析的内容一、社会调查资料的特点1.随机性大部分社会现象都具有非确定性,即在某种条件下可能发生也可能不发生。2.统计规律性在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐蔽着的规律支配的,而问题就在于发现这些规律。二、统计分析的内容描述性统计:主要介绍资料的整理,分类和简化或特征研究推论性统计:主要介绍参数估计、假设检验、回归、列联、方差、等级相关性格开放等统计技术。第三节怎样选用统计分析方法一、调查的方式全面调查——描述性统计抽样调查——推论性统计二、变量因素1.变量个数单变量双变量多变量2.变量层次定类:最低的变量层次,取值只有类别属性之分,而无大小程度之分。数学运算符表示(=、≠)定序:取值除了有类别属性之外,还有登记次序的差别。数学运算符表示(=、≠、、)定距:取值除了有类别、次序属性之外,取值之间的距离可用标准化的。距离去测量。数学运算符表示(=、≠、、、+、-)定比:除具有以上三种属性外,还可构成一个有意义的比率。数学运算符表示(=、≠、、、+、-、*、/)(在社会学研究中,只满足定距而不满足定比的变量很少,因而研究中不再区分定比定距,而合为一类,称作定距变量)①高层次变量具有低层次变量的特性,反之不成立②一个变量他的层次并不是唯一的,③变量的层次与社会实际衡量之间存在着差距或不一致④变量类型的划分也不是唯一的,可根据自己领域的需要来划分。第三章单变量描述性统计分析教学目的和要求:通过本章的学习使学生能够根据变量的测量层次,选择适当的表格、图形对数据资料进行初步简化,熟练地应用集中趋势和离散趋势测量法,对调查资料进行简化分析。教学重点和难点:重点是集中趋势测量法、离散趋势测量法,难点是不同类型的统计图,尤其是直方图。教学方法:课堂讲授,辅之以实例讲解教学内容:第一节最基本的单变量描述统计技术一、定类变量1、频次分布文字法、集合法、统计表法、统计图法2、频率分布文字法、集合法、统计表法、统计图法3、统计图——条形图、圆瓣图二、定序变量累加频次、累加频率三、定距变量1、连续型变量的分组问题组数;等距分组or非等距分组;决定分点的精度(组限、组距、组中点);2、统计图矩形图or直方图;折线图3、曲线类型四、统计表的制作1、统计表必须具备的内容表号、表头、标识行、主体行、表尾2、制表过程收集数据;找出极差R=最大值L-最小值S;确定组数;计算组距;实际分组;取中心值;统计频次,制表第二节集中趋势测量法一、定类变量——众值Mo——出现次数最多的值某班男生15人,女生30人。Mo=女生二、定序变量——中位值Md——在一个序列的中央位置之值。高于此值的有50%的个案,低于此值的也有50%的个案。(一)未分组数据1、原始资料首先要对个案按照从低到高的顺序排列;其次计算中位值所在的位置Md位置==n+1/2;最后查找对应的数值2、频次分布(频次分布表必须是按照由低到高的顺序排列的,而且列出了向上累加频次)首先计算中位值所在的位置Md位置==n+1/2;其次按照累加频次找出中位值。(二)分组数据Md位置==n/2Md=L+2ncfwfL=中位值组之真实下限f=中位值组之次数w=中位值组之组距cf↑=低于中位值组真实下限之累加次数n=全部个案数目三、定距变量——均值X——将变量的各个数值相加起来,求取一个平均的数值(一)未分组数据1、原始资料xXnn是全部个案数目x表示各个个案数值之和2、频次分布fxXnx是变量的各个取值,f是每个变量值对应的次数,n个案数目(二)分组数据mfxXnxm是组中心值2mULx小结:①三值设计的共同目的,都是希望通过一个数值来描述整体特征,以便简化资料。他们都反映了变量的集中趋势,一般说:众值:适用于定类、定序和定距变量;中位值:适用于定序和定距变量;均值:适用于定距变量。它们三者的代表性决定了它们具有估计和预测的作用。②众值仅使用了资料中最大频次这一信息,因而资料使用不完全。中位值,考虑了变量的顺序和居中位置,因此和总体频次分布有关,但因为只考虑居中位置,因而其他变量值的变化很难影响中位值,它也是三个集中值中最不敏感的。均值,既考虑频次又考虑变量值的大小,因而更灵敏。它的解释力最强,具有较高的统计价值。③均值虽然灵敏,但对严重偏态的分布容易失去代表性。即存在非常极端的分布值时,代表性不足。例如,一个国家会因某些少数富翁的存在,使平均收入变得很高。且在分组资料中的极端组没有组限时,不能求出均值,只能用中位值。④偏态图形和三值的关系。对于正态分布的图形来说,三值是合一的。当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。第三节离散趋势测量法一、定类变量——异众比率γ——非众值的次数与全部个案数目的比率。公式为:nfmonn是全部个案数目fmo是众值的次数二、定序变量——极差、四分位差(一)极差R=最大值-最小值(二)四分位差1、未分组数据(1)原始资料114nQ位置3314nQ位置。Q=3Q—1Q(2)频次分布2、分组资料14nQ位置334nQ位置111114ncfQLwf3333334ncfQLwfQ=3Q—1Q1L=1Q属组之真实下限3L=3Q属组之真实下限1f=1Q属组之次数3f=3Q属组之次数1cf↑=低于1Q属组下限之累加次数3cf↑=低于3Q属组下限之累加次数1w=1Q属组之组距3w=3Q属组之组距三、定距变量——标准差、方差(一)标准差、方差离均差xx→离均差之和xx→离均差绝对值之和xx→2xx→22xxSn/2221xxSnxxnn频次分布2221fxxSnfxfxnn分组资料2221mmmfxxSnfxfxnn(二)变异系数/离散系数1、使用离散系数的原因2、SCVx四、小结异众比率最适合于分析定类变项,也可分析定序、定距变项。它仅考虑频次极差、四分位差(十分位差)最适合用来分析定序变项,也可分析定距变项。极差仅仅考虑了变量的两个极端值,而四分位差考虑了变量的次序或大小。标准差(或方差)只能用来分析定距变项。由于它们的计算涉及每一个变量值,所以它们反映的信息在离散值中是最全面、最可靠的变异描述指标。方差还具有可加性,能够参与进一步的统计运算。不过,也正是由于标准差和方差的计算涉及每一个变量值,所以,它们也会受到极端值的影响,当数据中有较明显的极端值时不宜使用。另外,它们在计算中实际都使用了均值,因此实际上只有均值能反映集中趋势时才能使用方差和标准差来反映离散趋势。因此,实际上方差和标准差的适用范围应当是正态分布。还有一点要说明的是,比较均值,不一定要看离散趋势,但比较标准差时,一定要看均值的情况。变异系数的计算涉及均值和标准差,因此,它也只能用于分析定距变量。它实际是对标准差的修正。离散趋势测量法和集中趋势测量法是有互补作用的。二法并用,就可以一方面知道资料的代表值,有利于估计或预测工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。第四章简化两个变量的分布教学目的和要求:通过本章的学习使学生能够对相关及其性质有初步认识,学会制作与分析列联表,明确选择相关测量法的标准。教学重点和难点:重点是列联表、PRE意义,难点是相关关系与因果关系。教学方法:课堂讲授,辅之以实例讲解教学内容:第一节统计相关的性质一、什么是相关?相关,是指一个变量的值与另一个变量的值有连带性。具体来说,如果一个变量的值发生变化,另一个变量的值也有变化。二、相关的强度和方向1、相关强度相关系数——表示变量