第六讲---双变量的统计分析

huangzhuoshen
1 ℃
2020-05-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

厦门大学社会学系1第六讲双变量的统计分析厦门大学社会学系2“学好数理化，走遍天下都不怕”“学好数理化，不如有个好爸爸”布劳与邓肯在1967年出版的《美国的职业结构》中研究了父亲职业与子女职业的关系，先赋地位和自致地位哪一个在个人生活中具有更重要的作用。尽管家庭背景(父亲的职业与受教育水平)给美国男性的职业地位获得以显著作用，在决定美国在职男性社会地位获得的因素中，由个人努力所达到的“受教育水平”要比来自于“父亲职业地位”的作用更强。他们解释说，美国是一个相当开放的社会越是工业化社会，先赋性因素对个人社会地位获得的影响就越弱；越是传统型社会，先赋性因素对个人社会地位获得的影响就越强。但是，即使如此，在美国这样城市化和工业化水平较高的西方市场化国家，来自于父亲的先赋性因素，对子女职业地位的获得仍然具有虽然微弱但却显著而直接的影响。厦门大学社会学系3那么中国的情况如何？白威廉(WilliamParish)的研究最具影响力，白氏通过对中国大陆1972-1978年间迁居香港的132位移民的访谈，得到了他们2865位邻居的数据，发现：对于那些在“文革”前(1966年前)就年满20岁的同期群案例来说，父亲的“受教育水平”与“职业地位”对子女的受教育水平，父亲的“职业地位”与“阶级出身”对子女的“职业地位”获得等具有显著影响作用。但对于那些在“文革”时期才年满20岁的同期群案例来说，作用却并不显著。谢文和林南于1983年在北京的调查(N=1774)、林南和边燕杰于1985在天津的调查(N=1000)等进一步证实：父亲的职业地位既对人们的初职地位获得毫无影响，也对人们目前职业地位的获得缺少明显作用。林南与边燕杰将“工作单位部门”这一具有国家社会主义特色的指标作为中介变量，置于职业地位之前进行检验。研究发现，虽然父亲的职业地位对子女的教育和职业地位获得缺少统计意义的影响，但父亲的“工作单位部门”却通过对儿子“工作单位部门”的作用而影响了儿子的初职地位获得，但女儿却无此殊荣。厦门大学社会学系4单变量的分析和统计描述，是我们了解和认识社会现象的基础。但社会生活中的现象并不是孤立存在的，现象之间往往存在或多或少的关系，或者说，社会现象之间往往是相互联系、相互影响、相互依存的。进一步了解社会现象发生和变化的原因，揭示社会现象的发展规律，探索和发现现象之间的关系，才是大多数社会研究的主要目的，而这则需要对两个变量或多个变量之间的关系进行分析。厦门大学社会学系5变量之间的关系两个变量之间的关系多个变量之间的关系。在多数情况下，多个变量之间的关系又可以分解为若干个两个变量之间的关系，也就是说多个变量之间的关系可以通过若干个两个变量间的关系来描述。厦门大学社会学系6厦门大学社会学系7知识点双变量间关系的种类主要的双变量的测量方法（1）交互分析—列联表分析（2）不同层次变量的测量法（3）自变量和因变量的关系相关分析和因果分析厦门大学社会学系8一、相关关系（correlation）两变量间的相关关系指的是一个变量的值与另一个变量有连带关系。也就是，当一个变量发生变化时（或取值不同时），另一个变量也随之发生变化。（P68）如：文化程度收入期望女性的文化程度生育期望厦门大学社会学系91、相关的性质（1）相关关系的强度相关程度，指的是相关关系的强弱或大小。相关关系的强弱或大小可以用统计法进行测量。变量间相关关系的统计结果称为相关系数。相关关系的程度介于[0，1]之间，0代表无相关，1代表全相关，数值越大，表示相关的程度愈强。厦门大学社会学系10注意：社会调查中各相关系数的值不可能达到1相关系数只表示各变量间相关程度的指标，没有数量的关系。如0.5和0.25，并不表示0.5比0.25的相关大0.25，或者是0.25相关的两倍厦门大学社会学系11X和Y分别代表两个变量，各有二个取值（1，2），表中的a、b、c、d分别表示不同情况下个案的数目如果a=d=0或b=c=0，则表示X和Y全相关；如果a×d=b×c，即，则表示X和Y无关；如果a×db×c或a×db×c，则表示X和Y有相关关系。厦门大学社会学系12例1：a=d=0或b=c=0，两个变量全相关厦门大学社会学系13例2：a×d=b×c，对角线相等，则表示无相关厦门大学社会学系14例3：如果a×db×c或a×db×c，则表示X和Y有相关关系。厦门大学社会学系15（2）相关关系的方向（+、-）正相关关系和负相关关系正相关关系：一个变量的取值增加时，另一个变量的取值也增加，反之亦然；人们的文化程度越高，他们的收入水平也越高；文化程度较低的人，他们的收入水平也普遍较低。反之，那些收入水平较低的人，他们的文化程度一般来说也较低。厦门大学社会学系16负相关关系：一个变量的取值增加时，另一个变量的取值减少；而一个变量的值减少时，另一个变量值的增加。在调查中发现，文化程度越高的被调查者，在回答问卷时，花费的时间越少，而文化程度较低的被调查者，填答问卷时花费的时间较长。在此，我们可以说文化程度和问卷填答时间之间存在着负相关关系。注意：方向的分析只适用于定序以上层次的变量厦门大学社会学系17（3）相关关系的对称性与非对称性相关的两个变量，不一定有因果关系，可能是共同变化。不对称关系：自变量X影响因变量Y，但是因变量Y不会影响X---因果关系，如施肥量和小麦产量之间的关系对称关系：不能确定或区分两个变量的方向。如交往的多少与他们的互爱程度厦门大学社会学系18因果关系大多数的社会研究，都涉及因果关系的概念，社会研究的最终目的，往往在与希望获得某些社会现象间因果关系的知识。如“受教育程度与人们的职业获得的研究”、“不同职业的被调查者收入的差异”---首先认为这些变量之间存在因果关系。研究的目的在于辨明这些研究的因果关系状态厦门大学社会学系19（4）相关的类型相关关系是一种数量关系上不很严格的相互依存关系。如果这种关系近似地表现为一条直线，就称为直线相关，又称线性相关；如果这个关系近似地表现为一条曲线，则称为曲线相关，又称非线性相关。虽然在自然界和社会生活中，曲线相关现象远比直线相关更多，但由于数学手段上的局限性，社会统计研究中多以阐述线性（直线）相关为主。厦门大学社会学系20厦门大学社会学系215、削减误差比例1、两个变量间关系的强弱2、消减误差比例（PRE测量，Proportionatereductioninerror）：我们在预测或解释社会现象y时，难免会有误差（错误），假定另一种社会现象x与y是有关系的，我们可以根据x的值来预测y的值，理应可以减少若干误差，其值表示的就是x对y的误差的消减程度厦门大学社会学系22•理解：x对y的可认知程度如假定不知道x的值，我们在认识y时的全部误差是E1。我们知道x的值，可以根据x的值来认识y的值时的误差的总数(不可认知的部分）为E2，那么用x的值来预测y的值时减少的误差就是E1-E2，这个值（E1-E2）与y全部误差的比例，则称谓消减了的误差比例厦门大学社会学系23121EEEPRE厦门大学社会学系24Y右图红色表示E1-E2，E1厦门大学社会学系25PRE值的意义1、PRE的值在[0，1]2、E2=0，则PRE=1，x与y是全相关，用x解释y时不会产生误差3、E1=E2，则PRE=0，x与y是无相关，用x来预测y时产生的误差等于不用x来预测y时的误差4、如PRE=0.8，表示用x预测y可以减少80%的误差，也反映了两者的相关程度颇高；如果PRE=0.08，则表示只能减少8%的误差，即x对y的影响甚小，需要寻找其他的变量解释或预测y厦门大学社会学系26强调：相关值的两个意义两个变量之间关系的大小用一个变量预测另一个变量能消减的误差比例厦门大学社会学系27二、交互分类表与列联表交互分类就是将调查所得的一组数据按照两个不同的变量进行综合分类。通常以交互分类表（列联表）的形式出现，如表1：厦门大学社会学系28厦门大学社会学系29交互分析的作用如表3，我们只能得出赞成和反对的人大致相等的结论厦门大学社会学系30实际从不同性别来看，男性和女性之间存在很大的差异厦门大学社会学系31思考：两个表格所显示信息的差异厦门大学社会学系32交互分析的作用较为深入的描述样本资料的分布状况和内在结构。对变量之间的关系进行分析和解释厦门大学社会学系33交互分类表的形式要求每个表的顶端要有表号和标题线条规范、简洁，最好不用竖线百分比符号的处理：一种在表顶端的右角；另一种在表中每一列数字的上方表的下端用括号标出每一列的频数两个变量的安排：通常是将自变量、或被看作自变量或用来做解释的变量放在上面（列），将因变量、或被看作因变量、或被解释的那个变量放在表的左侧（行）。变量取值不宜太多。如4个自变量，5个因变量就是20个百分比少数点的位数要一致。如67.3和50.0必须要进行假设检验（多选变量的分析可以没有）厦门大学社会学系34三、变量的测量层次与相关测量法变量之间的关系定类变量—定类变量定序变量—定序变量定距变量—定距变量定类变量—定序变量测量法是什么？定类变量—定距变量定序变量—定距变量厦门大学社会学系35（一）两个定类变量：Lambda，tau-y1、Lambda基本逻辑：用一个定类变量的值来预测另一个定类变量的值时，如果以众数作为测量的准则，可以减少多少误差。消减的误差在全部误差中所占的比例越大，就表示两个变量的相关越强厦门大学社会学系36公式：（1）、不对称形式：My=Y变项的众数次数my=X变项的每个值（类别）之下Y变项的众数的次数n=全部个案数n-My=不知道x值的情况下预测Y值产生的误差分子E1-E2=（n-My）-（n-∑my）=∑my-MyyyyymMnM厦门大学社会学系37例1：分析性别与理想志愿之间的关系4030500.4010050yyyymMnM厦门大学社会学系38（2）对称形式：不确定两个变量的影响方向My=Y变项的众数次数Mx=X变项的众数次数mx=Y变项的每个值（类别）之下X变项的众数次数my=X变项的每个值（类别）之下Y变项的众数次数n=全部个案数()2()xyxyxymmMMnMM厦门大学社会学系39例：青年的教育期望与父母的教育期望()2()(28414)(28417)(5450)2*100(5450)0.47xyxyxymmMMnMM厦门大学社会学系40特例：如下表，72.4%的制造业工人和64.3%的服务业人员注重物质报酬，职业类型与价值取向是略有影响的，但是(10545)1500215120yyyymMnM厦门大学社会学系412、tau-y不对称测量法系数值介于0-1之间计算系数时包括了所有的边缘次数和条件次数如果是不对称关系最好选用tau-y计算计算过程：先求出E1和E2，计算消减误差的比例121EEtauyE厦门大学社会学系421()yynFFEn2()xxFffEFn=全部个案数目f=某条件次数Fy=Y变项的某个边缘次数Fx=X变项的某个边缘次数厦门大学社会学系43E1：如果不知道x，则每次预测y变量时的错误机率是（n-Fy）/n，乘以Fy表示y值时的错误总数，y变量有多个值，将各值的错误总数相加起来就是E1；E2：如果知道x变量（如某一性别），则预测y值时的错误机率是（Fx-f）/Fx，乘以f便是预测y值得错误总数。在每个x下y有多个取值，将各个值的预测错误相加起来就是E2。厦门大学社会学系4458450.22458tauy140(10040)50(10050)10(10010)58100100100E210(6010)40(6040)10(6010)30(4030)10(4010)0(400)456040E厦门大学社会学系45前例：2()(145105)*10