统计学 相关分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020/1/181第二章相关分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析2020/1/182社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。2020/1/183第一节变量之间的相互关系1.相关程度完全相关,指变量之间为函数关系;完全不相关指变量之间不存在任何依存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。由于数学手段上的局限性,统计学探讨的最多的是定距—定距变量间能近似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0r1时,表现为不完全相关。2020/1/1842.相关方向:正相关和负相关所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。2020/1/1853.因果关系与对称关系因果关系中两个变量有自变量(independentVariable)和因变量(dependentVariable)之分:(1)两个变量有共变关系;(2)因变量的变化是由自变量的变化引起的;(3)两个变量的产生和变化有明确的时间顺序,前者称为自变量,后者称为因变量。表现为对称关系的相关关系,互为根据,不能区分自变量和因变量,或者说自变量和因变量可以根据研究目的任意选定,例如身高和体重之间的关系。2020/1/1864.单相关和复相关从变量的多少上看,单相关只涉及两个变量,亦称二元相关;三个或三个以上变量之间的关系称为复相关,亦称多元相关。五、直线相关和曲线相关从变量变化的形式上看,如果关系近似地表现为一条直线,称为直线相关或线性相关;如果关系近似地表现为一条曲线,则称为曲线相关或称为非线性相关。由于数学手段的局限性,我们以学习线性相关为主。在统计学中,通过分段处理线性相关也可以用于处理曲线相关。2020/1/187第二节定类变量的相关分析本节内容:1、列联表2、削减误差比例3、λ系数4、τ系数2020/1/1881.列联表列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。例如,某区调查了357名选民,考察受教育程度与投票行为之间的关系,将所得资料作成下表,便是一种关于频数的列联表。2020/1/1892×2频数分布列联表的一般形式习惯上把因变量Y放在表侧,把自变量X放在表头。2×2列联表是最简单的交互分类表。r×c列联表r(row)、c(column)2020/1/1810r×c频数分布列联表的一般形式2020/1/1811自己志愿知心朋友志愿总数快乐家庭理想工作增广见闻快乐家庭289340理想工作241750增广见闻24410总数3254141002020/1/1812两个边际分布:2020/1/1813条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。2020/1/1814r×c相对频数分布列联表的一般形式2020/1/1815在相对频数分布列联表中,各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法:①相对频数联合分布两个边际分布或②相对频数条件分布或2020/1/1816r×c相对频数联合分布列联表2020/1/1817控制X,Y相对频数条件分布列联表2020/1/1818控制Y,X相对频数条件分布列联表2020/1/1819[例A1]试把下表所示的频数分布列联表,转化为自变量受到控制的相对频数条件分布列联表,并加以相关分析。投票行为Y受教育程度X大学以上大学以下投票弃权16071296128968合计:1671903572020/1/1820从上表可知,受过大学以上教育的被调查者绝大多数(占95.8%)是投票的,受教育程度在大学以下的被调查者虽多数也参与投票(占67.9%),但后者参与投票的百分比远小于前者;前者只有4.2%弃权,而后者则有32.1%弃权。两相比较可知,受教育程度不同,参与投票的行为不同,因此两个变量是相关的。投票行为Y受教育程度X大学以上大学以下投票弃权95.8%(160/167)4.2%(7/167)67.9%(129/190)32.1%(61/190)81.0%(289/357)19.0%(68/357)100.0%(167))100.0%(190)100.0%(357)2020/1/1821[例A2]试把下表所示的频数分布列联表,转化为相对频数条件分布列联表和自变量受到控制的相对频数条件分布列联表,并加以相关分析。投票行为Y受教育程度X大学以上大学以下投票弃权1006711476214143合计:1671903572020/1/1822上表显示,大学以上文化程度和大学以下文化程度同样各有60%的人参与投票,40%的人弃权,并没有因为受教育程度不同,而使参与投票的行为有所不同。因此,此时的两个变量是不相关的,或者说是独立的。我们不难发现,此时反映全体投票情况的相对频数的边际分布()也各有60%的人参与投票,40%的人弃权。投票行为Y受教育程度X大学以上大学以下投票弃权60.0%(100/167)40.0%(67/167)60.0%(114/190)40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167))100.0%(190)100.0%(357)2020/1/1823上表显示,当两个变量不相关时有。如0.532×0.40=0.213。投票行为Y受教育程度X大学以上大学以下投票弃权28.0%(100/357)18.8%(67/357)31.9%(114/357)21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)2020/1/1824[例B]某社区调查了120名市民,考察性别与对吸烟态度之间的关系,试将所得资料作成相对频数的联合分布、边际分布和条件分布列联表,并进行相关分析。性别与对吸烟的态度态度Y性别X合计男女容忍48856反对204464合计68521202020/1/1825相对频数联合分布列联表态度Y性别X男(X1)女(X2)容忍Y140.0%6.7%46.7%反对Y216.7%36.6%53.3%56.7%43.3%100%(120)2020/1/1826相对频数条件分布列联表态度Y性别X男()女()容忍70.6%15.4%46.7%(56)反对29.4%84.6%53.3%(64)100%(68)100%(52)100%(120)2020/1/18272675名双亲和他们10071个子女的智力的关系(%)(相对频数条件分布列联表)父母智力组合子女智力优秀子女智力一般子女智力低下优+优71.625.43.0优+劣33.642.723.7一般+一般18.666.914.5劣+劣5.434.460.22020/1/1828通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。如果对不同的X,Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。后者用数学式表示就是或者2020/1/18292.削减误差比例PRE(ProportionateReductioninError)通过相对频数条件分布列联表的讨论,可以就自变量X和因变量Y的关联性给出一个初步的判断。但是对关联性给出判断,肯定没有用量化指标表达来得好。所以,下面我们将关注于如何用统计方法,使相关关系的强弱可以通过某些简单的系数明确地表达出来。在社会统计中,表达相关关系的强弱,削减误差比例的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时,盲目性必然较关系不密切者为小。2020/1/1830PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量PRE的取值范围是0≤PRE≤l削减误差比例PRE适用于各测量层次的变量,λ系数和τ系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。2020/1/1831PRE=(56-28)/56=0.5态度Y性别X合计男女容忍48856反对204464合计68521202020/1/18323.λ系数在定类尺度上测量集中趋势只能用众数。λ系数就是利用此性质来构造相关系数的。(1)不对称的λ系数2020/1/1833[例]对下表所示资料,用λ系数反映性别与收入高低的相关关系。收入Y性别X合计男女低60150210高12070190合计1802204002020/1/18342020/1/1835(2)对称的λ系数2020/1/1836[例]研究工作类别与工作价值的关系,工作类别可分为三类:工人、技术人员、管理/行政人员;工作价值也可分为三类:以收入/福利为最重要的职业选择标准的称为经济取向型,以工作的创造性、挑战性为最重要的职业选择标准的称为成就取向型,以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型。对下表所示资料,用λ系数反映工作类别与工作价值的相关关系。2020/1/1837职工的工作种类与工作价值工作价值Y工作种类X合计工人技术人员管理/行政人员经济取向型成就取向型人际关系取向型100302070601050204022011070合计:FX1501401104002020/1/18382020/1/1839性质:(1)0≤λ≤1(2)具有PRE意义。(3)对称与不对称情况下,有不同的公式。(4)以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。(5)如果众数频数集中在条件频数分布列联表的同一行时,λ=0,从而无法显示两变量之间的相关性。2020/1/18404.τ系数τ系数的统计值域是[0,1],其特点是在计算时考虑所有的边际频数和条件频数。注意:当众数很突出且众数分布不在同一行,同一列时,用λ系数较好;但当众数不突出时,用τ系数更好;若众数集中在某一行或某一列,一定用τ系数。2020/1/1841[例]对下表所示资料,用τ系数反映性别与收入高低的相关关系,并对系数的PRE意义加以解释。收入Y性别X合计男女低60150210高12070190合计1802204002020/1/18422020/1/1843练习:调查100名青年人与其知心朋友的志愿,条件次数分布如下:计算知心朋友的志愿与自己志愿之间的相关关系,并提出研究结论。自己志愿知心朋友志愿总数快乐家庭理想工作增广见闻快乐家庭289340理想工作

1 / 92
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功