相关分析任课老师:禤宇明本节要点1.相关和相关系数的概念2.各种相关系数的计算(适用条件、计算方法)2.1积差相关2.2等级相关2.2.1斯皮尔曼相关2.2.2肯德尔和谐系数2.3质量相关2.3.1点二列相关2.3.2二列相关思考题什么情况下我们对两个变量之间的关系感兴趣?1.什么是相关事物之间的关系–因果关系、共变关系和相关关系–因果:A→B–共变:C→A,C→B相关的概念指变量之间的关系或联系程度,指两类现象在发展变化的方向和大小方面存在一定的关系–不能确定是否为因果关系,也可以否认不存在共变关系–它表达的是一种不精确、不稳定的变化关系–相关关系分为三种情况:正相关、负相关、零相关相关系数相关系数:两列变量间相关程度的数量化指标–总体样本r–|r|≤1几个概念–完全相关:-1.00或1.00–不完全相关:0|r|1–不相关:r≈0–正相关:两个变量的变化方向一致,0r≤1–负相关:两个变量的变化方向相反,-1≤r0计算相关系数时应注意的问题相关系数受样本容量n的影响–如果n很小,可能完全没有相关的两事物,却计算出较大的相关系数。–一般以N大于30为宜相关系数不是等距数据也不是比例数据计算相关系数要求成对数据没有线性相关,不一定没有关系,可能是非线性的2.1积差相关也称积矩相关、皮尔逊相关适用条件–两列变量为正态等距或等比,且具有线性关系。积差相关系数22222211iiiiiiiiYXiiiiXYYYnXXnYXYXnnxySSnxyYYXXYYXXr=为协方差其中P59例2-13xiyixyx*xy*yx*yxi*xiyi*yixi*yi7482-1.6-1.72.562.892.725476672460687175-4.6-8.721.1675.6940.0250415625532580814.4-2.719.367.29-11.8864006561648085899.45.388.3628.0949.8272257921756576820.4-1.70.162.89-0.6857766724623277891.45.31.9628.097.4259297921685377881.44.31.9618.496.025929774467766884-7.60.357.760.09-2.284624705657127480-1.6-3.72.5613.695.925476640059207487-1.63.32.5610.89-5.28547675696438Summation7568370-0198.40188.1091.80573527024563369Mean75.683.7SD4.704.57rXY0.482.2等级相关斯皮尔曼等级相关肯德尔和谐系数2.2.1斯皮尔曼等级相关适用条件–两列变量是等距或比例变量,但不是正态分布–两列顺序变量斯皮尔曼等级相关系数为对偶数据个数变量的等级为变量的等级,为为对偶等级之差nYRXRRRDnnnRRnnnDrYXYXYXR11413)1(6122P61例2-14家庭儿童得分母亲得分RxRyD=Rx-RyD*DRxRy172798624482406233009352536241612487899900815398127-525146959010100010071210110018648278-115694978550025104670440016Summation5555046362rR0.72为相同等级数为对偶等级差数为对偶数据个数;==其中tDnttnnyttnnxyxDyxrRc121121121121222222222222P63例2-15学生xiyiRxRyDD*D180701.55.5-416270755.532.56.25370705.55.500480751.53-1.52.255656089.5-1.52.25670755.532.56.257758031248606597.51.52.25970655.57.5-24105560109.50.50.25Summation555543.572.0797725.4379777912122121221213312122121101077121441212212110102222222222Rryx2.2.2肯德尔和谐系数(肯德尔W系数)多列等级变量被评价对象的数目—评价者的数目—其中nKnRRnRRRRSSnnKSSWiiiiiRRii222232121P65例2-16一二三四五S评分者135241评分者235241评分者334152评分者435142评分者535241评分者635241Ri18291025890Ri*Ri32484110062564195493.0556121590195412132232nnKSSWiR肯德尔W系数的校正当出现相同等级时(P65例2-17)12121332ttccKnnKSSWiR其中:教师A教师B教师C教师D教师E教师FS评分者1412.562.55评分者2512535评分者33.51.51.553.56评分者4522426评分者5412536Ri21.56.510251428105Ri*Ri462.2542.251006251967842209.591.05.5566512161055.22091215.512332122231232232333cKnnKSSWttciR2.3质量相关P66一列变量为正态的等距或比例数据,另一列变量为类别变量,求两列变量的直线相关,称为质量相关。–点二列相关–二列相关–多系列相关2.3.1点二列相关point-biserialcorrelation适用条件–两列变量中一列为等距或等比的测量数据而且总体分布为正态,另一列变量为二分的类别变量。应用–点二列相关多用于编制是非测验题评价测验内部一致性等问题。–注:每个题目(二分类别变量)与总分(数值)变量的相关,称为每个题目的区分度。相关高说明该题答对答错与总分的一致性高,即区分度高。点二列相关系数的标准差为全部等距或比例变量均值对应的那部分数据的平为等距或比例变量中与均值对应的那部分数据的平为等距或比例变量中与另一值的比例,为二分类型变量中取一值的比例为二分类型变量中取某其中:XqpXqppbSqXpXpqppqSXXr1P67例2-18354.04.06.012.625.6267.6625.6267.6612.64.010/46.010/610pqSXXrXXSqpnXqppbqpX考生选择题得分卷面总分A175B157C173D165E067F056G163H061I065J1672.3.2二列相关biserialcorrelation适用条件–两列变量都为正态等距(比例)变量,但其中一列变量被人为地划分成两类。应用–教育和心理测量中问答题的区分度指标二列相关与点二列相关的主要区别在于二分变量是否正态。二列相关系数表)轴高度(可查正态分布时的为标准正态曲线的标准差为全部等距或比例变量均值对应的那部分数据的平为等距或比例变量中与均值对应的那部分数据的平为等距或比例变量中与另一值的比例,为二分类型变量中取一值的比例为二分类型变量中取某其中:YpPYSqXpXpqpYpqSXXrXqpXqpb1P68例2-19考生问答题得分卷面总分A775B657C773D465E767F456G463H461I765J66762.03866.04.06.012.625.6133.6725.6133.6712.64.010/46.010/610YpqSXXrXXSqpnXqppbqpX