定性数据分析实验2020/1/22案例•据记载,1912年4月15日,泰坦尼克号船上有1316名乘客和892名船员共2208人。事故发生后幸存718人,约2/3的人在海难中丧生。2208人中,按性别划分,男性1738人,女性470人;按年龄划分,成人2099人,儿童109人;按所在舱位划分,一等舱325人,二等舱285人,三等舱706人,船员舱892人。在幸存的718人中,按性别划分,男性374人,女性344人;按年龄划分,成人661人,儿童57人;按所在舱位划分,一等舱203人,二等舱118人,三等舱178人,船员舱219人。2020/1/23•以上都是分类数据。数据是枯燥的,但讲述的问题却是鲜活的。–死亡与性别、年龄、所在仓位是否有关?–如何解释这些关系,与当时人们的价值观念和对待死亡的态度又有什么联系?2020/1/24定性数据分析(内容)•探索性分析,目的是描述样本特征–列联表分析–关联性分析•推断分析,目的是对总体的认识–多项分布检验–列联表分析•独立性检验•一致性检验•拟合优度检验–关联性检验•建模分析,目的是解释总体中变量之间变化的一般规律2020/1/25定性数据分析(方法)•描述性方法•参数检验方法•非参数检验方法•模型分析方法2020/1/26定性数据的探索性分析2020/1/27例子•问卷调查中常常设计对某问题两个或多个不同的特征的分类。例如房地产商考虑顾客选择房子设计的类型与职业的关系,所调查的每个顾客都有两个特性,一个是选择的房子类型,另一个是职业;广告公司为了调查城市和乡村的观众对电视广告的关注情况,每位被调查者都有两个特性,一个是来自城市还是乡村,另一个是对广告的态度。•在这些例子中我们通常关心的是按照两个特性进行的分类的方法之间是否相互依赖,或者说是否相互独立。如房地产商关心的是顾客选择房子的类型是否与职业无关,或者说选择何种房子与职业独立。在观众对电视广告的关注情况的调查中,感兴趣的是每个观众对电视广告的关注情况是否与他来自城市还是农村独立。•本单元的教学目的是提高定性数据的分析水平。2020/1/28一、列联表及其结构•由两个以上的变量交叉分类形成的频数分布表•行变量放表的主词栏,列变量放表的宾词栏•行变量的类别用r表示,ri表示第i个类别•列变量的类别用c表示,cj表示第j个类别•每种组合的观察频数用fij表示•表中列出了行变量和列变量的所有可能的组合,所以称为列联表•一个r行c列的列联表称为rc列联表2020/1/29列联表实例一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表2020/1/210列联表的结构(22列联表)列(cj)合计j=1j=2i=1f11f12f11+f12i=2f21f22f21+f22合计f11+f21f12+f22n列(cj)行(ri)2020/1/211列联表的结构(rc列联表的一般表示)列(cj)合计j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合计c1c2…n列(cj)行(ri)fij表示第i行第j列的观察频数2020/1/2122020/1/213二、列联表的分布•观测值分布•观察值的期望值分布2020/1/214观察值的分布1.边缘分布–行边缘分布•行观察值的合计数的分布•例如,赞成改革方案的共有279人,反对改革方案的141人–列边缘分布•列观察值的合计数的分布•例如,四个分公司接受调查的人数分别为100人,120人,90人,110人2.条件分布与条件频数–变量X条件下变量Y的分布,或在变量Y条件下变量X的分布–每个具体的观察值称为条件频数2020/1/215观察值的分布(图示)一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420行边缘分布列边缘分布条件频数2020/1/216百分比分布(概念要点)1.条件频数反映了数据的分布,但不适合对比2.为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布(概率分布)–行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)–列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)–总百分比:每一个观察值除以观察值的总个数(fij/n)2020/1/217一分公司二分公司三分公司四分公司合计赞成该方案(人)68755779279row%68/279=24.426.920.428.3279/420=66.4col%68/100=68.062.563.371.8total%68/420=16.217.813.618.8反对该方案(人)32453331141row%22.731.923.422.033.6col%32.037.536.728.2total%7.610.77.97.4合计10012090110420%100/420=23.828.621.426.21002020/1/218百分比分布(图示)一分公司二分公司三分公司四分公司合计赞成该方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反对该方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合计23.8%28.6%21.4%26.2%100%总百分比列百分比行百分比2020/1/2192020/1/2202020/1/221观察值的期望值分布ncrncnrnejijiij1.假定行变量和列变量是独立的2.一个实际频数fij的期望频数eij,是总频数的个数n乘以该实际频数fij落入第i行和第j列的概率,即2020/1/222由于观察频数的总数为n,所以f11的期望频数e11应为6643.66420100279111111ncrncnrnencnr11例如,第1行和第1列的实际频数为f11,它落在第1行的概率估计值为该行的频数之和r1除以总频数的个数n,即:r1/n;它落在第1列的概率的估计值为该列的频数之和c1除以总频数的个数n,即:c1/n。根据概率的乘法公式,该频数落在第1行和第1列的概率应为一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32753331141合计100120901104202020/1/223•期望值的分布一分公司二分公司三分公司四分公司赞成该方案期望值0.664*100=660.664*120=800.664*90=600.664*110=73反对该方案期望值0.336*100=340.336*120=400.336*90=300.336*110=372020/1/224•观测值与期望值频数对比分布表一分公司二分公司三分公司四分公司赞成该方案观测值68755779期望值66806073反对该方案观测值32453331期望值344030372020/1/225三、卡方统计量•单变量情形下,卡方统计量表达式•卡方统计量的特征–值大于0–密度函数与自由度有关–与横轴围成的面积等于1221kiiiinEnEn2020/1/226统计量(例题分析)实际频数(fij)期望频数(eij)fij-eij(fij-eij)2(fij-eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:3.03190319.3)(22eef2020/1/227三、卡方统计量的分布(K.P定理)•单变量情形•设总体中的每一个个体属于且只属于A1,A2,A3,•••,AK,k各类之一。总体中属于k各类的比重分别为p1,p2,p3,•••,pk。现从总体中随机抽查n个,其中属于Ai类有ni个(i=1,2,…,k)。定义统计量则当n充分大时,该统计量服从自由度为k-1的卡方分布。221kiiiinEnEn2020/1/228•多变量情形(列联表)则当n充分大时,该统计量近似服从自由度为(R-1)(C-1)的卡方分布。•列联表的自由度:(R-1)(C-1)2211RCijijijijnEnEn2020/1/229关联性的探索性分析(1)•X与Y均为定类变量–相关系数–列联相关系数C–Cramer的V系数–Lambda相关系数(Gutman预测系数)–Tau-Y系数2020/1/2302X2列联表因素Y因素X行合计x1x2y1aba+by2cdc+d列合计a+cb+dn2020/1/231相关系数•专用于2X2列联表定类数据相关程度的测量•计算公式•取值范围:•局限–在RXC列联表上,相关系数值无上限,因为它的值随R或C的变大而增大2adbcnabcdacbd12020/1/232相关系数(原理分析)列联表中每个单元格的期望频数分别为ndcdbendbbaendccaencabae))(())(())(())((22122111将各期望频数代入的计算公式得))()()(()()()()()(2222222122112212112112dbcadcbabcadneedeeceebeea2020/1/233将入相关系数的计算公式得))()()((2dbcadcbabcadnad等于bc,=0,表明变量X与Y之间独立若b=0,c=0,或a=0,d=0,意味着各观察频数全部落在对角线上,此时||=1,表明变量X与Y之间完全相关列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可2020/1/234例1•在某校随机抽取200名大学生,其中,男生150人,女生50人,调查他们对实行一年三学期这一新学制的态度,调查结果整理为如下2×2交互列表,要求计算Ф相关系数性别态度男生女生行合计赞成12015135反对303565列合计150502002020/1/235•解:将上表中的数据代入系数的计算公式中得•结果表明,学生的性别与学生对实行新学制的态度之间存在着较弱的相关关系。1203530150.46(12015)(3035)(12030)(1535)2020/1/236列联相关系数CnC221.用于测度大于22列联表中数据的相关程度2.计算公式为C的取值范围是0C1C=0表明列联表中的两个变量独立C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大根据不同行和列的列联表计算的列联系数不便于比较2020/1/237例2•下表显示了两个地区400个受访者对互联网的使用情况,请分析互联网的使用情况是否和这两个地区有关系。城市使用情况北京上海行合计从来不用45(19%)18(11%)63(16%)偶尔使用72(38%)49(31%)121(30%)经常使用90(30%)58(36%)148(37%)天天使用33(14%)35(22%)68(17%)列合计240(100%)160(100%)400(100%)相对频率0.60.41.002020/1/238观测值期望[E(nij)]城市使用情况北京(60%)上海(40%)合计从来不用37.825.263偶尔使用72.648.4121经常使用88.85