2014—2015学年第一学期《定性数据》期末论文题目不同年级与性别对奖助学金渴望度定性数据分析姓名常XX学号20120623104学院数学与统计学院专业统计专业2014年12月18日1不同年级与性别对奖助学金渴望度定性数据分析摘要:定性数据分析是数据分析的一个重要内容,它在实践中有着广泛的应用,如问卷调查、产品检验、医学统计等领域中经常用到列联表的定性数据分析来。列联表的定性数据分析不仅可以分析分类特征之间的相互依赖关系,还可以进行2检验、似然比检验、相合性的度量和检验、计算相关系数作相关分析也可以进行一致性与读了性的检验。本文主要采用2检验、似然比检验、相合性的度量和检验来对不同年级、不同性别的大学生对奖助学金渴望度的独立性、相合性检验,最终得到对奖助学金的渴望度与性别无关、与年级有关。关键词列联表2检验似然比检验相合性度量2一、问题简述为了解高某校不同年级不同性别的大学生对奖助学的渴望程度,对某校大一年级、大二年级共80位同学关于奖助学金的调查,并取其中的年级、性别、渴望度三个指标生成列联表,对列联表做定性数据分析。二、符号说明2:卡方统计量2ln:似然比统计量U:统计量p:概率:相合性度量统计量三、理论方法理论:列联表一般来说,有二维的rc列联表,假设将n个个体根据两个属性A和B进行分类,属性A有r类:1,,rAA,属性B有c类:1,,cBB。n个个体中既属于iA类又属于jB类的有ijn个。得如下二维的rc列联表:表一列属性B合计1B2BcB行属性A1A11n12n1cn1n2A21n22n2cn2nrA1rn2rnrcnrn合计1n2ncnn其中,,iijjnn,1,,;irjiijnn,1,,,ijijjcnnn。如果n个个体根据三个或三个以上的属性分类,就会有三维或三维以上的列联表,对于高维的列联表一般将其压缩为二维列联表在对数据进行统计分析或对高维列联表进行分层在检验。3方法:对二维表中的数据进行2检验、似然比检验、相合性的度量和检验。四、数据的来源与数据处理本数据的来自在2014年6月所做的《关于奖助学金的问卷调查》,本问卷共发放80份,实际回收77份。其中选年级、性别、渴望程度三个指标统计数据得如下的三维224的列联表:(其问卷和原始数据以及选出的三个指标的数据见附录)表二A(非常渴望)B(一般渴望)C(渴望)D(无所谓)合计A(大一年级)A(男)42107B(女)8913030B(大二年级)A(男)333211B(女)1193629合计2623208771、列联表的压缩列联表的压缩即把高维列联表某一属性不同情况的数据合并在一起得到低维列联表德尔过程。将表二中不同年级、不同性别的人数分别合并在一起,将三维224列联表分别压缩为如下的二维列联表。表三A(非常渴望)B(一般渴望)C(渴望)D(无所谓)合计A(男)754218B(女)191816659合计262320877表四A(非常渴望)B(一般渴望)C(渴望)D(无所谓)合计A(大一年级)121114037B(大二年级)14126840合计26232087742、列联表的分层列联表的分层即将高维列联表按某一个属性分成几个低维列联表,把表二按年级将三维列联表分为两个二维列联表。表五A(非常渴望)B(一般渴望)C(渴望)D(无所谓)合计A(大一年级)A(男)42107B(女)8913030合计121114037表六A(非常渴望)B(一般渴望)C(渴望)D(无所谓)合计B(大二年级)A(男)333211B(女)1193629合计14126840五、检验与分析5.1、描述性统计对表二中的渴望度数据作柱形图和饼图,分析各渴望度所占的多少和比率。渴望度柱形图26232080510152025301234渴望度5渴望度26,34%23,30%20,26%8,10%1234在柱形图和饼图中可以看出,在所以调查的学生中对奖助学金非常渴望的人最多,其次是一般渴望,再次是渴望,最后是无所谓,也就是说大学生都比较渴望得到奖助学金的。5.2、压缩列联表的检验与分析1、2检验和似然比检验(1)假设101:jrjrppHpp(属性相互独立)111:jrjrppHpp(属性不独立)(2)检验当两个属性独立时,根据11jrjrpppp可知个体在每一类中的概率ijp由1,,rpp和1,cpp完全确定,所以二维列联表的独立性检验实际上是带参数时的分类数据检验。其统计量是自由度为11rc的2统计量(2211ijijijnnnn),在水平下2检验的拒绝域为22211ijijijnnnn也就是说,此时可认为独立性不成立,否则,可认为独立性成立。二维列联表的独立性检验的似然比检验的统计量为:112ln2ln()rcijijijijnnnnn。也可以计算p来完成检验,p值等于自由度为11rc的2变量大于等于2统计量的值的概率,如果p值则拒绝原假设,如果p值,则不拒绝原假设。对压缩后的列联即表三(性别与渴望度)用SPSS进行26检验得2值和p值如下:卡方检验.356a3.949.3553.949.1291.72077Pearson卡方似然比线性和线性组合有效案例中的N值df渐进Sig.(双侧)2单元格(25.0%)的期望计数少于5。最小期望计数为1.87。a.性别与渴望度的卡方检验表由上表可知20.356,0.9490.05p且2ln0.355,0.9490.05p所以不拒绝原假设,独立性成立即性别与渴望度是相后独立,也就是说性别与奖助学渴望度无关。对表四(年级与渴望度)用SPSS进行2检验得2值和p值如下:卡方检验11.298a3.01014.4623.002.4061.52477Pearson卡方似然比线性和线性组合有效案例中的N值df渐进Sig.(双侧)2单元格(25.0%)的期望计数少于5。最小期望计数为3.84。a.年级与渴望度的卡方检验表由上表可知211.298,0.010.05p且2ln14.462,0.0020.05p,所以拒绝原假设,独立性不成立即年级与渴望度是相关的,也就是说年级与奖助学渴望度有关。2.相合性的度量和检验由于2检验和似然比检验得年级与渴望度是相关的,所以对年级和渴望度进行相合性度量和检验,属性之间的相合关系有正相合(属性A比较大的个体,属性B也往往比较大)、负相合(属性A比较大的个体,属性B却往往比较小)。度量列联表相合性的方法有Kendall系数、Gamma系数和Somersd系数。主要用Kendall系数来度量年级与渴望度的相合性,其统计量为:[(1)/2T][(1)/2ABznnnnT其中711(1)(1),22rcjjiiABijnnnnTT,|z|[(1)/2][(1)/2]ABnnTnnT,而的值在-1和1之间,其值接近1,倾向于认为正相合;值接近于-1,倾向于认为负相合。相合性的检验是原假设为属性A和属性B相互独立,备择属性A与属性B正相合的检验,其统计量为:1122122112121nnnnnUnnnn和22112212211212(1)(n)nnnnnnnn,在对称度量表中可以看出相合性检验并不显著,也就是说年级与渴望度不是正相合关系。用SPSS对年级和渴望度检验得下表。对称度量.383.010.383.010.358.010.034.106.319.750.040.127.319.750.055.171.319.750.037.115.318.752c.073.110.634.528c.d77φCramer的V相依系数按标量标定Kendall'stau-bKendall'stau-cγSpearman相关性按顺序Pearson的R按区间Kappa一致性度量有效案例中的N值渐进标准误差a近似值Tb近似值Sig.不假定零假设。a.使用渐进标准误差假定零假设。b.基于正态近似值。c.无法计算Kappa统计量。它们需要一个第一个变量值与第二个变量值相匹配的对称双向表。d.因为经检验得0.040但远远小于1,且接近于0,而0.750.05p也就是说要拒绝原假设,所以可以认为年级与奖助学金的渴望程度相合性的检验不通过。5.3、分层列联表的检验与分析用SPSS分别对分层列联表(表五、表六)进行2检验和似然比检验得:8卡方检验值df渐进Sig.(双侧)Pearson卡方2.895(a)2.235似然比2.9812.225线性和线性组合2.7961.094McNemar-Bowker检验...(b)有效案例中的N37a3单元格(50.0%)的期望计数少于5。最小期望计数为2.08。b仅对PxP表计算,其中P必须大于1。大一年级性别与渴望度的卡方检验表从表中可以看出22.895,0.2350.05p且2ln2.981,0.2250.05p即大一年级的男女对奖助学金的渴望度是独立的,也就是说性别与渴望度无关。卡方检验值df渐进Sig.(双侧)Pearson卡方1.845(a)3.605似然比1.6943.638线性和线性组合.3141.575McNemar-Bowker检验...(b)有效案例中的N40a5单元格(62.5%)的期望计数少于5。最小期望计数为1.65。b仅对PxP表计算,其中P必须大于1。大二年级性别与渴望度卡方检验表从表中可以看出21.845,0.6050.05p且2ln1.694,0.6380.05p即大二年级的男女对奖助学金的渴望度是独立的,也就是说性别与渴望度无关。这与表三(性别与渴望度)的2检验和似然比检验的结果一致。9六、结论经过分别对压缩列联表和分层列联表的2检验、似然比检验及相合性的度量和检验可以认为不同年级的大学生与奖助学金的渴望度有关系,而不同性别的大学生与奖助学金的渴望度是有关系。10参考文献[1]王静龙,梁小筠.定性数据统计分析.北京:中国统计出版社,2008.711附页(数据)序号1234567年级AAAAAAA性别AABBBAB渴望程度BBCBCAB序号891011121314年级AAAAAAA性别BBBBBBB渴望程度CCCBAAB序号15161718192021年级AAAAAAA性别ABBBBBB渴望程度ACBBBAB序号22232425262728年级AAAAAAA性别BBABABB渴望程度CAACAAA序号29303132333435年级AAAAAAA性别BBBBBA渴望程度CBAACCA序号36373839404142年级AAABBBB性别BBBBBBB渴望程度CCCAABA序号43444546474849年级BBBBBBB性别BBBBBAB渴望程度ABBAACC序号50515253545556年级BBBBBBB性别BBBBBBB渴望程度CBBCAAA序号57585960616263年级BBBBBBB性别BAAAABB渴望程度ABCADDB序号64656667686970年级BBBBBBB性别AABBAAB渴望程度CADABDD12序号71727374757677年级BBBBBBB性别AABBBBB渴望程度BABDBDD13附页(问卷)关于奖助学金的问卷调查一.调查目的:深入了解我院来自不同年级,不同环境,不同性别的大学生对奖助学金的使用情况。二.调查方式:共发放80份,分两组发放,每组发40份。三.问卷设计:1.你所在的年级:___A.大一B.大二2.你的性别:___A.男B.女3.你来自:___A.农村B.乡镇C.县城D.城市4.你的主要经济来源?___A.勤工俭学B.助学金C.信用借贷D.家庭补助5.你在学期间一个月的伙食费?___A.300元以下B.300到400C.400到500D.500元以上6.你对奖助学金的