知识点1分类变量与列联表分类变量变量的不同“值”表示个体所属的不同类别的变量称为分类变量.例如性别变量的取值有“男”和“女”两种,这里变量是指“性别”,这里的“值”指的是“男”或“女”,从而可知当性别变量取“男”或“女”时表示个体属于不同的类别.在现实生活中分类变量大量存在,如是否及烟、宗教信仰、国籍等等.讲重点对分类变量的理解1.有时也可以把分类变量的不同取值用数来表示,但这时的数除了分类以外没有其他的含义.如用“0”表示“男”,“1”表示“女”,性别变量就变成取值0和1的随机变量,除此之外,这些数并没有其他的含义.2.注意区分分类变量与定量变量的不同.如身高、体重、考试成绩等就是定量变量,他们的取值一定是实数,并且取值大小有特定的含义,不同取值之间的运算也有特定的含义.如小张的身高是180cm,小李的身高是175cm,说明小张比小李高180-175=5(cm).3.列联表列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别是{x1,x2}和{y2,y2},则两变量的列联表为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d知识点2两个分类变量关系的直观分析1.利用列联表在两个分类变量X(取值为{x1,x2})和Y(取值为{y1,y2})的列联表中,假设两个分类变量X和Y没有关系,即变量X取不同值时对变量Y不产生影响,则在满足X=x1的全部个体中满足Y=y1的个体的比例为aa+b,满足X=x2的全部个体中满足Y=y1的个体的比例为cc+d,由于假设X对Y没有影响,则aa+b≈cc+d.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d由aa+b≈cc+d,得ad≈bc,则知ad-bc≈0.因此,|ad-bc|越小,两个分类变量之间的关系就越弱;|ad-bc|越大,则两个分类变量之间的关系越强.讲重点如何判定两个分类变量关系的强弱判定两个分类变量关系的强弱,主要看一个分类变量对另一个分类变量的影响程度.类似于反证法,先假设两个分类变量之间没有影响;反之发现何时两个分类变量关系较强,在列联表中主要依靠|ad-bc|的大小来判定.当|ad-bc|≈0时,变量X与Y之间几乎没有影响,关系较弱.2.利用等高条形图等高条形图是把列联表中的数据直观化、比例化.在等高条形图中各个条形的高度表示样本的频率.若两个分类变量没有关系,则条形图中各颜色的高度大致相等,如图(1);若两个分类变量有关系,则条形图中各颜色的高度相差较大,如图(2).在等高条形图中主要观察两个条形中同一颜色的高度来判断两个分类变量的关系.高度相等或相差不大,则两个分类变量关系较弱,高度相差较大时,两个分类变量的关系较强.知识点3独立性检验1.独立性检验随机变量为了使不同样本容量的数据有统一的评判标准,我们构造了一个随机变量K2,其计算公式为K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.独立性检验的思想独立性检验的思想:要确定“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2观测值k很大,那么在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过可信度表评价该假设不合理的程度,即“两个分类变量有关系”的可信程度.讲重点独立性检验与反证法的对比独立性检验类似于反证法,可通过对比两者之间的联系,加深对独立性检验思想的认识,总结如下:反证法原理独立性检验原理假设结论A不成立首先假设H0:变量无关在A不成立的前提下进行推理在H0成立的条件下进行推理如果推出矛盾,意味着结论A成立如果推出:H0成立的小概率事件(概率不超过α的事件)发生,意味着两变量无关的可能性很小如果没有找到矛盾,不能对A下任何结论,即假设不成立如果推出:H0成立的小概率事件不发生,接受原假设类型一列联表和等高条形图的应用【例1】某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.解析:根据题目所给数据得如下2×2列联表:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500∴ad-bc=982×17-8×493=12750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高条形图如图所示.图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.[名师点评](1)利用列联表直接计算ad-bc,如果两者相差很大,就判断两个分类变量之间有关系.(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论.这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.变式训练1为了了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下表.组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素为阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?解析:等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性数差异明显,因此铅中毒病人与尿棕色素为阳性有关系.类型二独立性检验与应用【例2】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?附:P(K2≥k)0.0500.0100.001k3.8416.63510.828K2=nad-bc2a+bc+da+cb+d解析:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K2的观测值k=500×40×270-30×1602200×300×70×430≈9.967.由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关.[名师点评]解决一般的独立性检验问题的步骤变式训练2在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动,男性中有21人主要的休闲方式是看电视,另外33人的主要休闲方式是运动.(1)根据以上数据建立一个2×2的列联表.(2)判断性别与休闲方式是否有关系.解析:(1)2×2的列联表为:休闲方式性别看电视运动总计女432770男213354总计6460124(2)假设“休闲方式与性别无关”,计算得k=124×43×33-27×21270×54×64×60≈6.201.因为k≥5.024,P(K2≥5.024)=0.025,所以有理由认为假设“休闲方式与性别无关”是不合理的,即在犯错误的概率不超过0.025的前提下认为“休闲方式与性别有关”.1.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:在四幅图中,D图中两个阴影条的高度相差最明显,说明两个分类变量之间的关系最强.答案:D2.在独立性检验中,随机变量K2有两个临界值:3.841和6.635;当K2>3.841时,有95%的把握说明两个事件有关,当K2>6.635时,有99%的把握说明两个事件有关,当K2≤3.841时,认为两个事件无关,在一项打鼾与患心脏病的调查中,共调查了2000人,经计算得k=20.87,根据这一数据分析()A.在犯错误的概率不超过0.05的前提下,认为打鼾与患心脏病有关B.约有95%的打鼾者患心脏病C.在犯错误的概率不超过0.01的前提下,认为打鼾与患心脏病有关D.约有99%的打鼾者患心脏病解析:因为k=20.87>6.635.根据P(K2>6.635)=0.01可知,应在犯错误的概率不超过0.01的前提下认为打鼾与患心脏病之间有关.答案:C3.为了研究患慢性气管炎与吸烟量的关系,调查了228人,其中每天的吸烟支数在10支以上20支以下的调查者中,患者人数有98人,非患者人数有89人,每天的吸烟支数在20支以上的调查者中,患者人数有25人,非患者人数有16人.(1)根据以上数据建立一个2×2的列联表.(2)试问患慢性气管炎是否与吸烟量有关?参考数据:P(K2≥k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2≥k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828解析:(1)根据已知数据建立2×2的列联表如下:患者非患者总计10支以上20支以下988918720支以上251641总计123105228(2)假设“患慢性气管炎与吸烟量无关”,则k=nad-bc2a+bc+da+cb+d=228×98×16-89×252187×41×123×105≈0.994.电子0.994<2.706,所以不能说明患慢性气管炎与吸烟有关.