独立性检验的基本思想及其基本应用1在现实生活中,会遇到各种各样的变量,并需要研究他们之间的关系。观察下面的两种变量,分析他们取不同”值”时表示的个体有何差异?I.国籍、宗教信仰、性别、出生的月份、一个人是否吸烟;II.成绩、身高、年龄、某班同学学生的百米成绩;变量的不同值表示个体所属的不同类别的变量为分类变量。分类变量一定是离散型变量。(所有的取值可以一一列出)。不同的取值仅表示个体所属的类别。如性别变量,只取男、女两个值;商品的等级变量只取一级、二级、三级等等。分类变量的取值有时也用数字来表示但这时的数字除了分类以外没有其他的含义。如用0表示男,用1表示女。定量变量:变量的取值表示特定个体的特定的含义,不同取值之间的运算也有特定的含义。一个红铃虫的产卵数和温度,就是两个定量变量。王明的身高是180cm,李铁的身高是175cm。说明张明比李立高(180-175)cm定量变量的数字特征如均值和方差都有实际的意义。分类变量则不同,性别变量的两个不同值之间的大小没有意义,性别变量的均值和方差也没有意义。归纳:通常实际生活中我们总要研究变量之间的关系,来对我们的决策服务。当前经济形势是否会影响房价;随着时间的推移,中国的人口数量会是一个怎样的增长趋势,人口结构会有怎样的变化;化学反应速率到底和温度是否有关。复习:如何分析两个定量变量是否存在线性相关关系。在我们的日常生活中存在着大量的分类变量,判断两个分类变量是否有关系也是我们需要解决的重要问题。种族肤色的差异到底影响不影响人的智商;近视眼和遗传有没有关系;研发的某新药是否疗效独特;血型和一个人的性格有没有关系;星座的不同和一个人最近的运势是否有关系。5月31日是世界无烟日。有关医学研究表明,许多疾病,例如:心脏病,癌症,脑血管病,慢性阻塞性肺病都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。这些疾病与吸烟有关的结论是怎样得出的呢?我们来看下面的问题。某医疗机构为了了解呼吸道疾病与吸烟是否有关,经行了一次抽样调查。共调查了515个成年人,其中吸烟者220人,不吸烟者295人。调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病。根据这些数据能否断定“患呼吸道疾病与吸烟有关”?患病未患病总计吸烟37183220不吸烟21274295总计58457515估计吸烟者与不吸烟者患病的可能性差异?由上述结论能否得出患病与吸烟有关?把握有多大?吸烟的人中,的人患病;在不吸烟的人中的人患病。由以上可以看出,吸烟者中患病的比例与不吸烟者中患病的比例相比。故“患呼吸道疾病与吸烟可能有关”。类似于上面的表格,我们称为分类变量的汇总统计表(频数表)为列联表,一般我们只研究每个分类变量只取两个值,这样的列联表我们称为2×2列联表。16.82%7.12%有很大的差异等高条形图37211832740%10%20%30%40%50%60%70%80%90%100%吸烟不吸烟未患病患病观察上面的图形,能得到什么结论?从等高条形图可以直观看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关“。一般地,假设有两个分类变量X和Y,他们的值域分别为{x1,x2}和{y1,y2},其2×2列联表和等高条形图如下表所示,能不能根据图表来判断分类变量X和Y是否可能有关系?y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d等高条形图0%10%20%30%40%50%60%70%80%90%100%X1X2Y2Y1可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例为a/(a+b);满足条件X=x2的个体中具有Y=y1的个体所占的比例为c/(c+d)。两个比例的值相差越大,就意味着X与Y有关系的可能性越大,由a/(a+b)-c/(c+d)=(ad-bc)/((a+b)(c+d)),可知,两个比例的值相差越大即ad与bc相差越大,即|ad-bc|越大,就意味着X和Y有关系的可能性越大。由于等高条形图的纵轴是频率,故通过等高条形图可以直观展示比例差距的相对大小。进而判断分类变量是否存在关系。问题:上面给出的两种判断”分类变量是否可能有关系”的方法各有什么特点?•列联表有助于直观的观测数据之间的关系。•等高条形图更能直观的反映出相关数据的总体状况。但两种方法都只能粗略地判断两个分类变量是否可能有关系。某学校对在校部分学生课外活动的内容进行调查,结果整理成下表:体育文娱总计男生212344女生62935总计275279学生课外活动的类别与性别有关系吗?用等高条形图进行分析。0%20%40%60%80%100%男生女生女生男生由图可以很直观的看出喜欢体育的在男生中占有的比例较高,喜欢文娱的在女生中占有较高的比例,故学生课外活动的类别在性别上有较大的差异,说明课外活动的类别与性别在某种程度上有关系。y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d一般地,假设有两个分类变量X和Y,他们的值域分别为{x1,x2}和{y1,y2},其2×2列联表如下表所示,对于以下数据对同一样本能说明X与Y有关的可能性最大的一组为()A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=2,b=3,c=5,d=4服用某种维生素对婴儿头发稀疏或稠密的影响调查如下:服用维生素的婴儿有60人头发稀少的有5人;不服用维生素的婴儿有60人,头发稀疏的有46人,根据以上数据作出列联表。并作出等高条形图。