2015-2016学年高中数学第一章统计案例12独立性检验的基本思想及其初步应用课时作业

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

-1-第一章统计案例1.2独立性检验的基本思想及其初步应用课时作业新人教A版选修1-2明目标、知重点1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.-2-③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.[情境导学]5月31日是世界无烟日.有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.这些疾病与吸烟有关的结论是怎样得出的呢?探究点一列联表和等高条形图思考1举例说明什么是分类变量?答变量的不同“值”表示个体所属的不同类别的变量称为分类变量,分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.思考2什么是列联表?怎样从列联表判断两个分类变量有无关系?答一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},则两个变量的频数表,称为列联表(如下图)y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d|ad-bc|越小,说明两个分类变量x、y之间的关系越弱;|ad-bc|越大,说明两个分类变量x、y之间的关系越强.思考3等高条形图对分析两个分类变量是否有关系,有何帮助?答通过画等高条形图,我们可以直观观察两个变量的比例关系,判断两个变量是否有关系.例1某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.根据这些数据能否断定“患呼吸道疾病与吸烟有关”?(用列联表和等高条形图说明).解(1)作出列联表如下:-3-患病未患病总计吸烟37183220不吸烟21274295总计58457515在吸烟的人中,有37220≈16.82%的人患病,在不吸烟的人中,有21295≈7.12%的人患病.由上可以看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关”.(2)画出等高条形图如下:通过上面的等高条形图可以直观看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关”.反思与感悟利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性就越大.跟踪训练1在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000根据列联表作出相应的等高条形图:从等高条形图来看在男人中患色盲的比例要比在女人中患色盲的比例大得多,因而,我们认-4-为性别与患色盲是有关系的.探究点二独立性检验思考1利用列联表及等高条形图判断两个分类变量是否有关有什么优缺点?答优点:比较直观.缺点:缺少精确性和可靠性.思考2随机变量K2有何作用?答利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)可以来确定在多大程度上可以认为“两个分类变量有关系”.思考3独立性检验的基本思想是什么?答独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下,用我们构造的随机变量K2的观测值应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(K2≥6.635)≈0.01来评价假设不合理的程度,由实际计算出K26.635,说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.例2在某医院,因为患心脏病而住院的665名男性病人中有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系;(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?解(1)根据题目所给的数据画出列联表:患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437相应的等高条形图如图所示:比较来说,秃顶的病人中患心脏病的比例大一些,可以在某种程度上认为“秃顶与患心脏病有关”.(2)根据列联表中的数据,得到-5-k=1437×(214×597-175×451)2389×1048×665×772≈16.3736.635,因此,在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系.反思与感悟(1)利用随机变量K2进行独立性检验的步骤:①根据实际问题需要的可信度α确定临界值k0;②根据给出数据计算得出随机变量K2的观测值k;③如果k≥k0,就认为在犯错误的概率不超过α的前提下,认为两变量有关系;否则,认为两个分类变量没有关系.(2)独立性检验能精确判断可靠程度,而等高条形图的优点是直观,但只可以粗略判断两个分类变量是否有关系,一般在通过图表判断后还需要用独立性检验来确认.跟踪训练2为了探究吸烟习惯与患慢性气管炎是否有关,调查了339名50岁以上的人,获数据如下:患慢性气管炎未患慢性气管炎总计吸烟43162205不吸烟13121134总计56283339吸烟习惯与患慢性气管炎是否相关?试用独立性检验的思想说明理由.解根据列联表的数据得到K2的观测值:k=n(ad-bc)2(a+b)(a+c)(d+b)(d+c)=339×(43×121-162×13)2205×56×283×134≈7.4696.635,所以,在犯错误的概率不超过0.01的前提下认为“吸烟习惯与患慢性气管炎有关”.1.观察下列各图,其中两个分类变量x,y之间关系最强的是()-6-答案D2.下面是一个2×2列联表:y1y2总计x1a2173x282533总计b46则表中a、b处的值分别为()A.94,96B.52,50C.52,60D.54,52答案C解析∵a+21=73,∴a=52,b=a+8=52+8=60.3.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k3.841时,我们()A.在犯错误的概率不超过0.05的前提下可认为A与B有关B.在犯错误的概率不超过0.05的前提下可认为A与B无关C.在犯错误的概率不超过0.01的前提下可认为A与B有关D.没有充分理由说明事件A与B有关系答案A4.根据下表计算:不看电视看电视男3785女35143K2的观测值k≈________.(保留3位小数)答案4.514解析k=300×(37×143-85×35)2122×178×72×228≈4.514.[呈重点、现规律]1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计-7-算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.一、基础过关1.下面说法正确的是()A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关答案B2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值()A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关答案B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99%B.99.5%C.99.9%D.无关系答案A解析K2的观测值6.635k7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A、B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.1B.2C.3D.4-8-答案A解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,也可借助三维柱形图、二维条形图等.故选A.5.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028总计303060由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是()A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关答案D解析根据临界值表,9.6437.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.如果K2的观测值为6.645,可以认为“x与y无关”的可信度是________.答案1%解析查表可知可信度为1%.7.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:分数段29~4041~5051~6061~7071~8081~9091~100午休考生人数23473021143114不午休考生人数1751671530173(1)根据上述表格完成列联表:及格人数不及格人数总计午休不午休-9-总计(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?解(1)根据题表中数据可以得到列联表如下:及格人数不及格人数总计午休80100180不午休65135200总计145235380(2)计算可知,午休的考生及格率为P1=80180=49,不午休的考生的及格率为P2=65200=1340,则P1P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功