选修1—2第一章统计案例

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

【同步教育信息】一.本周教学内容:选修1—2第一章统计案例1.独立性检验2.回归分析二.教学目的1.通过统计案例,学习常见的统计方法,并能用这些方法解决一些实际问题;了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。2.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;了解回归问题的解决思路,加深对统计推断的认识。三.教学重点、难点1.独立性检验的思想、方法及初步应用;2.回归分析的思想、方法及初步应用。四.知识分析(一)独立性检验1.独立事件:一般地,对于两个事件A、B,如果有()()()PABPAPB,就称事件A与B相互独立,简称A与B独立。注意:(1)AB表示事件A,B同时发生,也可记作AB(2)如果事件A与B独立,那么事件A与B、A与B、A与B也独立。2.卡方统计量:统计中有一个非常有用的χ2统计量,它的表达式为:21212211222112nnnn)nnnn(nx注意:(1)用χ2的大小可以决定是否拒绝原来的统计假设H0(H0:()()()PABPAPB),如果算出的χ2值较大,就拒绝H0,也就是拒绝“事件A与事件B无关”,从而认为它们是有关的了;(2)两个临界值:3.841与6.635。当841.3x2时,有95%的把握说事件A与B有关;当635.6x2时,有99%的把握说事件A与B有关;当841.3x2时,认为事件A与B无关。(3)计算公式中的几个量:表示22列联表中的有关数据,我们把这一检验问题称为22列联表的独立性检验。如课本上研究患慢性气管炎是否与吸烟有关的问题,列出22列联表如下:患慢性气管炎(B)未患慢性气管炎(B)合计吸烟(A)11n12n1n不吸烟(A)21n22n2n合计1n2nn(二)回归分析:1.回顾几个概念:(1)相关关系:当自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系(而函数关系是一种确定关系)。(2)散点图:表示具有相关关系的两个变量组成一组数据,将各组数据在平面坐标系中描点,这种图形叫做散点图。(3)回归直线方程:bxayˆ,a、b的估计值baˆˆ、为121()()()niiiniixxyybxx,aybx其中b也可进一步推导成22iiixynxybxnx2.相关系数:为了解决两个变量是否具有线性相关关系,可以进行相关性检验,在统计学中,我们通常利用检验统计量样本的相关系数来进行相关性检验,如果具有线性相关关系,我们就求出回归方程,否则求出的回归方程就毫无意义了。对于变量x与y随机抽取到的n对数据1122(,),(,),,(,)nnxyxyxy,相关系数的计算公式为:22()()()()iiiixxyyrxxyy=2222()()iiiixynxyxnxyy关于相关系数作以下几点说明:(1)r具有以下性质:||1r,并且||r越接近1,线性相关程度越强;||r越接近于0,线性相关程度越弱。(2)检验统计的步骤如下:①作统计假设:x与y不具有线性相关关系;②根据小概率0.05与2n在附表中查出r的一个临界值0.05r;③根据样本相关系数计算公式算出r的值;④作统计推断:如果0.05||rr,表明有95%把握认为x与y具有线性相关关系,如果0.05||rr,我们没有理由拒绝原来的假设,这时寻找回归直线的方程是毫无意义的。【典型例题】例1下表是某班英语及数学成绩的分布表,已知该班有50名同学,成绩分1至5个档次,如表中所示,英语成绩为4分,数学成绩为2分的学生有5人,现设该班任意一位学生的英语成绩为m,数学成绩为n,数学54321英513101nm语41075132109321b60a100113(1)求m=4,n=3的概率;(2)求3m的条件下,n=3的概率;(3)若m=2与n=4是相互独立的,求a、b的值解析:(1)由知英语成绩为4分,数学成绩为3分的学生有7人,而学生总数为50人,所以750P(2)3m且n=3,即英语成绩在3分以上(包括3分)且数学成绩为3分的学生为8人所以835P(3)由表中的已知人数为47,而班级总数为50,因此3ab,又m=2与n=4是相互独立的,所以(2)(4)(2,4)PmPnPmn因此得1631505050babb解得:2,1ab点评:根据两个事件独立的定义,判断是否独立只要看是否满足()()()PABPAPB。例2对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别。解析:由公式得χ22392(3916715729)1.7819619668324因为1.783.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其做过任何手术无关。点评:上述结论是对所有做过心脏搭桥手术或血管清障手术的病人而言的,绝不要认为只对392个跟踪对象成立。例3在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。试判断秃顶与患心脏病是否有关系。解析:根据题目中的数据得到如下的列联表:患心脏病患其他病合计秃顶214175389不秃顶4515971048合计6657721437根据列联表中的数据,得χ221437(214597175451)16.373891048665772因为16.37>6.635,所以有99%的把握认为“秃顶与心脏病有关”。点评:首先根据题意列出相应的列联表,计算出χ2,然后和临界值进行比较,从而得出是否有关的结论。例4在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示。根据资料你是否认为在恶劣气候飞行中男人比女人更容易晕机?晕机不晕机合计男人243155女人82634合计325789解析:这是一个22列联表的独立性检验问题,有公式得:χ2289(2426318)3.68955343257因为3.6893.841,所以我们没有理由说晕机与性别有关。点评:在使用χ2统计量作22列联表的独立性检验时,要求表中的4个数据大于或等于5,为此在选取样本的容量时一定要注意这一点。例5某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽选出10个企业作样本,有如下资料,见下表。完成下列要求:(1)计算x与y的相关系数;(2)设回归直线的方程为ybxa,求a与b产量(千克)x生产费用(千元)y40150421404816055170651507916288185100165120190140185解析:(1)由已知条件制成下表:iixiy2ix2iyiixy1401501600225006000242140176419600588034816023042560076804551703025289009350565150422522500975067916262412624412798788185774434225162808100165100002722516500912019014400361002280010140185196003422525900合计777165770903277119132938777165777.7;165.7;1010xy1010102211170903;277119;132938iiiiiiixyxy由相关系数计算公式,得221329381077.7165.70.808(709031077.7)(27711910165.7)r即x与y的相关系数为0.808r(2)21329381077.7165.70.398,709031077.7165.70.39877.7134.8ba点评:此类问题方法较为简单,只要记住相应的公式,但一般运算较为复杂,须借助于计算器完成。例6炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响炼钢时间的长短,必须掌握钢水含碳量和冶炼时间的关系。如果已测得炉料熔化完毕时钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示:x(0.01%)104180190177147134150191204121y(min)100200210185155135170205235125(1)y与x是否具有线性相关关系?(2)如果y与x具有线性相关关系,求回归直线的方程;(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟。解析:(1)由已知数据列成下表:i12345678910ix104180190177147134150191204121iy100200210185155135170205235125iixy10400360003990032745227851809025500391554794015125由上表可知:22159.8,172,265448,312350,287640iiiixyxyxy于是2222100.9906(10)(10)iiiixyxyrxxyy由小概率0.05与n-2=8在附表中查得:0.050.632r由于0.05||0.9906rr,可知x与y具有线性相关关系。(2)设所求的回归直线方程为ybxa则2222101.267(10)()iiiixyxybxxyy30.51aybx所以所求的回归直线的方程为1.26730.5yx(3)当160x时,1.26716030.51172(min)y即大约冶炼172min点评:若已知x与y具有线性相关关系,就无须进行线性相关检验,否则要进行线性相关检验,根据线性回归方程进行估计和预测。例7某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到如下数据:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y与印刷册数的倒数1x之间是否具有线性相关关系,如果有,求出y与x的回归方程。解析:首先作变量置换1ux,题中所给的数据变为如下表所示的数据:iu10.50.330.20.10.050.030.020.010.005iy10.155.524.082.852.111.621.411.301.211.15于是可求:2222100.9998(10)(10)iiiixyxyrxxyy由0.05||0.9998rr可知变量y与u之间具有线性相关关系,计算可得8.973,1.125baybx回代1ux可得8.9731.125yx,因此所求的回归方程为8.9731.125yx点评:在本题中,y与x之间不具有线性相关关系,因而是非线性回归问题。但y与1x具有线性相关关系,我们令1ux,现求出y与u的回归直线方程,再回代1ux,就可以得到y与x的回归曲线的方程。例8下表为收集到的一组数据:温度/oxc21232527293235产卵数/oyc711212466115325(1)做出散点图;(2)求y与x的回归曲线的方程;(3)利用所得模型,预报40x时y的值。解析:(1)作出散点图如下:产卵数o50100150200250300350温度202224262830323436.......(2)从散点图可以看出y与x不具有线性相关关系,根据已知的知识可以发现样本点分布在某一指数函数曲线上,设为dxyce,其中,cd为待定的参数。两边取对数得:lnlnycdx,令lnzy,则z与x

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功