2011高考数学总复习课件11.4 统计案例

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

§11.4统计案例要点梳理1.回归分析(1)定义:对具有的两个变量进行统计分析的一种常用方法.(2)随机误差:线性回归模型用y=bx+a+e表示,其中a和b为模型的,称为随机误差.(3)样本点的中心在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,回归方程的截距和斜率的最小二乘估计公式分别为:相关关系未知参数e基础知识自主学习其中称为样本点的中心.(4)相关系数bˆ211)()()(niiiniixxyyxx,aˆxbyˆ.x,,y),(yxniixn11niiyn11①r=niniiiniiiyyxxyyxx11221)()())((②当r>0时,表明两个变量;当r<0时,表明两个变量.r的绝对值越接近于1,表明两个变量的线性相关性.r的绝对值越接近于0时,表明两个变量之间.通常|r|大于时,认为两个变量有很强的线性相关性.))((1221221niiniiniiiynyxnxyxnyx正相关负相关越强几乎不存在线性相关关系0.752.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:.(2)残差数据点和它回归直线上相应位置的差异(yi-)是的效应,称为残差.(3)残差平方和.iyˆ随机误差iiiyyeˆˆniiyy12)(niiiyy12)ˆ(3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的,像这类变量称为分类变量.(4)相关指数R2=.R2的值越大,说明残差平方和,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.越小不同类别niiniiiyyyy1212)()ˆ(1(2)列联表:列出两个分类变量的,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d频数表构造一个随机变量K2=,其中n=为样本容量.(3)独立性检验利用随机变量来确定是否能以一定把握认为“两个分类变量”的方法称为两个分类变量的独立性检验.))()()(()(2dbcadcbabcadna+b+c+dK2有关系基础自测1.相关系数度量()A.两个变量之间线性相关关系的强度B.散点图是否显示有意义的模型C.两个变量之间是否存在因果关系D.两个变量之间是否存在关系解析相关系数来衡量两个变量之间线性相关关系的强弱.A2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A、B两变量更强的线性相关性?()A.甲B.乙C.丙D.丁解析r>0且丁最接近1,残差平方和越小,相关性越高,故选D.甲乙丙丁r0.820.780.690.85m115106124103D3.已知x、y之间的数据如表所示,则回归直线过点()A.(0,0)B.(,0)C.(0,)D.(,)解析回归直线过样本点的中心(,).x1.081.121.191.28y2.252.372.402.55Dxyxyxy4.下列说法中正确的有:①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上()A.①②B.②③C.①③D.①②③解析若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确.r<0,表示两个变量负相关,x增大时,y相应减小,故②错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.C5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是的(有关,无关).解析∵K2=27.63>10.828,∴有99.9%的把握认为“打鼾与患心脏病有关”.有关题型一线性回归分析【例1】假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:23456y2.23.85.56.57.0已知(1)求,;(2)对x,y进行线性相关性检验;x51515122,3.112,8.140,90iiiiiiiyxyx.878.0,32,4.12,9.87905.0rn时xy题型分类深度剖析(3)如果x与y具有线性相关关系,求出线性回归方程;(4)估计使用年限为10年时,维修费用约是多少?(1)先根据已知计算相关系数r,判断是否具有相关关系.(2)再利用公式求出回归方程进行回归分析.解(1)思维启迪.4565432x.550.75.65.58.32.2y(2)步骤如下:①作统计假设H0:x与y不具有线性相关关系.②n-2=3时,r0.05=0.878.③=112.3-5×4×5=12.3,=90-5×42=10,=140.8-125=15.8,∴r=④|r|=0.987>0.878,即|r|>r0.05,所以有95%的把握认为“x与y之间具有线性相关关系”,去求线性回归方程是有意义的.yxyxiii55151225iixx51225iiyy.987.09.84.13.127923.121583.128.15103.12所以线性回归方程为=1.23x+0.08.(4)当x=10时,=1.23×10+0.08=12.38(万元),即估计使用10年时,维修费用约为12.38万元.在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系.若它们之间具有相关关系,再求回归方程,否则,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.探究提高.08.0423.15ˆˆ,23.145905453.11255ˆ)3(2512251xbyaxxyxyxbiiiiiyˆyˆ知能迁移1测得某国10对父子身高(单位:英寸)如下:父亲身高(x)60626465666768707274儿子身高(y)63.665.26665.566.967.167.468.370.170(1)对变量y与x进行相关性检验;(2)如果y与x之间具有线性相关关系,求线性回归方程;(3)如果父亲的身高为73英寸,估计儿子的身高.解(1),01.67,8.66yx,yx34.490424.462422,.4980.0748.611672.79)4.9034493.94144)(4.6224479444(268.4764104.84244)10)(10(104.84244,93.94144,79444101221012210110110110122iiiiiiiiiiiiiiyyxxyxyxryxyx因为r的值较大,所以y与x之间具有很强的线性相关关系.(2)设回归方程为.ˆˆˆaxby.6464.06.17172.794.622447944468.762444.842441010ˆ10122101iiiiixxyxyxb由故所求的回归方程为=0.4646x+35.9747.(3)当x=73时,=0.4646×73+35.9747≈69.9.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸..7974.358.666464.001.67ˆˆxbyayˆyˆ题型二非线性回归分析【例2】下表是某年美国旧轿车价格的调查资料,以x表示轿车的使用年数,y表示相应的年均价格,求y关于x的回归方程.使用年数x12345678910年均价格y(美元)2651194314941087765538484290226204由已知表格先画出散点图,可以看出随着使用年数的增加,轿车的平均价格在递减,但不在一条直线附近.但据此认为y与x之间具有线性相关关系是不科学的,要根据图形的形状进行合理转化,转化成线性关系的变量间的关系.思维启迪解作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系.与已学函数图象比较,用来刻画题中模型更为合理,令,则,题中数据变成如下表所示:axbzˆˆˆzˆyˆlnaxbyˆˆeˆ相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.x12345678910z7.8837.5727.3096.9916.6406.2886.1825.6705.4215.318由表中数据可得r≈-0.996.|r|0.75.认为x与z之间具有线性相关关系,由表中数据得≈-0.298,≈8.165,所以=-0.298x+8.165,最后回代=ln,即=e-0.298x+8.165为所求.非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.探究提高bˆaˆzˆzˆyˆyˆ知能迁移2在试验中得到变量y与x的数据如下表:x1923273135y41124109325试求y与x之间的回归方程,当x0=40时,预测y0的值.解作散点图如图所示,从散点图可以看出,两个变量x,y不呈线性相关关系.根据学过的函数知识,样本点分布的曲线可能有两种情况.(1)指数函数曲线y=c1;(2)二次函数曲线y=c3x2+c4.对于(1),问题变为如何估计待定参数c1,c2,可通过对数变换把指数关系变为线性关系,那么令则,yzˆˆln.ˆˆˆˆˆ)cb,ca(axbz21lnxc2e作散点图如图所示.x1923273135z1.3862.3983.1784.6915.784列表①从图中可以看出x与z有很强的线性相关性.由表①中的数据得到线性回归方程=0.277x-3.992.所以,变量y关于x的指数回归方程为=e0.277x-3.992.对于(2),问题变为如何估计待定参数c3,c4,那么令t=x2,则y=c3t+c4.列表②zˆ)1(ˆyt3615297299611225y41124109325从图中可以看出,y与t不宜用线性回归方程来拟合.为比较两个模型的拟合效果,用线性回归模型拟合表②中的数据,可得到y关于t的线性回归方程为0.357t-177.08.所以,变量y关于x的二次回归方程为0.357x2-177.08.利用残差比较两个回归方程的拟合效果.)2(ˆy)2(ˆy列表③x1923273135y411241093250.4360.206-8.68810.01225.23552.203-0.773-59.173-56.99764.755计算残差平方和≈812.759,≈13669.063.因此,指数模型的拟合效果远远优于二次模型,应选用指数模型.所以,当x0=40时,y0=e0.277×40-3.992≈1197.510.)1(ˆe)2(ˆe)1(ˆQ)2(ˆQ题型三独立性检验【例3】(12分)在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?(1)先由已知作出调查数据的列联表.(2)再根据列联表画出二维条形图,并进行分析.(3)利用独立性检验作出判断.思维启迪解根据题目所给的数据作出如下的列联表:色盲不色盲合计男38442480女6514520合计4495610004分根据列联表作出相应的二维条形图,如图所示.6分从二维条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例要大,其差值为差值较大,

1 / 61
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功