第27讲 统计案例和回归方程(解析版)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第27讲统计案例和回归方程【知识点总结】一、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法。对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程ybxa的求法为()()()1122211nniiiiiinniiiixxyyxynxybxxxnxaybx其中,11niixxn,11niiyyn,(x,y)称为样本点的中心。步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变量的回归直线,直线斜率k0,称两个变量正相关;k0,称两个变量负相关。二、独立性独立性检验是判断两个分类变量是否存在相关关系的案例分析方法。步骤为列出22列联表(如表13-8所示),求出()()()()()22nadbcKabcdacbd,并判断:A1A2合计B1aca+cB2bdb+d合计a+bc+dn=a+b+c+d若K210.828,有99.9%把握称“A取A1或A2”对“B取B1,B2”有关系;若10.828K26.635,有99%把握称“A取A1或A2”对“B取B1,B2”有关系;若6.635K23.841,有95%把握称“A取A1或A2”对“B取B1,B2”有关系;若K23.841,没有把握称A与B相关。【典型例题】例1.(2022·全国·高三专题练习(文))在对两个变量x,y进行回归分析时有下列步骤:①对所求出的回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求回归方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是()A.①②④③B.③②④①C.②③①④D.②④③①【答案】D【详解】根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释.故选:D例2.(2022·全国·高三专题练习)对于数据组,1,2,3,...,iixyin,如果由线性回归方程得到的对应于自变量ix的估计值是iy,那么将iiyy称为相应于点,nixy的残差.某工厂为研究某种产品产量x(吨)与所需某种原材料y吨)的相关性,在生产过程中收集4组对应数据,xy如下表所示:x3456y2.534m根据表中数据,得出y关于x的线性回归方程为0.7yxa,据此计算出样本点处的残差为-0.15,则表中m的值为()A.3.3B.4.5C.5D.5.5【答案】B【详解】由题意可知,在样本(4,3)处的残差-0.15,则3.15y,即3.150.7xa,解得0.35a,即0.70.35yx,又34564.54x,且线性方程过样本中心点(x,y),则0.74.50.353.5y,则2.5343.54my,解得4.5m.故答案为:B【点睛】理解残差的定义,实际值减去估计值;线性方程过样本中心(x,y);要求对基本知识点比较熟练,计算才准确.例3.(2022·全国·高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为50%.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x(xN,且09x≤≤)表示是否下雨:当0,xkkZ时表示该地区下雨,当1,9xk时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:332714740945593468491272073445992772951431169332435027898719(1)求出k的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:时间2016年2017年2018年2019年2020年年份t12345降雨量y2827252322经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量y与年份t具有线性相关关系,求回归直线方程ybta.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:1122211nniiiiiinniiiittyytyntybtttnt,aybt$$.【详解】(1)由题意可知,150%10k,解得4k,即0~4表示下雨,5~9表示不下雨.所给的20组数据中714,740,491,272,073,445,435,027,共8组表示3天中恰好有2天下雨,故所求的概率为82205.(2)由题中所给的数据可得3t,25y,所以55121()()168105()iiiiittyybtt,814925355aybt,所以回归方程为814955yt,当7t时,8149397555y.所以该地区2022年端午节有降雨的话,降雨量约为935mm.例4.(2022·全国·高三专题练习(理))某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:x12345678y1126144.53530.5282524根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型byax和指数函数模型edxyc分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为0.296.54eˆ,lnxyy与x的相关系数10.94r.(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本.参考数据:81iiiuyu2u821iiu81iiy821iiy0.616185.52e183.40.340.1151.5336022385.561.40.135参考公式:对于一组数据1122,,,,,,nnuvuvuv,其回归直线ˆˆˆvu的斜率和截距的最小一乘估计分别为:1221ˆniiiniiuvnuvunu,ˆˆvu,相关系数1222211niiinniiiiuvnuvrunuvnv【解析】(1)令1ux,则byax可转化为yabu.因为813604588iiyy,所以812218183.480.344561ˆˆ100,1.5380.1150.618iiisiiuyuybuu,45ˆˆ1000.3411aybu,得ˆ11100yu,即y关于x的回归方程为100ˆ11yx.(2)由定义知y与1x的相关系数为:81288222211861610.9961.40.616185.588iiiiiiiuyuyruuyy,则12rr,所以用反比例函数模型拟合效果更好.当10x时,100ˆ112110y(元),则当产量为10千件时,每件产品的非原料成本为21元.例5.(2022·全国·高三专题练习)如图是某小区2020年1月至2021年1月当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2020年1月~2021年1月).根据散点图选择yabx和lnycdx两个模型进行拟合,经过数据处理得到两个回归方程分别为0.93690.0285yx和0.95540.0306lnyx,并得到以下一些统计量的值:0.93690.0285yx0.95540.0306lnyx残差平方和1321iiiyy0.0005910.000164总偏差平方和1321iiyy0.006050(1)请利用相关指数2R判断哪个模型的拟合效果更好;(2)估计该小区2021年6月份的二手房均价.(精确到0.001万元/平方米)参考数据:ln20.69,ln31.10,ln172.83,ln192.94,21.41,31.73,174.12,194.36.参考公式:相关指数221211niiiniiyyRyy.【详解】(1)设模型0.93690.0285yx和0.95540.0306lnyx的相关指数分别为21R和22R,则210.00059110.00605R,220.00016410.00605R.因为0.0005910.000164,所以2212RR.所以模型0.95540.0306lnyx的拟合效果更好.(2)由(1)知,模型0.95540.0306lnyx的拟合效果更好,利用该模型预测可得,这个小区2021年6月份的在售二手房均价为:0.95540.0306ln18y0.95540.0306ln22ln31.044(万元/平方米).例6.(2022·全国·高三专题练习)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用yabx或dycx建立y关于x的回归方程,令sx,1tx得到如下数据:xyst10.15109.943.040.16113niiisysy13113iiityty1322113ikss1322113iitt1322113iiyy13.94-2.111.670.2121.22且(is,iy)与(it,iy)(i=1,2,3,…,13)的相关系数分别为1r,2r,且2r=﹣0.9953.(1)用相关系数说明哪种模型建立y与x的回归方程更合适;(2)根据(1)的结果及表中数据,建立y关于x的回归方程;(3)已知蕲艾的利润z与x、y的关系为1202zyx,当x为何值时,z的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.6374=15.7365,对于一组数据(iu,iv)(i=1,2,3,…,n),其回归直线方程vu的斜率和截距的最小二乘法估计分别为1221niiiniiuvnuvunu,vu,相关系数1222211niiinniiiiuvnuvrunuvnv.【详解】(1)由题意知20.9953r,113.9413.940.885811.6721.22247.6374r,因为121rr,所有用dycx模型建立y与x的回归方程更合适.(2)因为13113221132.1ˆ100.2113iiiiitytydtt,ˆˆ109.94100.16111.54cydt,所以ˆy关于x的回归方程为10ˆ111.54yx(3)由题意知11012020(111.54ˆˆ)22zyxxx20012230.8()2xx2230.8202210.8,所以22.8ˆ10z,当且仅当20x=时等号成立,所以当温度为20时这种草药的利润最大.例7.(2022·河北张家口·高三期末)已知某区A、B两所初级中学的初一年级在校学生人数之比为9:11,该区教育局为了解双减政策的落实情况,用分层抽样的方法在A、B两校初一年

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功