第02讲 成对数据的统计分析(五大题型)(讲义)(解析版)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

资料整理【淘宝店铺:向阳百分百】第02讲成对数据的统计分析目录资料整理【淘宝店铺:向阳百分百】考点要求考题统计考情分析(1)了解样本相关系数的统计含义.(2)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.(3)会利用统计软件进行数据分析.2023年上海卷第14题,4分2023年天津卷第7题,5分2023年甲卷(文)第19题,12分2022年I卷第20题,12分从近五年的全国卷的考查情况来看,本节是高考的热点,主要以解答题形式出现,经常与概率综合出题,一般难度为中等.也可能以选择题、填空题形式出现,难度不大.主要以应用题的方式出现,多与经济、生活实际相联系,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题.知识点一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.资料整理【淘宝店铺:向阳百分百】2、散点图将样本中的n个数据点(,)(1,2,,)iixyin描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量x的取值ix,变量y的观测值为(1)iyin,则变量x与y的相关系数112222221111()()()()nniiiiiinnnniiiiiiiixxyyxynxyrxxyyxnxyny,通常用r来衡量x与y之间的线性关系的强弱,r的范围为11r.(1)当0r时,表示两个变量正相关;当0r时,表示两个变量负相关.(2)r越接近1,表示两个变量的线性相关性越强;r越接近0,表示两个变量间几乎不存在线性相关关系.当||1r时,所有数据点都在一条直线上.(3)通常当0.75r时,认为两个变量具有很强的线性相关关系.知识点二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程ybxa的求法为1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx其中,11niixxn,11niiyyn,(x,y)称为样本点的中心.2、残差分析资料整理【淘宝店铺:向阳百分百】对于预报变量y,通过观测得到的数据称为观测值iy,通过回归方程得到的y称为预测值,观测值减去预测值等于残差,ˆie称为相应于点(,)iixy的残差,即有ˆieˆiiyy.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点ˆ,iixe比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和21ˆ()niiiQyy分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:22121ˆ()1()niiiniiyyRyy.2R越接近于1,说明残差的平方和越小,也表示回归的效果越好.知识点三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.知识点四、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.资料整理【淘宝店铺:向阳百分百】(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{1x,2x}和{1y,2y},其样本频数列联表(称为2×2列联表)为1y2y总计1xabab2xcdcd总计acbdnabcd从22列表中,依据aab与ccd的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现aab与ccd相差很大,就判断两个分类变量之间有关系.3、独立性检验计算随机变量22()()()()()nadbcabcdacbd利用2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.0.100.050.0100.0050.001x2.7063.8416.6357.87910.828【解题方法总结】常见的非线性回归模型(1)指数函数型xyca(0a且1a,0c)两边取自然对数,lnlnxyca,即lnlnlnycxa,令lnyyxx,原方程变为lnlnycxa,然后按线性回归模型求出lna,lnc.(2)对数函数型lnybxa令lnyyxx,原方程变为ybxa,然后按线性回归模型求出b,a.(3)幂函数型nyax资料整理【淘宝店铺:向阳百分百】两边取常用对数,lglgnyax,即lglglgynxa,令lglgyyxx,原方程变为lgynxa,然后按线性回归模型求出n,lga.(4)二次函数型2ybxa令2yyxx,原方程变为ybxa,然后按线性回归模型求出b,a.(5)反比例函数型byax型令1yyxx,原方程变为ybxa,然后按线性回归模型求出b,a.题型一:变量间的相关关系例1.(2023·河北·高三校联考期末)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是()A.B.C.D.【答案】D【解析】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,显然D选项的拟合精度最高.故选:D.例2.(2023·天津蓟州·高三校考开学考试)对两个变量x,y进行线性相关检验,得线性相关系数10.8995r,对两个变量u,v进行线性相关检验,得线性相关系数20.9568r,则下列判断正确的是()A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强资料整理【淘宝店铺:向阳百分百】D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强【答案】C【解析】因为线性相关系数10.89950r,所以x,y正相关,因为线性相关系数20.95680r,所以u,v负相关,又因为12rr,所以变量u,v的线性相关性比x,y的线性相关性强,故A、B、D错误,C正确.故选:C.例3.(2023·宁夏吴忠·高三盐池高级中学校考阶段练习)在如图所示的散点图中,若去掉点P,则下列说法正确的是()A.样本相关系数r变大B.变量x与变量y的相关程度变弱C.变量x与变量y呈正相关D.变量x与变量y的相关程度变强【答案】D【解析】由散点图知,自变量x与因变量y呈负相关,即0r,故C错误;去掉点P后,r进一步接近1,所以r变小,故A错误;去掉点P后,y与x的线性相关加强,即相关程度变强,故B错误,D正确.故选:D.变式1.(2023·四川成都·高三统考阶段练习)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是()A.相关指数误差平方和均方根值0.9498.4910.499B.相关指数误差平方和均方根值资料整理【淘宝店铺:向阳百分百】0.9334.1790.436C.相关指数误差平方和均方根值0.9971.7010.141D.相关指数误差平方和均方根值0.9972.8990.326【答案】C【解析】相关指数越接近于1,拟合效果越好,比较相关指数知,可选C,D,误差平方和及均方根值都越小,拟合效果越好,观察误差平方和和均方根值,知C的拟合效果最好.故选:C.变式2.(2023·高三课时练习)甲、乙、丙、丁四位同学各自对,A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则能体现A,B两变量有更强的线性相关性的是()A.甲B.乙C.丙D.丁【答案】D【解析】在验证两个变量之间的线性相关关系中,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大,残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现A、B两变量有更强的线性相关性,故选:D.变式3.(2023·河北石家庄·统考三模)观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是()资料整理【淘宝店铺:向阳百分百】A.B.C.D.【答案】B【解析】根据一元线性回归模型中对随机误差e的假定,残差应是均值为0、方差为2的随机变量的观测值.对于A选项,残差与观测时间有线性关系,故A错;对于B选项,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内;故B正确;对于C选项,残差与观测时间有非线性关系,故C错;对于D选项,残差的方差不是一个常数,随着观测时间变大而变大,故D错.故选:B.变式4.(2023·全国·高三专题练习)甲、乙、丙、丁四位同学分别对一组变量进行线性相关试验,并分别计算出相关系数r,则线性相关程度最高的是()甲乙丙丁r0.870.910.580.83A.甲B.乙C.丙D.丁【答案】B【解析】因为相关系数r越大,线性相关程度越强,所以线性相关程度最高的是乙.故选:B变式5.(2023·全国·高三专题练习)给出下列有关线性回归分析的四个命题:①线性回归直线未必过样本数据点的中心(),xy;②回归直线就是散点图中经过样本数据点最多的那条直线;③当

1 / 46
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功