12一、回归分析的基本思想及其初步应用(一)问题1:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?复习1:函数关系是一种关系,而相关关系是一种关系.复习2:回归分析是对具有关系的两个变量进行统计分析的一种常用方法,其步骤:.实例从某大学中随机选取8名女大学生,其身高/cm和体重/kg数据如下表所示:编号12345678身高165165157170175165155170体重4857505464614359问题:画出散点图,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.(1)做散点图:从散点图可以看出和有比较好的相关关系.(2)x=y=81iiixy821iix3所以81822188iiiiixyxybxxaybx于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为y新知:用相关系数r可衡量两个变量之间关系.计算公式为r=r0,相关,r0相关;相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;r,两个变量有关系.例1、某班5名学生的数学和物理成绩如下表:学生学科ABCDE数学成绩(x)8876756462物理成绩(y)7865706260(1)画散点图;(2)求物理成绩y对数学成绩x的回归直线方程;(3)该班某学生数学成绩为96,试预测其物理成绩;4变式:该班某学生数学成绩为55,试预测其物理成绩;1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ybxa;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值32.5435464.566.5)2、下列两个变量具有相关关系的是A.正方体的体积与边长B.人的身高与视力C.人的身高与体重D.匀速直线运动中的位移与时间3、在画两个变量的散点图时,下面哪个叙述是正确的A.预报变量在x轴上,解释变量在y轴上B.解释变量在x轴上,预报变量在y轴上C.可以选择两个变量中任意一个变量在x轴上D.可选择两个变量中任意一个变量在y轴上4、回归直线ybxa必过A.(0,0)B.(,0)xC.(0,)yD.(,)xyx3456y2.5344.555、r越接近于1,两个变量的线性相关关系.6、已知回归直线方程0.50.81yx,则25x时,y的估计值为.7、一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:转速x(转/秒)1614128有缺点零件数y(件)11985(1)画散点图;(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?复习1:用相关系数r可衡量两个变量之间关系.r0,相关,r0相关;r越接近于1,两个变量的线性相关关系,它们的散点图越接近;r,两个变量有关系.新知:1、评价回归效果的三个统计量(1)总偏差平方和:(2)残差平方和:(3)回归平方和:62、相关指数:2R表示对的贡献,公式为:2R2R的值越大,说明残差平方和,说明模型拟合效果.3、残差分析:通过来判断拟合效果.通常借助图实现.残差图:横坐标表示,纵坐标表示.残差点比较均匀地落在的区的区域中,说明选用的模型,带状区域的宽度越,说明拟合精度越,回归方程的预报精度越.例1、关于x与y有如下数据:x24568y3040605070为了对x、y两个变量进行统计分析,现有以下两种线性模型:6.517.5yx,717yx,试比较哪一个模型拟合的效果更好?例2、假定小麦基本苗数x与成熟期有效苗穗y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)画散点图;(2)求回归方程并对于基本苗数56.7预报期有效穗数;(3)求2R,并说明残差变量对有效穗数的影响占百分之几.(参考数据:2115101.51,6746.76,nniiiiixxy521()50.18iiyy,521()9.117iiiyy)71、某班5名学生的数学和物理成绩如下表:学生学科ABCDE数学成绩(x)8876756462物理成绩(y)7865706260求学生A,B,C,D,E的物理成绩的实际成绩和回归直线方程预报成绩的差2iieyy.并作出残差图评价拟合效果.一般地,建立回归模型的基本步骤:1、确定研究对象,明确解释、预报变量;2、画散点图;3、确定回归方程类型(用r判定是否为线性);4、求回归方程;5、评价拟合效果.知识拓展在现行回归模型中,相关指数2R表示解释变量对预报变量的贡献率,2R越接近于1,表示回归效果越好.如果某组数据可以采取几种不同的回归方程进行回归分析,则可以通过比较2R作出选择,即选择2R大的模型.1、两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数2R如下,其中拟合效果最好的模型是.A.模型1的相关指数2R为0.98B.模型2的相关指数2R为0.80C.模型3的相关指数2R为0.50D.模型4的相关指数2R为0.2582、在回归分析中,残差图中纵坐标为A.残差B.样本编号C.xD.ne3、通过12,,,neee来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为A.回归分析B.独立性检验分析C.残差分析D.散点图分析4、2R越接近1,回归的效果.5、在研究身高与体重的关系时,求得相关指数2R,可以叙述为“身高解释了69%的体重变化,而随机误差贡献了剩余”所以身高对体重的效应比随机误差的.6、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ybxa;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值32.5435464.566.5)(4)求相关指数评价模型.x3456y2.5344.59如何建立非线性回归模型?实例一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程.温度/xC21232527293235产卵数y个711212466115325(1)根据收集的数据,做散点图上图中,样本点的分布没有在某个区域,因此两变量之间不呈关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线bxaye的周围(,ab为待定系数).对上式两边去对数,得lny令ln,zy,则变换后样本点应该分布在直线的周围.这样,就利用模型来建立y和x的非线性回归方程.x21232527293235y711212466115325lnzy作散点图(描点(,)iixz)由上表中的数据得到回归直线方程z因此红铃虫的产卵数y和温度x的非线性回归方程为10例1、一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,温度/xC21232527293235产卵数y个711212466115325(散点图如由图,可以认为样本点集中于某二次曲线234ycxc的附近,其中12,cc为待定参数)试建立y与x之间的回归方程.利用线性回归方程探究非线性回归问题,可按“作散点图建模确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.知识拓展非线性回归问题的处理方法:1、指数函数型bxaye①函数bxaye的图像:②处理方法:两边取对数得lnln()bxaye,即lnybxa.令ln,zy把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出,ba.2、对数曲线型lnybxa①函数lnybxa的图像②处理方法:设lnxx,原方程可化为ybxa再根据线性回归模型的方法求出,ab.3、2ybxa型处理方法:设2xx,原方程可化为ybxa,再根据线性回归模型的方法求出,ab.111、两个变量y与x的回归模型中,求得回归方程为0.232xye,当预报变量10x时A.解释变量30yeB.解释变量y大于30eC.解释变量y小于30eD.解释变量y在30e左右2、在回归分析中,求得相关指数20.89R,则A.解释变量解对总效应的贡献是11%B.解释变量解对总效应的贡献是89%C.随机误差的贡献是89%D.随机误差的贡献是0.89%3、通过12,,,neee来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为A.回归分析B.独立性检验分析C.残差分析D.散点图分析4、在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线bxaye的周围,令lnzy,求得回归直线方程为0.252.58zx,则该模型的回归方程为.5、已知回归方程0.5lnln2yx,则100x时,y的估计值为.6、为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;(2)试求出预报变量对解释变量的回归方程.天数x/天123456繁殖个数y/个61225499519012二、独立性检验的基本思想及其初步应用新知:1、分类变量:.2、22列联表:.探究任务:吸烟与患肺癌的关系1、由列联表可粗略的看出:(1)不吸烟者有患肺癌;(2)不吸烟者有患肺癌.因此,直观上课的结论:.2、用三维柱柱图和二维条形图直观反映:(1)根据列联表的数据,作出三维柱形图:由上图可以直观地看出,吸烟与患肺癌.13(2)根据列联表的数据,作出二维条形图:由上图可以直观地看出,吸烟与患肺癌.根据列联表的数据,作出等高条形图:由上图可以直观地看出,吸烟与患肺癌.新知:统计量2K吸烟与患肺癌列联表假设0H:吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例.即因此,越小,说明吸烟与患肺癌之间关系;反之,.2K=14例1吸烟与患肺癌列联表求2K.性别与喜欢数学课程列联表:喜欢数学不喜欢数学总计男3785122女35143178总计72228300求2K.不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计987491996515知识拓展1、分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等.分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义.如用“0”表示“男”,用“1”表示“女”.2.独立性检验的步骤(略)及原理(与反证法类似):反证法假设检验要证明结论A备择假设H1在A不成立的前提下进行推理在H1不成立的条件下,即H0成立的条件下进行推理推出矛盾,意味着结论A成立推出有利于H1成立的小概率事件(概率不超过的事件)发生,意味着H1成立的可能性(可能性为(1-))很大没有找到矛盾,不能对A下任何结论,即反证法不成功推出有利于H1成立的小概率事件不发生,接受原假设1、某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:求2K.不健康健康总计不优秀41626667优秀37296333总计78922100016三、独立性检验的基本思