徐闻中学郑廷状徐闻中学郑廷状数学3——统计内容1.画散点图2.了解最小二乘法的思想3.求回归直线方程y=bx+a4.用回归直线方程解决应用问题徐闻中学郑廷状nn(x-x)(y-y)xy-nxyiiiii=1i=1ˆb==,nn222(x-x)x-nxiii=1i=1ˆˆa=y-bx.nn11x=x,y=y.iinni=1i=1其中最小二乘法:ˆˆˆybxa(,)xy称为样本点的中心。徐闻中学郑廷状2、求回归直线方程的步骤:1111(1),nniiiixxyynn求211(2),.nniiiiixxy求(3)代入公式1122211^()(),(),......(1)nniiiiiinniiiixxyyxnxybxxxnxaybxy(4)写出直线方程为y=bx+a,即为所求的回归直线方程。^徐闻中学郑廷状某大学中随机选取8名女大学生,其身高和体重数据如下表所示.编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.案例1:女大学生的身高与体重徐闻中学郑廷状样本点呈条状分布,身高和体重有较好的线性相关关系,因此可以用线性回归方程来近似的刻画它们之间的关系.解:①选取身高为自变量x,体重为因变量y,②作散点图:徐闻中学郑廷状121()()ˆ()niiiniixXyYbXXˆaYbX由得:ˆˆ0.849,85.712ba故所求线性回归方程为:ˆ0.84985.712yx因此,对于身高172cm的女大学生,由线性回归方程可以预报其体重为:ˆ0.84917285.71260.316()ykgˆ0.849b是斜率的估计值,说明身高x每增加1个单位时,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?徐闻中学郑廷状相关系数相关系数的性质:(1)|r|≤1.(2)|r|越接近于1,相关程度越强;|r|越接近于0,相关程度越弱.niii=1nn22iii=1i=1(x-x)(y-y)r=(x-x)(y-y)如何描述两个变量之间线性相关关系的强弱?[0.751],[1,0.75],[025,0.25],rrr当,表明两个变量正线性相关很强;当表明两个变量负线性相关很强;当.表明两个变量线性相关性较弱。问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?徐闻中学郑廷状相关关系的测度(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加徐闻中学郑廷状某大学中随机选取8名女大学生,其身高和体重数据如下表所示.编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.故所求回归方程为:ˆ0.84985.712yxr=0.7980.75表明体重与身高有很强的线性相关性,从而说明我们建立的回归模型是有意义的.徐闻中学郑廷状例《导与练》P55例2徐闻中学郑廷状探究P83:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重在60.316kg左右。从散点图看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a描述它们关系。我们可以用下面的线性回归模型来表示:y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差。徐闻中学郑廷状思考P83产生随机误差项e的原因是什么?随机误差e的来源(可以推广到一般):1、其它因素的影响:影响体重y的因素不只是身高x,可能还包括遗传基因、饮食习惯、生长环境等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高y的观测误差。徐闻中学郑廷状线性回归模型y=bx+a+e与我们了的一次函数模型不同之处在于多了一个随机误差e,y的值有它们一起决定解释变量x预报变量y随机误差e徐闻中学郑廷状在上面的例子中我们假设体重与身高没有关系即:体重都为:kgy5.45则,她们身高-体重的散点图应该在一条水平直线上:40455055606570150155160165170175180徐闻中学郑廷状事实上,并非如此,它们和45.5之间存在差别,这时我们就引入随机误差,利用随机误差和解释变量共同来预报变量y21)(niiyy把所有的这种效应利用总体偏差平方和合并成一个数总体偏差平方和解释变量随机误差??徐闻中学郑廷状我们现在要弄清楚这个总的效应中,有多少来自解释变量,有多少来自随机误差,即:哪一个效应起决定性作用?根据我们在《数学3》总的知识,我们知道:每个点与回归方程的差异我们可以用来表示,记作:(残差(residual))它刚好可以表示随机误差的效应。iiyyˆiiiyyeˆˆ徐闻中学郑廷状为了回归的准确和计算的方便我们引入残差平方和(residualsumofsquares)它代表随机误差的效应21)ˆ(niiiyy求出了随机误差的效应后,我们就比较容易得到解释变量的效应了。同学们知道怎样求吗?解释变量的效应=总体偏差平方和-残差平方和回归平方和(regressionsunofsquares)徐闻中学郑廷状有了这些评估效应的方法,我们就可以利用它们来刻画总体效应,事实上,为了将我们的计算简化,我们又引入相关指数R2来刻画回归的效果:niiniiyyyyR12122)()ˆ(1残差平方和总体偏差平方和显然,当R2的值越大,说明残差所占的比例越小,回归效果约好;反之,回归效果越差。一般的,当R2越接近于1,说明解释变量和预报变量之间的相关性越强,如果同一个问题,采用不同的回归方法分析,我们可以通过选择R2大的来作为回归模型徐闻中学郑廷状一般方法:1.利用散点图观察两个变量是否线性相关2.利用残差来判断模型拟合的效果(残差分析)利用残差图来分析数据,对可疑数据(残差较大的数据)进行重新调查,有错误就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。徐闻中学郑廷状残差图:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差-6.3732.6272.419-4.6181.1376.627-2.8830.382-8-6-4-2024680246810问题数据越窄越好徐闻中学郑廷状例《导与练》P55例3徐闻中学郑廷状建立回归方程的一般步骤:1.确定变量2.制作散点图,观察是否相关3.确定回归方程的类型(线性回归、指数回归、对数回归等)4.利用公式确定回归参数5.利用残差分析回归是否合理或模型是否合适徐闻中学郑廷状例2一只红蛉虫的产卵数y与温度x有关,现收集了7组数据,请建立y与x建德回归方程温度x/℃21232527293235产卵数y/个711212466115325解1.制作散点图050100150200250300350202224262830323436℃个徐闻中学郑廷状2.观察模拟样本点不能直接利用线性回归,根据我们的函数知识,它应该是一个指数模型:y=c1ec2x其中c1c2为参数或二次函数模型,根据对数回归知识我们知道:令z=lny将其变换到样本点的分布直线z=a+bxx21232527293235z1.9462.3983.0453.1784.1904.7455.78401234567202224262830323436温度产卵数的对数z=0272x-3.843则:y=e0.272x-3.843徐闻中学郑廷状2.我们认为样本点集中在某二次函数y=c3x2+c4附近,c3c4为参数,则,令t=x2则:y=c5t+c6其中c5c6为参数t44152962572984110241225y7112124661153250501001502002503003504005006007008009001000110012001300温度的平方产卵数y=0.367t-202.54不适合利用线性回归为什么这样说?徐闻中学郑廷状4.残差分析:X21232527293235合计(残差平方和)R2Y711212466115329e(1)0.518-0.1671.760-9.1498.889-14.15332.9281450.6730.98e(2)47.69319.397-5.835-41.003-40.107-58.26877.96515448.4320.80由图的对比可以看出,指数模拟优于线性模拟徐闻中学郑廷状回归分析基本思想及其初步应用基本思想实际应用回归分析相关性方法分析回归优劣分析总偏差平方和残差平方和回归平方和