3.1回归分析的基本思想及其初步应用上课课件

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。1、定义:1):相关关系是一种不确定性关系;注对具有相关关系的两个变量进行统计分析的方法叫回归分析。2):如:人的身高与年龄;产品的成本与生产数量;商品的销售额与广告费;家庭的支出与收入等等。对于一组具有线性相关关系的数据1122(,),(,),...,(,),nnxyxyxy回归方程的截距和斜率的最小二乘估计公式分别为:^1122211()(),......(2)()nniiiiiinniiiixxyyxnxybxxxnxy^^,......(1)aybx1111,.nniiiixxyynn其中(,)xy称为样本点的中心。例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。解:1、选取身高为自变量x,体重为因变量y,作散点图:2、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。172.85849.0ˆxy分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量.ˆ学身高172cm女大生体重y=0.849×172-85.712=60.316(kg)2.回归方程:1.散点图:3、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a描述它们关系。y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差。Y的值由x和e共同决定,即y只能解释部分y的变化,因此称x为解释变量,把y称为预报变量.函数模型:abxy回归模型:eabxy线性回归模型的完整表达式:𝑦=𝑏𝑥+𝑎+𝑒𝐸𝑒=0,𝐷𝑒=𝜎2对于样本点(𝑥1,𝑦1),(𝑥2,𝑦2),⋯,(𝑥𝑛,𝑦𝑛),随机误差为:𝑒𝑖=𝑦𝑖−𝑏𝑥𝑖−𝑎,𝑖=1,2,⋯,𝑛.其估计值为:𝒆𝒊=𝒚𝒊−𝒚𝒊=𝒚𝒊−𝒃𝒙𝒊−𝒂,𝒊=𝟏,𝟐,⋯,𝒏.𝒆𝒊称为相应于点(𝑥𝑖,𝑦𝑖)的残差.残差图:利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差𝒆-6.3732.6272.419-4.6181.1376.627-2.8830.382身高与体重残差图22121()11()niiiniiyyRyy残差平方和。总偏差平方和1)反映回归直线的拟合程度2)取值范围在[0,1]之间3)R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差4)判定系数等于相关系数的平方,即R2=(r)21354总计0.36128.361残差变量0.64225.639随机误差比例平方和来源表1-3从表3-1中可以看出,解释变量对总效应约贡献了64%,即R2≈0.64,可以叙述为“身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。所以,身高对体重的效应比随机误差的效应大得多。我们可以用相关指数R2来刻画回归的效果,其计算公式是22121()11()niiiniiyyRyy残差平方和。总偏差平方和一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。练习、在一段时间内,某商品的价格x元和需求量Y件之间的一组数据为:求出Y对X的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753列出残差表为521ˆ()iiiyy0.3,521()iiyy53.2,5221521ˆ()1()iiiiiyyRyy0.994因而,拟合效果较好。ˆiiyyiyy00.3-0.4-0.10.24.62.6-0.4-2.4-4.4例2:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据,试建立y与x之间的回归方程温度x21232527293235产卵数y711212466115325解:1)作散点图;050100150200250300350202224262830323436温度产卵数从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。解:令则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并画出x与z的散点图z=lnyx和z之间的关系可以用线性回归模型来拟合z=ax+b+e2cx1用y=ce模型;1)x21232527293235z1.9462.3983.0453.1784.194.7455.784z01234567010203040z2)用y=c3x2+c4模型,令,则y=c3t+c4,列出变换后数据表并画出t与y的散点图2t=x散点并不集中在一条直线的附近,因此用线性回归模型拟合他们的效果不是最好的。t44152962572984110241225y711212466115325y0501001502002503003500200400600800100012001400yˆˆ(1)0.272x-3.843(2)2y=e,y=0.367x-202.54ˆˆˆˆ(1)(1)0.272x-3.843iii(2)(2)2iiie=y-y=y-e,(i=1,2...7)e=y-y=y-0.367x+202.54,残差表编号1234567x21232527293235y711212466115325𝑒(1)0.52-0.1671.76-9.1498.889-14.15332.928𝑒(2)47.719.397-5.835-41.003-40.107-58.26877.965非线性回归方程二次回归方程残差公式:

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功