3.1回归分析的基本思想及其初步应用(三)2()0,()ybxaeEeDe线性回归模型其中,a和b是模型的未知参数.通常e为随机变量,称为随机误差.随机误差e的方差越小,用bx+a预报真实值y的精度越高.2思考产生随机误差e的原因是什么?(1)所用的确定性函数不恰当;(2)忽略了某些因素的影响;(3)存在观察(测量)误差.()iiieybxaiiieyy对于样本点1122(,),(,),...,(,)nnxyxyxy它们的随机误差为12in,,…,其估计量为12in,,…,估计量称为相应于点的残差ie(,)iixy思考?如何发现数据中的错误?如何衡量模型的拟合效果?残差图纵坐标:残差横坐标:样本编号,或身高数据,或体重数据等.结论:(数据正确)如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.带状区域越窄,模拟拟合精度越高,回归方程的预报越精确.思考?如何衡量模型的拟合效果?相关指数22121()1()niiiniiyyRyy越大,模型的拟合越好;越小,模型的拟合越差.结论:2R2R建立回归模型的基本步骤为:(1)确定研究对象,明确变量.(2)画出散点图,观察它们之间的关系.(3)由经验确定回归方程的类型.(4)按一定规则估计回归方程中的参数.(5)得出结果后分析是否有异常.(根据残差图或相关指数估计)例2一只红铃虫的产卵数y和温度x有关.现收集了7组观测数据列于表中:试建立产卵数y与温度x之间的回归方程.温度x/oC21232527293235产卵数y/个711212466115325例2一只红铃虫的产卵数y和温度x有关……解:作散点图050100150200250300350202224262830323436温度/°C产卵数/个例2一只红铃虫的产卵数y和温度x有关……解:作散点图050100150200250300350202224262830323436温度/°C产卵数/个例2一只红铃虫的产卵数y和温度x有关……从散点图看出,两个变量没有线性相关关系,可以认为样本点分布在某一条指数函数型曲线的周围.设此曲线的方程为21cxyce其中和是待定参数.1c2c令则lnzy12(ln,)zbxaacbc——非线性回归方程——对数变换对数变换后的样本数据为:x21232527293235z1.9462.3983.0453.1784.1904.7455.78401234567202224262830323436xz对数变换后的样本数据为:x21232527293235z1.9462.3983.0453.1784.1904.7455.784得到的线性回归方程是0.2723.849zx因此产卵数y关于温度x的非线性回归方程为0.2723.849xye例2一只红铃虫的产卵数y和温度x有关……解:作散点图050100150200250300350202224262830323436温度/°C产卵数/个例2一只红铃虫的产卵数y和温度x有关……从散点图看出,两个变量没有线性相关关系,可以认为样本点集中在某一条二次曲线的附近.设此曲线的方程为234ycxc其中和是待定参数.3c4c——非线性回归方程令则lnzy12(ln,)zbxaacbc——对数变换例2一只红铃虫的产卵数y和温度x有关……从散点图看出,两个变量没有线性相关关系,可以认为样本点集中在某一条二次曲线的附近.设此曲线的方程为234ycxc其中和是待定参数.3c4c——非线性回归方程令则——平方变换2tx34yctc平方变换后的样本数据为:t44152962572984110241225y7112124661153250501001502002503003504005006007008009001000110012001300ty平方变换后的样本数据为:t44152962572984110241225y711212466115325得到的线性回归方程是0.367202.543yt因此产卵数关于温度的非线性回归方程为20.367202.543yx残差比较x21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.000-40.104-58.26577.968(1)e(2)e结论:指数函数型曲线的拟合效果比二次曲线的拟合效果好.相关指数比较结论:指数函数型曲线的拟合效果比二次曲线的拟合效果好.210.98R220.80R