问题1:正方形的面积y与正方形的边长x之间的函数关系是y=x2确定性关系问题2:某水田水稻产量y与施肥量x之间是否-------有一个确定性的关系?例如:在7块并排、形状大小相同的试验田上进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:施化肥量x15202530354045水稻产量y330345365405445450455复习:变量之间的两种关系自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。1、定义:1):相关关系是一种不确定性关系;注对具有相关关系的两个变量进行统计分析的方法叫回归分析。2):2、现实生活中存在着大量的相关关系。如:人的身高与年龄;产品的成本与生产数量;商品的销售额与广告费;家庭的支出与收入。等等探索:水稻产量y与施肥量x之间大致有何规律?1020304050500450400350300·······发现:图中各点,大致分布在某条直线附近。探索2:在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢?xy施化肥量水稻产量施化肥量x15202530354045水稻产量y330345365405445450455散点图1020304050500450400350300·······xy施化肥量水稻产量n2iii=1Q(a,b)=(y-bx-a)取最小值时,a,b的值.ii(x,y)ii(x,y)|ii|y-y推导过程请阅读P80最小二乘法:ˆˆˆy=bx+a(x,y)称为样本点的中心。ˆˆˆn(x-x)(y-y)iii=1b=n2(x-x)ii=1a=y-bx.nn11其中x=x,y=y.iinni=1i=1niii=1n22ii=1xy-nxy=,x-nx3、对两个变量进行的线性分析叫做线性回归分析。回归直线方程:ˆˆˆnniiiii=1i=1nn222iii=1i=1(x-x)(y-y)x-nxyb==,(x-x)x-nxa=y-bxy2.相应的直线叫做回归直线。1、所求直线方程叫做回归直---线方程;其中ˆˆˆy=bx+a相关系数•1.计算公式•2.相关系数的性质•(1)|r|≤1.•(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.•问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?niii=1nn22iii=1i=1(x-x)(y-y)r=(x-x)(y-y)负相关正相关n(x-x)(y-y)iii=1r=nn22(x-x)×(y-y)iii=1i=1相关系数r>0正相关;r<0负相关.通常,r∈[-1,-0.75]--负相关很强;r∈[0.75,1]—正相关很强;r∈[-0.75,-0.3]--负相关一般;r∈[0.3,0.75]—正相关一般;r∈[-0.25,0.25]--相关性较弱;·······1020304050500450400350300xy施化肥量水稻产量施化肥量x15202530354045水稻产量y330345365405445450455解:1.画出散点图2.求出b=4.75,a=256.793.写出回归方程ˆy=4.75x+256.794.计算相关系数r=0.9718ˆ1.234ˆ1.235ˆ1.230.08ˆ0.081.23AyxByxyxyx、、C、D、1、已知回归直线斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为()C练习:200703262、某考察团对全国10个城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,回归方程y=0.66x+1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为…………()A.83%B.72%C.67%D.66%A.13,81所示重数据如表其身高和体名女大学生从某大学中随机选取例5943616454505748kg/170155165175170157165165cm/87654321体重身高编号,172.cm求根据女大学生的身高预报体重的回归方程并预报一名身高为的女大学生的体重,,.():xy解由于问题中要求根据身高预报体重因此选取身高为自变量真实体重为因变量作散点图图3.1-13.11图.,,,11.3画它们之间的关系刻性回归方程以用线因此可线性相关关系较好的重有比高和体身样本点呈条状分布中可以看出从图.712.85xˆ849.0yˆ.849.0bˆ,712.85aˆ,21于是得到回归方程可以得到和根据探究中的公式.kg316.60712.85172849.0y,cm172,预报其体重为由回归方程可以的女大学生对身高为所以3.11图?,?kg316.60cm172其原因是什么不是如果吗是女大学生的体重一定的身高探究,17260.31660.316.3.12.cmkgkg显然身高的女大学生的体重不一定是,但一般可以认为她的体重接近于图中的样本点和回归直线的相互位置说明了这一点4045505560657015015516016517017518021.3图从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系。这时我们用下面的线性回归模型来描述身高和体重的关系:y=bx+a+e其中a和b为模型的未知参数,e是y与之间的误差。通常e称为随机误差。2它的均值E(e)=0,方差D(e)=σ0ybxa2,:0,ybxaeEeDe线性回归模型2,,,.ˆ,.eybxayyy在线性回归模型中随机误差的方差越小通过回归直线预报真实值的精度越高随机误差是引起预报值与真实值之间的误差的原因之一其大小取决于随机误差的方差 ybxaey其中a和b为模型的,是与之间的误差。通常e称为未知参数随机误差。2,,,.ˆ,.eybxayyy在线性回归模型中随机误差的方差越小通过回归直线预报真实值的精度越高随机误差是引起预报值与真实值之间的误差的原因之一其大小取决于随机误差的方差2,,,.ˆ,.eybxayyy在线性回归模型中随机误差的方差越小通过回归直线预报真实值的精度越高随机误差是引起预报值与真实值之间的误差的原因之一其大小取决于随机误差的方差2,,,.ˆ,.eybxayyy在线性回归模型中随机误差的方差越小通过回归直线预报真实值的精度越高随机误差是引起预报值与真实值之间的误差的原因之一其大小取决于随机误差的方差2ˆ,,,,..eayybyyx在线性回归模型中随机误差的方差越小通过回归直线预报真实值的精度越随机误差是引起预报值与真实值之间的误差的原因之一其大小取决于随机误差的方差高 ybxaey其中a和b为模型的,是与之间的误差。通常e称为未知参数随机误差。2,:0,ybxaeEeDe线性回归模型2,:0,ybxaeEeDe线性回归模型2,:0,ybxaeEeDe线性回归模型2,:0,ybxaeEeDe线性回归模型为了衡量预报的精度,需要估计的σ2值?(1,2,....)ˆˆˆˆˆiiiiiiybxainyyybxaiiiii随机误差e其估计值为:ee称为相应点(x,y)的残差22111ˆˆˆˆ(,)(2)22ˆˆ(,)niieQabnnnQab类比样本方差估计总体方差的思想称为残差平方和21(,)()niiiQyx(1)根据散点图来粗略判断它们是否线性相关。(2)是否可以用线性回归模型来拟合数据(3)通过残差来判断模型拟合的效果这种分析工作称为残差分析1,2,3,,ˆˆˆˆ.....neeee残差-4000-20000200040006000024681012残差残差分析:使学生了解残差图的制作及作用。P84•坐标纵轴为残差变量,横轴可以有不同的选择;•若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域;•对于远离横轴的点,要特别注意。•错误数据•模型问题身高与体重残差图异常点