数学建模电子教案第7次课课题第四章概率统计模型§4.1多元线性回归分析§4.2决策模型教学内容1.多元线性回归分析2.随机决策模型的基本原理与解法,及应用举例。教学目标1.掌握多元线性回归分析的基本原理和建模的基本过程。2.能够运用多元回归分析模型解决实际问题并进行模型分析。3.掌握决策模型的计算方法,能够运用决策模型解决实际问题并进行模型分析教学重点1.多元线性回归分析的基本原理,基本过程及其计算方法。2.掌握随机决策模型的基本原理和建模的基本过程。3.掌握决策模型的计算方法。4.实际建模训练教学难点1.多元线性回归分析的基本原理及其数值计算、运用模型解决实际问题2.随机决策模型的基本原理及其决策准则的确定双语教学内容、安排Linearregressionanalysis线性回归分析Multivariateregressionanalysis多元回归分析decisionanalysis决策分析Decisionrule决策规则Decisiontree决策树教学手段、措施采用多媒体教学的形式。以电子课件为主,粉笔黑板相结合为辅,使学生能够充分利用课堂有效的时间了解尽可能多的相关知识,并结合启发式教学.作业、后记教学过程及教学设计备注§4.1多元线性回归分析一.问题提出水泥凝固时放出热量问题:某种水泥在凝固时放出的热是)/(gJy与水泥中下列4种化学成分有关。3213:OAlCaOx的成分(%)223:SiOCaOx的成分(%)333234:OFeOAlCaOx的成分(%)242:SiOCaOx的成分(%)现记录了13组数据,列在表4-1中,根据表中的数据,试研究y与4321,,,xxxx四种成份的关系。数学建模电子教案第7次课表4-1编号(%)1x(%)2x(%)3x(%)4x)/(gJy172666078.52129155274.531156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4在现实生活中,变量与变量之间经常存在一定的关系,一般来说,变量之间的关系可以分为两大类,一类是确定性的关系,这种关系通常用函数来表示。例如,已知圆的半径r,那么圆的面积S与半径r的关系就可用函数关系:2rS来表示,这时如果取定了r的值,S的值就会完全确定了。另一类是非确定性关系,例如,人的体重与身高之间的关系就是非确定性关系,一般来说,身高越高,体重越大,但是身高相同的人体重往往是不相同的。再如,钢材的强度与钢材中含某种元素的含量,纤维的拉伸倍数与强度,降雨量、气温、施肥量与农作物的产量等均属于这种关系。变量之间的这种非确定性关系通常称为相关关系。二.多元线性回归分析模型为了研究方便,我们考虑一个变量受其他变量影响时,把这变量称为因变量,记为Y,其他变量称为自变量,记为X,这时相关关系可记作xfY(4-1)其中xf为当xX时,因变量Y的均值,即xXYExf|称xf为Y对X的回归函数,为Y与xf的偏差,它是随机变量,并假定0E。回归函数可以是一元函数,也可以是多元函数,即),,,(21mxxxfY(4-2)其中),,,|(),,,(221121mmmxXxXxXYExxxf为m元回归函回归分析就是数理统计中研究相关关系的一种数学方法,它就是通过大量的试验或观测,发现变量之间关系的统计规律。数学建模电子教案第7次课数,统称为多元回归函数。若回归函数),,,(21mxxxf中,1m且),,,(21mxxxf是线性函数,则称)(xf为是一元线性回归函数;1m且),,,(21mxxxf是多元线性函数,则称其为多元线性回归函数;若回归函数),,,(21mxxxf是非线性函数,则称其为非线性回归函数。对非线性回归,经常采用线性化的方法来处理。所以,目前研究最多的是线性回归问题,且假定mXXX,,,21和Y均服从正态分布。回归分析的任务就是要求出满足式(4-2)的回归函数),,,(21mxxxf,从而对所研究的相关关系做出所需的预测和控制。多元回归模型的应用是相当广泛的,例如,某种商品的销售量可能受收入水平、风俗习惯、产品质量、价格、宣传广告等多种因素的影响;某种产品的质量可能受生产该产品时的温度、湿度、压力、原材料的质量和有害成分的含量等影响;工人的劳动生产率可能受学历、智力水平、情绪的稳定性和才能等因素的影响;某城市的用水量可能与该城市的人口数及工业总产值有关。诸如此类的关系,可以通过多元回归分析模型进行研究。例如,在水泥凝固时放出热量问题中,可建立线性回归模型443322110xbxbxbxbbY(4-3)其中2)(,0)(DE。而43210,,,,bbbbb和2是未知参数,为了估计这些参数,将表4-1的值代入模型(4-3),得线性模型)13,,1,(,),(,0)(2443322110jiCovExbxbxbxbbyijjiiiiiiii(4-4)一般地,多元线性回归模型可表示为:443322110xbxbxbxbbY(4-5)其中,mxxx,,21是自变量,0b为常数,mbbb,,,21为回归系数,mbbbb,,,,210皆为未知,统称mbbbb,,,,210为回归参数,一旦回归参数确定,则多元线性回归模型就完全确定,一般假定随机误差),0(~2N。为了得到回归参数的估计值,就要对变量进行观测,假设对变量的)(mnn次独立观测数据为:},,1),,,,,{(21nixxxyimiii,则这些观测数据应满足式(4-5),即有nnnnnnxbxbxbxbbyxbxbxbxbbyxbxbxbxbby443322110224423322221102114413312211101(4-6)其中),,1,(,),(,0)(2njiCovEijjii,若记TnTmTnbbbyyyY),,,(,),,,(,),,,(211021,)1(212222111211111mnnmnnmmxxxxxxxxxX则多元线性回归的数学模型式(4-6)可以写成矩阵形式数学建模电子教案第7次课XY(4-7)其中nIVarE2)(,0)(。1.参数的最小二乘估计为了获得参的估计,我们采用最小二乘法,即选择,使)()()(12XYXYQTTnii(4-8)达到最小。将Q对求导数并令其为零,得0)(2XYXQT即YXXXTT。记XXLT,则YXLT(4-9)方程(4-9)称为正规方程,其中X为)1(mn阶矩阵,一般假定1)(mXrank,由线性代数理论可知,XXLT为满秩矩阵,它的秩1)(mLrank,则正规方程(4-9)有唯一解,记作YXLT1(4-10)我们来证明(4-10)式中为参数向量的最小二乘法估计量,现用矩阵形式来叙述其证明步骤。从式(4-8)知,对任意的)()(XYXYQT则有)()()()()()()()()()()]()[()]()[()()(XYXYXYXXXYXXXYXYXXYXXYXYXYTTTTTTTTT上述证明过程中应用了如下结果:0))(())(()()(0)]([)]([)()(XYXYXXXYXXYXXXXTTTTTTTT至此,在0L时,证明了式(4-10)中的是的最小二乘法估计量。在实际工作中,常称mmxbxbby110为经验线性回归方程。2.最小二乘法估计量的性质首先我们在假定nIVarE2)(,0)(的条件下,探讨一下由式(4-10)确定的最小二乘法估计最的性质(1)是的线性无偏估计量。证:由于YXLT1,每一个ib都是nyy,,1的线性组合,因而ib是ib的线性估计量,此时称是的线性估计量。数学建模电子教案第7次课XXLEXXLXEXLYEXLYXLEETTTTT11111)]([)()()()(即iibbE)(,),,1(mi。(2)的协方差矩阵为12L,即)1,,2,1,0,(,),()(22mjicbbCovcbDijjiiii其中)1()1(1)(mmijcCL证:记TXLB1,则BY121212)(})]()][({[})]()][({[),(LXLIXLBIBBYEYYEYEBYBEBYYBEBYECovTTnTTnTTT(3)是的最小方差线性元偏估计,即在所有线性元偏估计类中,有且只有使其方差达到最小。3.多元线性回归方程的显性检验从上面的参数估计过程可以看出,对于一批观察数据),,,,(21imiiixxxyni,,1不论它们是否具有线性关系,总可以利用最小二乘法建立起多元线性回归方程mmxbxbxbby22110但是Y与mxxx,,,21是否确实存在相关关系呢?回归方程的效果如何呢?这就要进行“整个回归效果是否显著”的检验。当021mbbb时,y与mxxx,,,21没有关系,回归模型没有意义,于是我们要检验0H:021mbbb是否成立。若0H成立,则mxxx,,,21对y没有影响;反之,若0H不成立,则mxxx,,,21对y有影响,此时y与mxxx,,,21的线性关系显著,也称为整个回归效果显著。但要注意,即使整个回归效果是显著的,y也可能只与某几个ix关系密切(相应的ib显著不为零),而与另几个ix关系不密切(相应的ib为零)。这就是说,多元线性回归除了首先要检验“整个回归是否显著”外,还要逐个检验每一个ib是否为零,以便分辨出哪些ix对y并无显著影响,最后,还要对各个ib作出区间估计。为了进行检验和区间估计,可以证明以下结论成立:(1))1(~12mnQ,则Q与mbbb,,21独立。记211)(,1yylynyniiyynii,则称yyl为总变差或称为y的离差平方和。yyl可进行如下分解:UQyyyyliiiyy22)()(这时)(iiyyQ称为残差平方和。2)(iiyyU称为回归平方和。记1mnQs,称其为剩余标准差或估计的标准差。性质2告诉我们,用最小二乘法求出的诸回归系数mbbbb,,,210之间存在相关性,进一步可以证明。数学建模电子教案第7次课由于yyl不变,当然希望Q越小越好,即U越大越好,因此,定义复相关系数。yyyylQlUR1当观察值iy全都与回归值iy吻合时,1,0RQ;当yyiˆ时,0,RlQyy在一般情况下,R的数值在0和1之间。复相关系数R的定义,类似于两个变量时的相关系数的定义,但要注意,复相关系数R只取下值。在两个变量时,有正相关与负相关之分,在多个变量时,就没有这一说了,所以复相关系数R只取值。(2)在021mbbb的条件下,)(~22mU且U与Q独立,因此)1,(~11)1(22mnmFRRmmnmnQmUF(3))1(~ˆmntscbbtiiiiimimnFscbbmnQcbbFi