第一讲简单线性回归模型.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一讲简单线性回归模型建立两个变量X和Y间的关系模型,推断变量Y如何依赖于变量X,从而可以用X预测Y.例:广告费用和销售量公司的市值与CEO的年薪原始股的销售数量和期望价格证券市场收益率与某只股票的收益率商品价格和销售量装配线的速度和次品数量年收入与信用卡消费金额年龄与手机话费连锁店附近的人流与店的利润气温与滑雪场门票销量………3阿姆德比萨饼连锁店的问题阿姆得(Armand)比萨饼连锁店坐落在美国的5个州内,它们通常的位置是在大学旁边,而且管理人员相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是10家连锁店附近大学的学生人数和季度销售收入的数据:根据以上数据,你能否判断学生人数(x)如何影响到销售收入(y)?根据一家连锁店附近大学的人数,你能够预测该家连锁店的季度销售收入吗?连锁店12345678910学生人数/千人2688121620202226销售额/千元58105881181171371571691492024描述学生人数和销售收入之间的关系协方差(315.56)和相关系数(0.95),散点图;根据这些你可以得到什么结论?050100150200250051015202530学生人数/千人季度销售收入/千美圆5TypesofRegressionModelsPositiveLinearRelationshipNegativeLinearRelationshipRelationshipNOTLinearNoRelationship6模型的引入对于给定的学生人数,销售收入是唯一确定的一个数,还是一个随机变量?学生人数的变化如何影响到销售收入?使用的模型7简单线性回归模型XY10Y的截距斜率随机误差因变量(响应变量,被预测变量)自变量(解释变量,预测变量)8i=随机误差YX观测值观测值YX01YXiii019模型的假定1)E()=0;(E(y)=x)2)对于所有的x,Var()=.3)是服从正态分布N(0,)的.4)对于不同的x,是相互独立的.这些假定意味着什么?10X1X2XYfy服从在回归直线附近的正态分布对每个x值,y分布的方差相同.回归直线11估计的回归方程如何估计参数和?最小二乘准则xbbyxbybnxxnyxyxbbbxyiiiiiiinii101022110102101,ˆ,/)(/)(),()(min10估计的回归直线的点估计和为得出达到最小值点求解12阿姆德连锁店的回归直线估计参数b1=5b0=60回归直线你对系数的含义怎么理解?050100150200250051015202530学生人数/千人季度销售收入/千美圆xy560ˆ13回归方程的判定系数y的总变差的分解定义判定系数R2=SSR/SST.判定系数的含义是什么?阿姆德比萨饼连锁店的例子:R2=0.9027.判定系数和相关系数的关系。SSRSSEyyyyyyyyyySSTiiiiiii2222)ˆ()ˆ()ˆˆ()(14CoefficientsofDetermination(r2)andCorrelation(r)r2=1,r2=1,r2=.8,r2=0,YXYXYYXr=+1r=-1r=+0.9r=0X15的估计理解误差平方和的一个无偏估计s2=MSE=SSE/(n-2)2102)()ˆ(iiiixbbyyySSE16关于回归系数的假设检验检验统计量给定显著水平时,选择拒绝域0:0:1110HH的标准误差是其中12121)(11bxxsssbtinibb)2()2(2/2/nttntt或者17关于回归方程整体的检验变量x的确对y有解释作用吗?(H0:=0)检验统计量F=MSR/MSE其中MSR=SSR/自变量的个数拒绝域FF(1,n-2)18回归方程的方差分析表方差来源平方和自由度均方F值回归SSR1MSRMSR/MSE误差SSEn-2MSE总计SSTn-119阿姆德连锁店的情形使用EXCEL对阿姆德连锁店的数据建立模型,并进行分析,基于EXCEL的输出结果,你对该模型有些什么认识?20使用你建立的模型(一)问题一:对于那些附近学校人数是1万的连锁店,他们的季度销售收入一定是一样吗?这种连锁店平均的季度销售收入是多少?你能够给出一个估计吗?问题二:某家连锁店附近学生总数约1万人,你能够给出它的季度销售收入的一个估计值吗?点估计:11021使用你建立的模型(二)对于问题一,如何得到这种连锁店平均销售收入的一个95%的置信区间?piippppyppnxxxxnyyyppppppsntyyEssyENyyExbbyxˆ2//)()(122ˆ2ˆ2ˆ10)2(ˆ1)(),),((ˆ)(ˆ,222置信区间是的的估计是其中的分布是的无偏估计。是对于给定的(98.58,121.42)22使用你建立的模型(三)对于问题二,如何给出一个预测区间,使得这家连锁店的季度销售收入落在该区间里面的概率是1-?nxxxxnindindppiipsssntyy/)()(1222/2221)2(ˆ1其中的预测区间是的概率为(76.13,143.87)23两种区间的关系xp预测区间边界均值的置信区间24对模型作进一步的探讨回忆我们使用的模型;对模型作了什么假定?逻辑问题:如何判断我们的问题符合这些假定?分析的方案:残差分析niyyiiii,2,1ˆˆ个残差:第25通过残差你能够了解什么?对误差项作的假定适合吗?1)等方差;2)相互独立;3)正态分布;哪些数据属于异常值?哪些观测属于对回归模型有很大影响的?26残差图关于自变量的残差图;关于因变量的预测值的残差图;学生化的标准残差图:22)()(1ˆˆ,1/ˆˆStd_xxxxniiiiiiiihhsssi其中个标准化残差第27如何分析残差图如果模型是符合的,那么残差图上的散点应该落在一条水平带中间,除此之外,残差图上的点不应呈现出什么规律性。使用EXCEL对阿姆德连锁店的数据产生残差图。你能得到什么结论?28非线性线性XXˆˆ29方差不等方差相等XXˆˆ30不独立独立XXˆˆ31一个残差不独立的例子-0.8-0.6-0.4-0.200.20.40.60.832异常值的检测异常值是与其它点显示的趋势不合的点。检查它是否可能是被错误输入的数据。检测异常值的方法:散点图;利用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。33带有异常值的散点图示例010203040506070800123456734检测有影响的观测值什么是有影响的观测?观测的杠杆率:高杠杆率的点意味着它的自变量距离别的自变量的值距离较大的点。识别影响的观测:杠杆率6/n的观测.强影响点最常用的值是Welsch-Kuh诊断统计量或者Cook统计量nihixxxxniii,2,122)()(1个观测的杠杆率第35对于建立简单线性回归模型,你知道了些什么?什么情况下需要建立简单线性回归模型?对模型的假定有哪些?如何估计模型的参数?如何检验模型及其参数的显著性?如何使用你建立的模型进行预测?如何分析你的问题符合对模型做的假定?

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功