单变量回归(eviews).

zoese
1 ℃
2020-01-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

8.1单变量回归GEAppliancesCopyright1999修订版101999年1月11日第8部分:单变量回归8.2单变量回归GEAppliancesCopyright1999修订版101999年1月11日目的：介绍作为实证模型建立方法的回归分析，以模拟具有连续响应变量“Y”的过程。（定义：‘实证’－基于观测值或事实）目标：•确定何时使用回归，以及为什么使用。•理解使用回归方法构建一个连续“X”变量与连续“Y”响应变量的关系模型。•在Minitab中应用回归方法，根据数据拟合一条直线。在给定X的情况下，用拟合的直线方程式预测“Y”。÷•了解确定模型是否为所给定数据的最佳模型的数学方法。•说明并理解确定模型是否为所给定数据的最佳模型的图形方法。第8部分-单变量回归8.3单变量回归GEAppliancesCopyright1999修订版101999年1月11日什么是回归？描述“Y”与“X”关系的数学方法－创建工序的“模型”。Y=b0+b1x+e其中：b0为Y截距b1为直线斜率e为模型的误差项为何要使用回归？•寻找潜在的关键少数“X”•预测“Y”•优化“Y”•确定如何设置“X”以优化“Y”何时使用回归？•筛选被动数据（历史或基准数据），以找到潜在的关键“X”危险!不要使用被动数据得出最终结论。还要继续进行DOE（试验设计）…记住被动数据是历史数据；这种关系当前可能并不存在。分析DOE（试验设计）的结果回归…寻找“Y”与“X”关系的方法回归是一种必须谨慎使用的强有力的工具。8.4单变量回归GEAppliancesCopyright1999修订版101999年1月11日单变量回归我们可能对独立变量（X）和响应变量之间的关系感兴趣。表示它们之间关系的散点图可能如下所示：假定真正的关系为：•线性关系存在•“b0”（常数）和“b1”（系数）为固定、但未知的参数•“X”为独立变量•“Y”为观测的响应值•“e”为误差。常见的误差假设有：–平均值为0.0–不相关–正态分布–误差不存在型式的分布Yi=bo+b1*Xi+ei8.5单变量回归GEAppliancesCopyright1999修订版101999年1月11日收集数据以估测方程的最佳方法是什么？“b0”和“b1”的估测值是多少？这是否是正确的函数形式（直线）？关系是否具有统计显著性（不是偶然出现）？误差“ei”有多大？与拟合方程相关的问题有：8.6单变量回归GEAppliancesCopyright1999修订版101999年1月11日收集数据要使估计的斜率误差最小，将观测值的1/2置于“X”的下限，将其它1/2置于上限，并使独立变量在广范围内取值。这适用于Y值高度变化、独立变量的范围较小、而且它们之间的关系预期为直线的情形。-11xy要确定关系的形式(是直线还是曲线？),采用两级以上的独立变量。如果数据高度变化，常常采用3个级别。-11xy0最好是以随机顺序收集数据，而不要以低值的“X”开始然后逐渐递增－－另一个随时间变化的可能影响工序。8.7单变量回归GEAppliancesCopyright1999修订版101999年1月11日Minitab的单变量回归在Minitab中打开新工作表，并在C1和C2中输入以下数据：举例:您在尽力优化油漆烤箱的性能。一种理论称鼓风机风扇速度影响油漆中溶剂的蒸发。您在尽力通过下列数据证明这种关系的存在。8.8单变量回归GEAppliancesCopyright1999修订版101999年1月11日看上去是线性!!!1)始终首先将数据制图GraphPlot单击“OK”运行8.9单变量回归GEAppliancesCopyright1999修订版101999年1月11日2)运行数据的回归分析自变量单击‘Graphs’单击‘Storage’StatRegressionRegression...(参见下页的子对话框）并8.10单变量回归GEAppliancesCopyright1999修订版101999年1月11日此对话框用于生成残差(误差)图－采用这些图形检验您的模型中有关误差的假设单击此框，指明您想看的图形单击‘OK’,然后单击对话框中的‘Storage’按钮单击‘Fits’和‘Residuals’，以在数据窗口存储信息点击‘OK’两次8.11单变量回归GEAppliancesCopyright1999修订版101999年1月11日“X”变量的p值-速度Ho:斜率=0Ha:斜率=0或者，另一种表达方式：Ho:“X”不显著Ha:“X”显著会话窗口包含分析结果...接受Ha无法拒绝Ho关于会话窗口输出结果的进一步描述，可参见附录。常数的p-值H0：直线通过原点(0,0)…(0速度=0蒸发)Ha：直线不通过原点(0,0)…(“Ctrl-M”移至会话窗口8.12单变量回归GEAppliancesCopyright1999修订版101999年1月11日s:残差(误差)的标准差。残差为观测值－预测值。换句话说，指观测点至回归方程式中描述的拟合线的距离。(对于优秀的模型，此值应较小)s=MS(error)1/2R-Sq:由拟合线“解释”的总变差的百分数。由“X”解释的变差。(对于优秀的模型，此值应较大)R-Sq(adj):对过于拟合情况(方程式中的变量过多)的调整，它将包括模型中的项数与观测值的个数进行对比其中n=观测值数量p=模型中项数，包括常数R2越大，模型对工序模拟得越好对于良好的模型，该值应接近R2值该值越小(误差的大小)，模型越好请参见附录更多的定义RadjRnnp21211()R2=SSregressionSStotal8.13单变量回归GEAppliancesCopyright1999修订版101999年1月11日通过查看R-Sq,R-Sq(adj)，s和p值来评估模型SSregression:由模型中的“X”而解释的响应变量“Y”的变差。每一X值对应的模型预测值和Y的总平均值之差的平方和。SSerror:未被解释的“Y”的变差。每个数据点的Y观测值和该数据点Y的预测值之差的平方和。SStotal:Y值相对其平均值的总变差。误差项相对总数应很小p-值应0.05，以表示统计显著性(良好拟合的方程式)回归项(的SS和MS)应比误差项的(SS和MS)大请参见附录更多的定义8.14单变量回归GEAppliancesCopyright1999修订版101999年1月11日FITS指“Y”的预测值，即根据回归方程式计算出的与“X”值相对应的Y值。C3=0.069+0.00383C1(会话窗口中的回归方程式)或者响应变量的预测值=0.069+0.00383(速度)残差为误差。残差的出现说明模型显示的数据有误差。(每个点的实际响应变量Y值减去其预测值(拟合值)。因此：数据窗口将出现两个新栏……“FITS1”andRESI1”按‘Ctrl-d’返回数据窗口C4=C2-C38.15单变量回归GEAppliancesCopyright1999修订版101999年1月11日ResidFitorTimeResidFitResidFit残差图-检查回归模型“优劣”的诊断工具•残差的平均值始终为0.0•残差应为正态分布•残差应随机分布。残差存在的型态可能指出所选择的模型不对。型态举例：–曲线(起点低，逐渐上升，然后下降)–随数据收集的时间而变化–不等变差(一般情况下，值越大，变差越大)–一个或两个极端值改进不良拟合的几种方法：–调查非同寻常的数据，它可能是错误，也可能是您的研究中最重要信息。–拟合不同的方程式(可能不是线性关系)–转换Y(对数，平方根，倒数，yk...)–转换“X”变量(对数，平方根，倒数)8.16单变量回归GEAppliancesCopyright1999修订版101999年1月11日用“Scrtl-Tab”键滚动窗口，直至找到残差图检查残差:不象是钟形曲线...注：此例中的样本容量较小(10个)。尽管残差直方图往往能够说明问题，但在此例中数据不足，难以得出结论。残差应正态分布：8.17单变量回归GEAppliancesCopyright1999修订版101999年1月11日如果型态较明显，单变量线性模型可能不是所具有的数据的最佳拟合，或者说，还有其它的关键“X”。这些误差的分布相当随机残差应为平均值为0.0的正态分布误差必须在平均值0上下随机分布。8.18单变量回归GEAppliancesCopyright1999修订版101999年1月11日回归分析也可用图形表示！StatRegressionFittedLinePlot单击“Options”单击这些选项以在图形输出窗口显示更多的信息“拟合线图”提供：•会话窗口中的回归分析•显示运用最小二乘法原理拟合直线*图•显示置信区间(C.I.)和预测区间(P.I.)图单击两次“OK”*参见附录中的最小二乘法8.19单变量回归GEAppliancesCopyright1999修订版101999年1月11日置信区间和预测区间C.I.=置信区间(95%置信度表示所有数据的平均值都位于此带内)P.I.=预测区间(95%置信度表示单个数据点位于此带内)置信带预测带}{8.20单变量回归GEAppliancesCopyright1999修订版101999年1月11日会话窗口中的信息与早期生成的信息相同……无法否定Ho:接受Ha:结论：•我们已经找到潜在的关键“X”－速度•根据散点图、及残差图（无型态）得出结论，线性模型拟合良好。•拟合有多好？–给定速度来预测蒸发率，为此目的，这个模型应该可以接受(基于：R2=90.5%，以及较小误差项(S=.16))。–如果工序非常关键，应使用更多的数据。然后，可以建立误差分布更接近正态的回归模型。8.21单变量回归GEAppliancesCopyright1999修订版101999年1月11日课堂练习:您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去12个月内，多个零售点销售量与总的占地面积方面的数据。现在，您希望分析这些数据，看占地面积是否确实与年销售量存在某种关系。在Minitab输入以下数据：应用您所学的单变量回归方法。准备好解释您的答案、以及支持您的结论的结果。($K)(平方英尺)8.22单变量回归GEAppliancesCopyright1999修订版101999年1月11日关键概念-第8部分•在进行回归之前，将“Y”与“X”的数据画图－您首先需要知道哪种模型合适。•回归可用于被动数据，但一定要谨慎，因为它不是一个受到控制的试验。•在采用回归方法得出有关被动数据的结论之前，一定要进行DOE。•观察‘残差与拟合值’图，以集中精力于您的模型可能存在的潜在问题。借助残差图来判断“拟合的优劣”。•采用拟合线图，通过数据创建一个回归线图形，并确定模型的置信区间和预测区间。8.23单变量回归GEAppliancesCopyright1999修订版101999年1月11日附录8.24单变量回归GEAppliancesCopyright1999修订版101999年1月11日回归术语r：多重回归的相关系数(r)。越接近+/-1，模型拟合越好。‘0’表示无线性关系。R-Sq：相关系数的平方(R2)。R2的值越接近100%，说明可能存在关系，由模型解释的变差的百分比越高。R-Sq(Adj)：在过度拟合情况下对R2的调整(将模型中的项数考虑在内)。估计值的数据相对预测“表面”的标准变差。标准误差s=MS误差1/2回归均方模型总体“之间”变差的估测。(MS回归)MS回归=SS回归/DF回归(DF=自由度)F-比率：“F”统计量。数值大表示模型可鉴别因素（X）与因变量Y值之间的关系。F=MS回归/MS误差p-值：接受“存在差异”时，发生错误的机率。p值0.05说明有差异(显著)。p值0.05说明无法得出存在差异(显著)的结论。模型不是“好”模型的机率。“好”表明找到了因素X与响应变量Y之间的关系。8.25单变量回归GEAppliances