第4章-回归-分析

zuesw
1 ℃
2020-05-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

高级大数据人才培养丛书之一，大数据挖掘技术与应用王朝霞主编施建强杨慧娟陈建彪副主编DATAMINING曹洁宁亚辉王伟嘉袁晓东张卫明编者（按姓氏首字母排序）刘鹏张燕总主编数据挖掘第四章回归of592高级大数据人才培养丛书之一，大数据挖掘技术与应用回归是一种基于统计原理，对大量统计数据进行数学处理，并确定变量（或属性）之间的相关关系，建立一个相关性的回归方程（函数表达式），并加以外推，用于预测今后的因变量的变化的方法。根据因变量和自变量的函数表达式分为：线性回归分析、非线性回归分析。根据因变量和自变量的个数可分为：一元回归分析、多元回归分析、逻辑回归分析和其它回归分析等。More应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。4.1回归基本概念第四章回归4.2一元回归分析4.3多元线性回归分析3.1数据挖掘概述4.5其他回归分析习题4.4逻辑回归分析of593高级大数据人才培养丛书之一，大数据挖掘技术与应用4.6实战：用回归分析方法给自己的房子定价对于社会经济现象，很难确定因变量和自变量之间的关系，因为它们大多是随机的，只有通过大量的观察统计，才能找出其中的规律，随机分析是利用统计学原理描述随机变量关系的一种方法。回归分析可简单理解为信息分析与预测，信息即统计数据，分析即对信息进行数据处理，预测就是加以外推，也就是适当扩大已有自变量取值范围，并承认该回归方程在该扩大的定义域内成立，然后就可以在该定义域上取值进行“未来预测”。当然，对回归方程可以进行有效的控制。因此，回归分析主要解决下面两方面的问题：1)确定变量之间是否存在相关关系，若存在，则找出数学表达式。2)根据一个或几个变量的值，预测或控制另一个或几个变量的值，且要估计这种控制或预测或以达到何种精确度。4.1.1回归分析的定义of5944.1回归基本概念第四章回归1)根据自变量与因变量的现有数据以及关系，初步设定回归方程。2)求出合理的回归系数。3)进行相关性检验，确定相关系数。4)在符合相关性要求后，即可根据已经得到的回归方程与具体条件相结合，来确定事物的未来状况，并计算预测值的置信区间。回归分析中常用到的几个概念：实际值：实际观测到的研究对象特征数据值；理论值：根据实际值我们可以得到一条倾向线，用数学方法拟合这条曲线，可以得到数学模型，根据这个数学模型计算出来的、与实际值相对应的值，称为理论值；预测值：实际上也是根据数学模型计算出来的理论值，但它是与未来对应的理论值。表示符号：实际值，用𝑦𝑖表示；理论值，用𝑦𝑖表示；预测值，用𝑦0表示。4.1.2回归分析步骤of5954.1回归基本概念第四章回归为使回归分析方程较能符合实际，首先应尽可能判断自变量的可能种类和个数，并在观察事物发展规律的基础上定性回归方程的可能类型；其次，力求掌握较充分的高质量统计数据，再运用统计方法，利用数学工具和相关软件，从定量方面计算或改进定性判断。4.1.2回归分析要注意的问题of5964.1回归基本概念第四章回归4.1回归基本概念第四章回归4.2一元回归分析4.3多元线性回归分析3.1数据挖掘概述4.5其他回归分析习题4.4逻辑回归分析of597高级大数据人才培养丛书之一，大数据挖掘技术与应用4.6实战：用回归分析方法给自己的房子定价设x,y为两个经济变量，变量y受到变量x的影响。将y和x之间的关系表示为：y=𝑓𝑥,𝜃+𝜀（4.1）（4.1）称为一元回归模型，其中𝑓为满足一定条件的函数，称为回归函数；𝜃为参数，称为回归模型参数；𝜀为随机变量，称为误差项或扰动项；y称为因变量，𝑥称为自变量。当研究一个经济变量对另一个经济变量的影响时，一元回归分析是最为常用的方法。在简单的回归模型中，回归函数为解释变量的线性函数，回归模型称为一元线性回归模型，表达式为：𝑦=𝛽0+𝛽1𝑥+𝜀(4.2)其中的回归模型参数𝛽0、𝛽1称为回归系数。𝛽0称为常数项，也称截距项，𝛽1称为斜率。4.2.1一元回归分析的模型设定of5984.2一元回归分析第四章回归回归模型的设定给出了回归函数的形式，但模型中的回归参数是未知的。要对模型参数进行估计和统计推断，需要从总体中抽取样本以获得数据。设从总体中抽取n个样本，样本编号为i，i=1,2,…,n。第i个样本为xi和yi。将回归模型（4.2）应用于每个样本得出：𝑦𝑖=𝛽0+𝛽1𝑥𝑖+𝜀𝑖,𝑖=1,2,…,𝑛(4.3)（4.3）称为样本回归模型。注意，来自同一个总体的不同样本，其回归模型具有不同的误差项𝜀𝑖。4.2.1一元回归分析的模型设定of5994.2一元回归分析第四章回归在进行消费行为研究中，从一个地区抽取20个不同家庭的月可支配收入和消费数据，如下表所示：例4.1of59104.2一元回归分析第四章回归序号消费（百元）可支配收入（百元）序号消费（百元）可支配收入（百元）172.310011132.3189292.5112012149.82143135.220013115.318849413014132.21975163.524015149.5206610011416100.25142786.51261779.61128142.362131890.2134912015619116.516910112.5616720126170以可支配收入为横轴、消费为纵轴画出样本数据的散点图例4.1of59114.2一元回归分析第四章回归从图中可以看出，可支配收入和消费之间存在明显的线性关系。但所有点并不在一条直线上，表明二者之间的关系是一种随机关系。在获得样本之后，要对模型（4.2）进行参数估计和统计推断，需要对样本回归模型的误差项进行一些假设。一元线性回归模型误差项的基本假设有四个，这些假设也是模型设定的一部分。（1）零均值，误差项的数学期望等于0，𝑢𝑦|𝑥是x的线性函数𝑢𝑦|𝑥=𝛽0+𝛽1𝑥。（2）同方差，即方差齐次性：对于任意的x，有𝜎𝑦|𝑥2=𝜎2。（3）独立性：y之间相互独立。（4）正态分布：对于任一固定x值，Y是一个随机变量，有确定的概率分布𝑌|𝑋~𝑁(𝑢𝑦|𝑥,𝜎𝑦|𝑥2)。满足四个基本假设的线性回归模型（4.2）称为古典线性回归模型。古典线性回归模型是一种理想模型，实际情况很难满足其苛刻的条件，但它提供了一种研究变量之间关系的基本方法，即普通最小二乘法。当有关的条件不满足时，我们可以对模型及其估计方法进行改进，得出更加合理的模型和方法。4.2.1一元回归分析的模型设定of59124.2一元回归分析第四章回归模型（4.2）中有三个待估计参数：回归系𝛽0、𝛽1和误差方差σ2。估计模型参数的方法有三种：普通最小二乘法、矩方法和极大似然方法。普通最小二乘法（OLS：OrdinaryLeastSquare）是最为直观的估计方法，对模型条件要求最少，也就是使散点图上的所有观测值到回归直线距离平方和最小。4.2.2一元线性回归模型的参数估计of59134.2一元回归分析第四章回归数理统计中给出的估计量基本评价标准有三个：无偏性在假设1满足时，OLS估计是无偏估计，无偏性是𝛽0，𝛽1的抽样分布性质，并不能说明从具体的样本计算出的一个估计量与参数的真实值𝛽0，𝛽1有多大的偏差。因此，除了无偏性之外，还需要其它性质来进一步样本量足够大时，参数估计值逐渐接近真实值。一致估计在假设1和假设3成立时，OLS估计是一致估计。一致性告诉我们，当样本量增大时，参数估计𝛽0以概率趋近于参数真值𝛽0。我们不能像理解微积分中的收敛概念一样理解𝛽0对𝛽0的趋近，以概率收敛只能保证当样本量足够大时，随机变量𝛽0与常数𝛽0的距离可以任意接近的概率趋近1，因此，不管样本容量多么大，仍然存在𝛽0与常数𝛽0“相去甚远”的情况发生的可能性，只是这种可能性随着样本增加越来越接近0。有效性（马尔可夫性）如果线性回归模型（4.2）满足假设1－3，则在𝛽0，𝛽1的所有线性无偏估计中，OLS估计量β_0，β_1的方差最小。马尔可夫性从理论上保证，如果模型满足假设1－3，则在所有线性无偏估计中，由最小二乘得出的估计量是最优的，这就保证了采用OLS估计的合理性。但OLS估计量的有效性是需要条件的，如果假设1－3中的条件不成立，则不能保证OLS的最小方差性。实际上，当假设2和（或）假设3不成立时，OLS确实不再是最小方差线性无偏估计，而采用广义最小二乘得出的估计量才具有最优性。4.2.3基本假设下OLS估计的统计性质of59144.2一元回归分析第四章回归如果假设1－假设4成立，则OLS估计量β̂_0，β̂_1服从正态分布，其方差分别为：𝑉𝑎𝑟𝛽0=𝑛−1𝑥𝑖2𝑛𝑖=1(𝑥𝑖−𝑥)2𝑛𝑖=1𝜎2𝑉𝑎𝑟𝛽1=𝜎2(𝑥𝑖−𝑥)2𝑛𝑖=14.2.3基本假设下OLS估计的统计性质of59154.2一元回归分析第四章回归（4.4）总体方差可以用样本方差来估计。如果能够得到误差项的样本值，可以很容易地给出𝜎2的估计。困难在于误差项不可观测，不能得到样本。为此，必须寻找一个可以观测的量来替代误差项。显然，在可以代替误差项𝜀𝑖的量中，残差𝜀𝑖是最容易想到的。用残差代替误差，用残差值𝜀𝑖作为误差的样本构造误差方差的估计量。设𝜀𝑖为线性回归模型（4.2）的最小二乘残差，定义𝜎2=𝑠2=𝜀𝑖2𝑛i=1𝑛−2（4.5）为误差项方差𝜎2估计量，其平方根𝜎=s称为回归标准误。𝜎2是𝜎2的无偏估计量。将𝜎2=s2代替（4.4）中的σ^2可以得出估计量方差的估计，由此得𝛽0,𝛽1标准差的估计量：s𝛽0=𝑛−1𝑥𝑖2𝑛𝑖=1𝑥𝑖−𝑥2𝑛𝑖=1×𝑠，s𝛽1=1𝑥𝑖−𝑥2𝑛𝑖=1×𝑠（4.6）分别称为𝛽0、𝛽1的标准误。用标准误将估计量标准化，并由t分布的定义知，标准化估计量分布服从t分布，则统计量：𝑡𝛽0=𝛽0−𝛽0s𝛽0~𝑡𝑛−2，𝑡𝛽1=𝛽1−𝛽1s𝛽1~𝑡𝑛−2（4.7）4.2.4误差方差估计of59164.2一元回归分析第四章回归对因变量y的样本离差平方和进行分解：(𝑦𝑖−𝑦)2=(𝑦𝑖−𝑦𝑖+𝑦𝑖−𝑦)2=(𝑦𝑖−𝑦𝑖)2𝑛𝑖=1+(𝑦𝑖−𝑦)2𝑛𝑖=1𝑛𝑖=1𝑛𝑖=1（4.9）式中最左边是因变量y的样本离差平方和，也称为总平方和，记为TSS（Totalsumofsquares），最右边表达式中第一项为残差平方和RSS，第二项称为解释平方和（也称回归平方和），记为ESS（explainedsumofsquares）。TSS=RSS+ESS（4.10）回归平方和占总平方和的比例称为模型的拟合优度，记为R^2（R-squared），即R2=𝐸𝑆𝑆𝑇𝑆𝑆=1−𝑅𝑆𝑆𝑇𝑆𝑆显然0≤𝑅2≤1，𝑅2越接近1，残差平方和越接近0，y和x的线性关系越明显，模型拟合数据的效果越好；𝑅2越接近0，回归平方和越接近0，y和x的线性关系越不明显，模型拟合数据的效果越差。用回归平方和ESS与残差平方和RSS的比作为模型整体效果的度量。𝐹=𝐸𝑆𝑆/1𝑅𝑆𝑆/(𝑛−2)=𝐸𝑆𝑆𝑅𝑆𝑆×(𝑛−2)设检验假设为H0:𝛽1=0，H1:𝛽1≠0。可以证明，如果模型假设1－4成立，在原假设下F服从第一自由度为1、第二自由度为n−2的F分布。F值越大，越能拒绝原假设。4.2.6拟合优度和模型检验（F检验）of59174.2一元回归分析第四章回归4.1回归基本概念第四章回归4.2一元回归分析4.3多元线性回归分析3.1数据挖掘概述4.5其他回归分析习题4.4逻辑回归分析of5918高级大数据人才培养丛书之一，大数据挖掘技术与应用4.6实战：用回归分析方法给自己的房子定价多元回归分析预测法，是指通过对两上或两个以上的