回归模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第3讲回归模型outline•1.一个例子•2.最小二乘法•3.概率解释•4.从线性到非线性:用线性模型•5.深度研究:正则化•6.深度研究:偏置-方差困境•7.当注入噪声,发生了什么事情知识点:回归分析的基本理论概念、性质、计算最小二乘法的推导和计算回归分析的概率解释非线性函数的回归分析回归分析的深度思考重点与难点:重点:回归分析推导和计算。难点:回归分析概率解释。•考察房价走势,有如下数据:•通常希望通过这些数据,预测未来房价走势。1.一个例子公式中定义的是一组固定但未知的参数,ε表示模型的期望误差,“固定的”表示我们假定环境是稳定的,静态的(stationary),写为向量矩阵形式:假定,各个分量代表各个特征输入,构成一个回归量;d对应于x的一个输出。它们的依赖关系可以由如下一个线性回归模型表达。假定有训练集定义如下costfunction(代价或能量函数):通过梯度下降算法,我们可以得到ω,η称为学习速率。2.最小二乘法假定有训练集定义如下costfunction(代价或能量函数):通过梯度下降算法,我们可以得到ω,η称为stepsize,机器学习叫学习速率。2.最小二乘法梯度下降法,基于这样的观察:如果实值函数𝐅(𝒙)在点𝐚处可微且有定义,那么函数𝐅(𝒙)在𝐚点沿着梯度相反的方向−𝛁𝐅(𝒙)下降最快。令,因此计算参数ω的算法是这个算法也称为Widrow-Hoff学习规则,至此此时只针对Ω仅有一个样本的情况。对于N个样本情形,可以改造算法如下:注意到算法每次迭代都是把整个训练集用来更新参数,这种形式称为batchgradientdescent批量梯度下降•梯度下降法是找局部最优,但是J是一个标准的凸二次函数,有全局唯一的最优解。•将年份与价格对应的回归线画出。这种方法称为随机梯度下降算法(stochasticgradientdesent),在比较大的训练集的情况下,BGD算法计算量大。虽然SGD算法在最小值得周边震荡,但依然选择本算法,因为可以较快收敛。也可以如下操作,有同样的效果:假设我们把所有的训练数据装在一起形成一个大矩阵,有可以得到:以及如果逆存在,可以得到显示解,于是,要最小化J,令其导数为零,则有,此时,我们w改为𝜽表示anerrortermthatcaptureseitherunmodeledeffects(suchasiftherearesomefeaturesverypertinenttopredictinghousingprice,butthatwe’dleftoutoftheregression),orrandomnoise.3.概率解释则在这里误差假设服从高斯分布indicatesthatthisisthedistributionofy(i)givenx(i)andparameterizedbyθ.weshouldnotconditiononθ(“p(y(i)|x(i),θ)”),sinceθisnotarandomvariable.GivenX(thedesignmatrix,whichcontainsallthex(i)’s)andθ,whatisthedistributionofthey(i)’s?Theprobabilityofthedataisgivenbyp(y|X;θ).Thisquantityistypicallyviewedafunctionofy(andperhapsX),forafixedvalueofθ.Whenwewishtoexplicitlyviewthisasafunctionofθ,wewillinsteadcallitthelikelihoodfunction:对多个y根据误差𝝐服从IID分布,我们有:Now,giventhisprobabilisticmodelrelatingthey(i)’sandthex(i)’s,whatisareasonablewayofchoosingourbestguessoftheparametersθ?Theprincipalofmaximumlikelihoodsaysthatweshouldchooseθsoastomakethedataashighprobabilityaspossible.I.e.,weshouldchooseθtomaximizeL(θ).LeastSquaresRegression•LeastSquaresRegression•Statisticalmodel:•whereiszero-meannoisefori=1,..n。•Ideallynoiseshouldbeiidzero-meanGaussian•forsomeunknowmσ2•Remark:leastsquaresregressionissensitivetooutliers•notrobustifisheaviertailedthanGaussian4.从线性到非线性:用线性模型Residueshouldapproximateandlookrandom.Ifnot,wemayaddadditionalfeaturestoimpromemodel.LinearModelwithNonlinearBasis•Considernonlinearbasisfunctions,wecanwritea•generallinearmodelas•ExampleⅠ:•ExampleⅡ:•Canstilluseleastsquaresmethodtoestimatestilllinearmodel:estimationmethodislinear•LinearmethodcanmodelnonlinearfunctionsusingnonlinearbasisfunctionsModelNonlinearity我们最小二乘以及最大似然估计并没有考虑关于ω的先验。通过这种方式获得的ω是不稳定的,也称为overfitting到训练集。让我们重返概率推导——构造(w,d)的联合概率分布函数上,观测的回归量x为条件,由贝叶斯公式注意:此处观察量和随机变量混淆了,请结合上下文理解。1.观测密度p(d|ω,x):给定参数向量ω,由回归量x对环境响应d的观测;2.先验(prior)p(ω|x):表示对ω的先验知识。ω独立于x,所以p(ω|x)=p(ω),记为π(ω)3.后验密度(posteriordensity):P(ω|d,x)表示看到d,x产生ω的可能性,以后记为π(ω|d,x)。4.证据p(d|x):表示基于x的d的取值概率。概率解释的贝叶斯公式符号∝表示正比,表示似然函数。通过最大化似然函数,可以求得ω,称为最大似然估计(ML)。在这里,因p(d|x)作为一个归一化的常量角色,在研究ω的时候可以不管它,我们早先的概率解释中,d用y表示。这是文献中常用的两种表示方式。假设3:稳定性,环境是稳定的。即产生N次实验的参数向量ω的环境(概率模型)是固定的,即ω的每个元素:假设1:训练样本-统计独立同分布(iid,independentandidenticallydistributed)高斯环境下的参数估计假设2:期望误差服从均值为0及方差σ2的高斯分布将训练集样本理解为N次试验,有第i次试验的似然函数为:对于N次试验对等式两端取对数,我们发现优化l(w|d,x)与JΩ一致。将这个式子带入后验估计:考虑到先验信息,以及我们的假设3:通过取对数,求最大后验估计的方法(MAP):标量λ称为正则化参数(regularizationparameter)。λ=0时,ωMAP跟ωML一致。表示我们对由训练样本集Ω所反演的模型有完全的信心。这时σω足够大,表示ω在整个取值空间均匀分布,ω的先验分布值固定。随着λ的增加,我们对训练样本集Ω越来越没有信心!1.p=0,非凸,不可导;(w中非0元素的个数)。求解是NP问题。2.p=1,(p=1,Lasso:Leastabsoluteshrinkageandselectionoperator,Tibshirani(1996)),是p=0的最好近似,现有许多稀疏编码采用。3.p∈(0,1),非凸,可导;4.p1,凸,可导。5.p=2算法稳定,且允许M>N。我们正则化约束实质上是约束了ω的取值空间,让模型复杂度变低。常用的正则化方式:当样本数量无限大的时候,因为是的解,这个方程也称为法方程(NormalEquation)可以证明:ω是满足最小均方误差的解。因此,最大似然估计的解是无偏的,而最大后验的解是有偏的。我们利用正则化(引入先验知识)改进最大似然估计器的稳定性,其最大后验估计的结果是有偏的。6.深度研究:偏置-方差困境Bias-VarianceDilemma随机环境的数学模型,其参数向量为w基于观测的随机环境的物理模型,其中𝑤为未知参数向量为w的估计a)随机环境的回归数学模型,理想状况下;b)是基于观察数据的物理模型,是未知参数向量ω的估计。是如下代价函数的最小化值:令ΕΩ表示在训练集上做的平均算子,由此,可以将上式写成如下形式:缺乏数学模型中的w,进行配对有:代价函数可以写为:则代价函数可以写为:式中误差同F,f分开了,处在不同的期望中。固有误差。同w无关。为了简便,做如下定义:逼近函数𝒇均值偏置的平方。即是有多么靠近真实的回归模型。Errorcomesfromerroneousassumptionsinthelearningalgorithm。比如用线性模型来逼近非线性模型。将导致偏置误差。逼近函数𝒇的方差,即离散。Errorcomesfromsensitivitytosmallfluctuationsinthetrainingset。itscapabilityofproducingflexiblemodelsthatfitdifferenttrainingsets。•深度学习•SimonHaykin:神经网络与机器学习第二章•AndrewNg:机器学习讲座,第2讲

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功