第三讲 回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SchoolofInformationandMathematics第三讲:回归学习2of36回归学习回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。回归是由达尔文的表兄弟FrancisGalton发明的。Galton于1877年完成了第一次回归预测,目的是根据上一代豌豆的种子(双亲)的尺寸来预测下一代豌豆种子(孩子)的尺寸(身高)。Galton在大量对象上应用了回归分析,甚至包括人的身高。他得到的结论是:如果双亲的高度比平均高度高,他们的子女也倾向于平均身高但尚不及双亲,这里就可以表述为:孩子的身高向着平均身高回归。Galton在多项研究上都注意到了这一点,并将此研究方法称为回归。3of36回归学习问题引入面积(m^2)销售价钱(万元)12325015032087160102220……假设有一个房屋销售的数据如下:如果来了一个新的面积,假设在销售价钱的记录中没有的,怎么处理?解决方法:用一条曲线去尽量准的拟合这些数据,然后如果有新的输入过来,我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合,可能是下面的样子:4of36回归学习常用概念和符号:房屋销售记录表:训练集(trainingset)或者训练数据(trainingdata),是我们流程中的输入数据,一般称为x房屋销售价钱:输出数据,一般称为y拟合的函数(或者称为假设或者模型):一般写做y=h(x)训练数据的条目数(#trainingset),:一条训练数据是由一对输入数据和输出数据组成的输入数据的维度n(特征的个数,#features)这个例子的特征是两维的,结果是一维的。然而回归方法能够解决特征多维,结果是一维多离散值或一维连续值的问题。5of36回归学习学习过程首先给出一个输入数据,算法通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型。就如同上面的线性回归函数。一个典型的机器学习的过程6of36回归学习线性回归(Linearregression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(costfunction最小)即可.7of36线性回归注意:(1)因为是线性回归,所以学习到的函数为线性函数,即直线函数(2)因为是单变量,因此只有一个x;单变量线性回归模型:X:feature,h(x):hypothesis;问题:线性函数拟合的好不好?8of36线性回归代价函数(CostFunction):对假设的函数进行评价,costfunction越小的函数,说明拟合训练数据拟合的越好;9of36线性回归代价函数(CostFunction):其中:表示向量x中的第i个元素;表示向量y中的第i个元素;表示已知的假设函数;m为训练集的数量;例:给定数据集(1,1)、(2,2)、(3,3)则x=[1;2;3],y=[1;2;3](此处的语法为Octave语言的语法,表示3*1的矩阵)如果我们预测theta0=0,theta1=1,则h(x)=x,则costfunction:J(0,1)=1/(2*3)*[(h(1)-1)^2+(h(2)-2)^2+(h(3)-3)^2]=0;如果我们预测theta0=0,theta1=0.5,则h(x)=0.5x,则costfunction:J(0,0.5)=1/(2*3)*[(h(1)-1)^2+(h(2)-2)^2+(h(3)-3)^2]=0.58;10of36线性回归注意:如果是线性回归,则costfunctionJ与theta0与theta1的函数一定是碗状的,即只有一个最小点;代价函数与参数的关系:11of36线性回归一般情况:()inxR001n()nhxxxXθ求解:最小二乘法是一个直接的数学求解公式,不过它要求X是列满秩的,梯度下降法最小二乘损失函数12of36线性回归GradientDescent(梯度下降)找出costfunction函数的最小值;梯度下降原理:将函数比作一座山,我们站在某个山坡上,往四周看,从哪个方向向下走一小步,能够下降的最快;方法:(1)先确定向下一步的步伐大小,我们称为Learningrate;(2)任意给定一个初始值:;(3)确定一个向下的方向,并向下走预先规定的步伐,并更新;(4)当下降的高度小于某个定义的值,则停止下降;13of36线性回归梯度下降算法:特点:(1)初始点不同,获得的最小值也不同,因此梯度下降求得的只是局部最小值;(2)越接近最小值时,下降速度越慢;14of36线性回归梯度下降算法:问题:如果初始值就在localminimum的位置,则会如何变化?答:因为已经在localminimum位置,所以derivative肯定是0,因此不会变化;如果取到一个正确的值,则costfunction应该越来越小;问题:怎么取值?答:随时观察值,如果costfunction变小了,则ok,反之,则再取一个更小的值;从上面的图可以看出:初始点不同,获得的最小值也不同,因此梯度下降求得的只是局部最小值;15of36线性回归注意:下降的步伐大小非常重要,因为如果太小,则找到函数最小值的速度就很慢,如果太大,则可能会出现overshoottheminimum的现象;overshootminimum现象:如果Learningrate取值后发现Jfunction增长了,则需要减小Learningrate的值;16of36线性回归GradientDescentforLinearRegression梯度下降能够求出一个函数的最小值;线性回归需要求出,使得costfunction的最小;因此我们能够对costfunction运用梯度下降,即将梯度下降和线性回归进行整合,如下图所示:17of36逻辑回归逻辑回归(LogisticRegression)逻辑回归的模型是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。18of36逻辑回归二分类问题二分类问题是指预测的y值只有两个取值(0或1),二分类问题可以扩展到多分类问题。例如:我们要做一个垃圾邮件过滤系统,是邮件的特征,预测的y值就是邮件的类别,是垃圾邮件还是正常邮件。对于类别我们通常称为正类(positiveclass)和负类(negativeclass),垃圾邮件的例子中,正类就是正常邮件,负类就是垃圾邮件。应用举例:是否垃圾邮件分类?是否肿瘤、癌症诊断?是否金融欺诈?19of36逻辑回归Logistic函数如果我们忽略二分类问题中y的取值是一个离散的取值(0或1),我们继续使用线性回归来预测y的取值。这样做会导致y的取值并不为0或1。逻辑回归使用一个函数来归一化y值,使y的取值在区间(0,1)内,这个函数称为Logistic函数(logisticfunction),也称为Sigmoid函数(sigmoidfunction)。函数公式如下:Logistic函数当z趋近于无穷大时,g(z)趋近于1;当z趋近于无穷小时,g(z)趋近于0。Logistic函数的图形如下:20of36逻辑回归Sigmoid函数(sigmoidfunction)的性质:21of36逻辑回归线性决策边界非线性决策边界分类问题22of36逻辑回归对于线性边界的情况,边界形式如下:构造预测函数为:函数的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:23of36逻辑回归构造损失函数JCost函数和J函数如下,它们是基于最大似然估计推导得到的。24of36逻辑回归梯度下降算法:θ更新过程25of36正则化Regularization过拟合问题对于线性回归或逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合(就是过分拟合了训练数据),使得模型的复杂度提高,泛化能力较差(对未知数据的预测能力)。欠拟合合适拟合过拟合26of36正则化Regularization问题的主因:过拟合问题往往源自过多的特征。解决方法1)减少特征数量(减少特征会失去一些信息,即使特征选的很好)•可用人工选择要保留的特征;•模型选择算法;2)正则化(特征较多时比较有效)保留所有特征,但减少θ的大小27of36正则化Regularization正则化方法正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。房价预测问题,多项式回归28of36正则化Regularization正则化方法正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。房价预测问题,多项式回归29of36正则化Regularization30of36正则化Regularization正则项可以取不同的形式,在回归问题中取平方损失,就是参数的L2范数,也可以取L1范数。取平方损失时,模型的损失函数变为:lambda是正则项系数:•如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;•如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功