机器学习-2-线性模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

智能科学与技术系刘冀伟机器学习基础第二章线性模型1目录CONTENT123基本形式线性回归线性判别分析45多分类学习对数几率回归6最大熵模型邮箱:jqxxbkd@sina.comPass:jqxxbkd2017机器学习基础-第二章线性模型of484给定由d个属性描述的对象x=(x1,x2,…,xd)及我们感兴趣的对象输出属性y假设y与x相关,求y与x的关系:即:y=f(x)例:转炉炼钢,已知:铁水x1=23t废钢x2=5t吹氧量x3=235l吹氧时间x4=595s出钢温度T?T=f(x1,x2,x3,x4)机器学习问题的形式应为:设假设空间H是全体函数集合,已知数据集合:D={(x1,T1),(x2,T2),…,(xm,Tm)}求𝒇∈𝑯,使得:Ti≈f(xi),i=1,2,…,m线性模型:1122334411223344()+:;TfxwxwxwxwxbWxbwxwxwhereWxwxwx机器学习基础-第二章线性模型of485只要求得参数W,b,就可以完成有数据(经验)获得预测模型的工作如何求W,b线性模型:1、成分的组合;2、预测变量与属性变量之间有相关关系;3、线性回归是基本形式,由此可以获得许多其他有用的学习算法。线性模型:11221122():;ddTddfxwxwxwxbWxbwxwxwhereWxbRwx;2.2机器学习基础-第二章线性模型of487已知-数据集合(D):112212,,,,,,:;mmiidiiidDxyxyxyxxwherexRyRx假设空间(H):(),,,TdHffxWxbWxRbR求:W和b一、单变量线性回归()()iiiifxWxbfxy性能评价-均方误差2**,12,121,min()min(,)()miiwbimTiiwbimiiiWbArgfxyArgWxbyEWbfxy2.2机器学习基础-第二章线性模型of488,,0;0EWbEWbWb由:参数估计-最小二乘法得:2111(,)2()0;(,)20mmiiiiimiiiEWbWxybxWEWbmbyWxb11miixxm其中:122111();11miiimmiiiimiiiyxxWxxmbyWxm()yfxWxb2.2机器学习基础-第二章线性模型of489二、多元线性回归1d12;;TddxR此时:111211212222121111=11TdTdTmmmdmxxxxxxxxXxxxx为了方便引入符号:*()argmin()argminTTWWEWyXWyXWWEWyXWyXW均方误差:问题描述:12myyyy2.2机器学习基础-第二章线性模型of4810()()222()=0TTTTTTTTTTEwyXwyX1**TTTwXXXyywxTXX讨论的情况:1TXX存在1TXX不存在2.2机器学习基础-第二章线性模型of4811lnTTwxbywxbye三、广义线性模型g:Y→Y’↓↓yy’联系函数ixhx'()Tygywxb机器学习基础-第二章线性模型of4813线性回归完成的任务是预测,能否使用回归的方法完成分类的任务?问题:已知D={(x1,y1),(x2,y2),…,(xm,ym)},其中;01dixRy求y=f(x);其中f的值域为{01}判别函数模型101()0xDyfxxD11+zye机器学习基础-第二章线性模型of4814事件的几率:事件发生的概率与事件不发生的概率之比。概率模型:求条件分布P(Y|X)(1|)1(0|)pPyxpPyx11TWxbpe取:11lnln1111TTWxbTWxbpeWxbpe(1|;,)=1+1(0|;,)1+TTTWxbWxbWxbePyxWbePyxWbe用极大似然法估计参数W,b。111(,)(|;,)=(1|;,)(0|;,)iimiiimyiiiyiiLWbPyxWbPyxWbPyxWb机器学习基础-第二章线性模型of4815,Wx取如多元回归。对数似然函数为:11()ln(|;)=ln1TimmWxTiiiiiilWPyxWyWxe1(1|;)=;(0|;)1+1+TTTWxWxWxePyxWPyxWee*argmax()WWlW求解优化问题,得到解:概率模型:***()()()1(1|)=;(0|)1+1+TTTWxWxWxePyxPyxee梯度下降法、牛顿法等数值算法求解机器学习基础-第二章线性模型of4816梯度下降法(gradientdescent):是一种求解无约束优化问题的常用方法,其基本思想是对于最小化问题,沿目标函数下降最快的方向,逐步搜索直到最小值点。问题:f是Rn上具有一阶连续偏导数的函数。*argmin()nxRxfx当目标函数是凸函数时,梯度下降法的解是全局最优解,一般情况不能保证全局最优。梯度下降法:输入:目标函数f(x),梯度函数g(x),精度ε;输出:f(x)的极小值点x*;(1)取初始值x(0),置k=0;(2)计算f(x(k));(3)计算梯度gk=g(x(k)),当|gk|ε时,停止迭代x*=x(k);否则令pk=-g(x(k))求λk使:(4)置x(k+1)=x(k)+λkpk,计算f(x(k+1))|f(x(k+1))-f(x(k))|ε或|x(k+1)-x(k)|ε停止迭代,令x*=x(k+1);(5)否则置k=k+1,转(3)0()min()kkkkkfxpfxp机器学习基础-第二章线性模型of4817牛顿法:问题:f是Rn上具有二阶连续偏导数的函数。*argmin()nxRxfx11()()12()=()0kkTkTkkkkkkkkkkfxfxgxxxxHxxfxgHxxfxxxHg牛顿法:输入:目标函数f(x),梯度函数g(x),汉森矩阵H(x),精度ε;输出:f(x)的极小值点x*;(1)取初始值x(0),置k=0;(2)计算梯度gk=g(x(k));(3)当|gk|ε时,停止迭代,近似解x*=x(k);(4)计算Hk=H(x(k)),解方程Hkpk=-gk(5)置x(k+1)=x(k)+pk(6)置k=k+1,转(2)机器学习基础-第二章线性模型of4818*argmax()WWlW11()ln(|;)=ln1TimmWxTiiiiiilWPyxWyWxe牛顿法:11kkkkWWHg112111(;)(;)1(;)mkiiiimTkiiiiTilWgxypxWWlWHxxpxWpx()()机器学习基础-第二章线性模型of4819多项Logistic回归:前面介绍的是二项分类模型,用于二分类问题。我们可以将其推广到用于多分类问题的多项对数几率回归。问题的概率模型为:1111(|;),1,2,,111(|;)1kkkWxKWxkKWxkePykxWkKePyKxWe机器学习基础-第二章线性模型of2.4线性判别分析48一、基本思路把X空间各点投影到X空间的一直线上(Z),维数降为一维。若适当选择w的方向,可以使二类分开。下面我们从数学上寻找最好的投影方向,即寻找最好的变换向量w的问题。图中w1方向之所以比w2方向优越,可以归纳出这样一个准则,即向量w的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。这就是Fisher准则函数的基本思路。Fisher准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。机器学习基础-第二章线性模型of2.4线性判别分析4822二、问题的形式化已知-数据集合(D):112212,,,,,,:;{01}mmiidiiidDxyxyxyxxwherexRyx,假设空间(H):H={f(x)=wTx+b}求判别函数:f(x)=wTx+b(2)问题分解Step1:确定投影方向Z=wTxStep2:确定判别函数Z=wTx+b1、数据整理和问题分解(1)样本集合分类12|,1|,0iiiiiiDxxyDyDxxyDy12|,1|,0TiiiTiiiZwxxyDyZwxxyDy机器学习基础-第二章线性模型of2.4线性判别分析4823(2)样本类内离散度矩阵Si与总类内离散度矩阵Sw,1,2iTiiixDS=(x-)(x-)iw12S=S+S(3)样本类间离散度矩阵Sb:Tb1212S=(-)(-)iixDi1=xi=1,2N2、样本在d维特征空间的一些描述量。(1)各类样本均值向量μi3、在一维Z空间(1)各类样本均值1,1,2iizZiziN(2)样本类内离散度、总类内离散度和类间离散度2(),1,2iiizZSzi12wSSS212()bS机器学习基础-第二章线性模型of2.4线性判别分析4824这个函数称为Fisher准则函数。应该寻找使分子尽可能大,分母尽可能小的w作为投影向量。3、确定w:评价投影方向w的函数为:2121212()()bFSJwSSSS11,1,2iiTTiiYxDiizwx=wiNNy221212()TTbS(w-w)1212TTTb=w(-)(-)w=wSwiTTiiixDS=w(x-)(x-)wTi=wSw12TT12wSSw(S+S)w=wSw得最终表达式:12()TbbFTwSwSwJwwSwSS最佳w值的确定实际上就是对Fisher准则函数求取其达极大值时的w*。对于这个问题可以采用拉格朗日乘子算法解决,保持分母为一非零常数c的条件下,求其分子项的极大值。()TbFTwwSwJwwSw机器学习基础-第二章线性模型of2.4线性判别分析4825对拉格朗日函数分别对w求偏导并置为0来求w的解。(,)()TTbwLwwSwwSwc0TwwSw=c令:,定义Lagrange函数:1**wbSSww**bwSwSw(,)2()0bwLwSwSww令:这是一个求矩阵的特征值问题。1wbSSTb1212S=(-)(-)*1*1*1212()TwbwwSSwS-)(-w112()wSmmR*111212()()wwRwSS数值R实际上我们关心的只是向量w*的方向,其数值大小对分类器没有影响。因此在忽略了数值因子R/λ后,可得:*112()wwS上式就是使用Fisher准则求最佳法线向量的解。向量w*就是使Fisher准则函数JF(w)达极大值的解,也就是按Fisher准则将d维X空间投影到一维Z空间的最佳投影方向,该向量w*的各分量值是对原d维特

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功