逻辑斯蒂回归与最大熵

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第6章逻辑斯蒂回归与最大熵模型简介6.0逻辑斯蒂回归模型6.1最大熵模型6.2第6章.简介逻辑斯蒂回归是统计学中经典的分类方法.最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵模型.逻辑斯蒂与最大熵都是线性模型。6.1逻辑斯蒂回归模型6.1.1逻辑斯蒂分布定义6.1设X是连续随机变量,逻辑斯蒂分布函数和密度函数:为位置参数0为形状参数6.1逻辑斯蒂回归模型定义6.2二项逻辑斯蒂回归模型是如下概率分布:xRn是输入,y{0,1}输出,w,b参数,w权值向量,b偏置,w.x内积.6.1.2二项逻辑斯蒂回归模型有时为了研究方便,将权值和输入向量扩充w=(w(1),w(2),…w(n),b)T,x=(x(1),…x(n),1)T,此时逻辑斯蒂模型:考察逻辑斯蒂回归模型特点.事件的几率:发生概率与不发生概率的比值.对数几率:对逻辑斯蒂回归而言这就是说,RLM中,输出Y=1对数几率是输入x的线性函数.换角度,考虑对输入x分类的线性函数w.x,通过LRM模型将线性函数转化为概率:线性函数值接近正无穷,概率值接近1;反之,负无穷和0,--这就是逻辑斯蒂回归模型。训练集T={(x1,y1)…(xN,yN)},xRn,y{0,1},用极大似然估计法估计模型参数,从而得到LRM.设:似然函数6.1.3模型参数估计对数似然函数**对L求极大值得到w的估计值.这样,问题就成为以对数似然函数为目标函数的最优化问题.路径斯蒂回归通常采用梯度下降法,拟牛顿法假设离散随机变量Y的取值集合{1,2…K}那么LRM为:6.1.4多项逻辑斯蒂回归6.2.1最大熵原理表述为在满足约束条件的模型集合中选取最大熵模型。若离散随机变量X的概率分布是P(X),其熵为:熵满足下列不等式6.2最大熵模型xxPxPPH)(log)()(||log)(0xPH|X|为X取值个数,仅当X均匀分布时,右等号成立,熵最大。最大熵理论:熵增原理在无外力作用下,事物总是朝着最混乱的方向发展事物是约束和自由的统一体事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则在已知条件下,熵最大的事物,最可能接近它的真实状态以最大熵理论为基础的统计建模为什么可以基于最大熵建模呢?Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势Tribus证明,正态分布、伽玛分布、指数分布等,都是最大熵原理的特殊情况。基于最大熵的统计建模:建模理论最大熵原则下点的分布:对一随机过程,如果没有任何观测量,即没有任何约束,则解为均匀分布。增加约束条件继续增加约束条件问题描述:设最终输出值构成的语言学类别有限集为Y,对于每个y∈Y,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文x∈X,计算输出为y∈Y的条件概率p(y|x)。基于最大熵的统计建模:数学描述例6.1随机变量X取值{A,B,C,D,E},要估计各值的概率P(A),P(B)…解:约束条件:P(A)+P(B)+P(C)+P(D)+P(E)=1有时,能从先验知识得到一些约束条件,如:P(A)+P(B)=3/10-P(A)=P(B)=3/20P(A)+P(B)+P(C)+P(D)+P(E)=1-P(C)=P(D)=P(E)=7/306.2最大熵模型这时认为A,B等可能,C,D,E等可能。以此类推,如果有3个约束条件等,以上模型学习方法正是遵循了最大熵原理满足条件的分布有无穷多,一个办法认为等可能的P(A)=P(B)=P(C)=P(D)=P(E)=1/5图提供了用最大熵原理进行概率模型选择的集合解释。假设模型是一个条件概率分布P(Y|X),给定输入X以P(Y|X)输出Y。给定训练集T={(x1,y1)…(xN,yN)},选择分类模型.先找约束条件.对T可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布v(X=x,Y=y)表示T中(x,y)出现频数,v(X=x)表示出现频数,N样本容量.用特征函数f(x,y)定义x,y之间某一事实6.2.2最大熵模型的定义,不满足满足事实,01),(yxf特征函数f(x,y)关于经验分布P~(X,Y)的期望值:如果模型能获取T中信息那么假设这两个期望值相等,即Ep(f)=Ep~(f)或:6.2.2最大熵模型的定义yxpyxfyxPfE,~),(),()(~特征函数f(x,y)关于模型P(X|Y)与经验分布P~(X)的期望值:此为模型约束条件,如果有n个特征函数fi(x,y)就有n个约束条件。定义6.3最大熵模型假设满足约束条件模型集合为则模型集合C中条件熵H(P)最大的模型称为最大熵模型.6.2.2最大熵模型的定义定义在条件概率分布P(Y|X)上的条件熵为最大熵学习模型过程就是求解最大熵过程.可以形式化为约束最优化问题.对于训练集T以及特征函数fi(x,y),最大熵模型学习等价约束最优化最优化习惯,求最大值问题等价改写为求最小值问题:6.2.3最大熵模型的学习求解约束最优化问题过程这里将约束最优化原始问题转化为无约束最优化的对偶问题。下面证明对偶函数极大化等价于最大熵模型的极大似然估计.已知T的经验概率分布P~(X,Y),条件概率分布P(Y|X)的对数似然函数为:6.2.4极大似然估计当条件概率分布P(y|x)是最大熵模型时,对数似然函数Lp~(Pw)为:再看对偶函数.由6.17及6.20得6.2.4极大似然估计)(w既然对偶函数等价于对数似然函数Lp~(Pw),于是证明最大熵模型学习中对偶函数极大化等价于最大熵模型的极大似然估计.最大熵模型更一般形式最大熵模型和逻辑斯蒂模型有类似形式,它们又称为对数线性模型.)(w

1 / 25
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功