最大熵模型介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

最大熵模型雷春雅2010-05-9提纲•最大熵模型的介绍•特征与样本问题•最大熵模型的使用•最大熵模型的优缺点•最大熵模型的介绍1.什么是熵?2.最大熵模型的主要思想、原则、性质3.关于最大熵模型的举例、分析1.What’sEntropy?•定义:•X的具体内容跟信息量无关,我们只关心概率分布,于是H(X)可以写成:•熵的性质kiiixxpxxpXH11logXxxpxpXH1logXXHlog0ConditionalEntropy•有两个变量:x,y。它们不是独立的。已知y,x的不确定度又是多少呢?YXyxyxpyxpYXH,|1log,|)()|(XHYXHConditionalEntropy•ConditionReducesEntropy(C.R.E.)•知识(Y)减少不确定性(X)•用文氏图说明:)()|(XHYXHXY(X&Y)I:CompleteKnowledgeSpace2.最大熵模型的主要思想、原则•“对已知的进行建模,对未知的不做任何设”即建模时尽量符合已知信息,对于未知部分使模型的熵最大,即不确定性最大。•对待已知事物和未知事物的原则:①承认已知事物(知识);②对未知事物不做任何假设,没有任何偏见3.最大熵模型举例、分析3.最大熵模型举例、分析问题就转化为,用条件熵作为衡量一致的标准,如何求最优值p(y|x)问题。上式H(P)满足以下三个限制条件:限制条件下H(P)的最大值,为每个特征引入一个参数,定义拉格朗日函数,3.最大熵模型举例、分析保持不变,上述拉格朗日函数对p求导,得到p(y|x)的最大值。,3.最大熵模型举例、分析•上式为0•根据所有的x,满足,所以规范化因子Z(x)为•通过GIS迭代算法来求参数i3.最大熵模型举例、分析•GIS求参数的几个步骤:1.假定第零次迭代的初始模型为等概率的均匀分布;2.用第N次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小;否则将它变大;3.重复步骤2,直到收敛。i特征选取问题•一般我们首先形式化一个特征空间,所有可能的特征都为候补特征,然后从这个候补特征集合内选取对模型最为有用的特征集合•直观的过程:①什么特征都不限定:熵最大②加一个特征:熵少一点(C.R.E.)③加的特征越多,熵越少……特征选取算法(FI)•目标:选择最有用的K个特征(知识)•第二步中,计算所加入特征的增益值,根据kullback-Leibler,KL距离来计算,公式:特征选取算法(FI)•用来衡量两个概率分布p和q的KL距离公式:•加入第N个特征前后,模型分布和训练样本的KL距离为:•计算所加入第N个特征所带来的增益值G:特征选取算法(FI)•选取带来信息增值最大的特征,加入到特征集合。•将获取最佳特征集加入到最大熵模型中,并对每个所选的特征赋予权值(通过上面介绍的GIS算法),也就是我们所说的模型参数,最后根据模型预测将来的行为•最大熵模型的使用1.训练特征要求的格式2.使用时的特征格式3.训练所使用的命令•maxent–mmodelName–i30train.txt•其中,maxent是运行命令;-m指示训练输出的模型,模型名字由modelName给出;-i指示训练迭代的次数;train.txt是输入的特征文本。4.训练过程就是选择最有效的特征及特征的权值iif最大熵模型的优缺点•优点建模时,试验者只需集中精力选择特征,而不需要花费精力考虑如何使用这些特征;特征选择灵活,且不需要额外的独立假定或内在约束;模型应用在不同领域时的可移植性强;可结合更丰富的信息。•缺点时空开销大;数据稀疏问题比较严重,标注偏置问题;无法对特征进行融合;对语料库依赖性较强。参考文献1.自然语言处理中的最大熵模型2.最大熵原理及其应用3.最大熵理论及应用4.AsimpleIntroductiontoMaximumEntropyModelsforNaturalLanguageProcessing(AdwaitRatnaparkhi)Thankyou!

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功