哈工大模式识别课件―第7章 统计学习理论的本质

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

模式识别–统计学习理论的本质第七章统计学习理论的本质模式识别–统计学习理论的本质7.1统计学习的本质系统S为研究对象,通过一系列的观测样本来求得学习机LM,使得LM的输出能够尽量准确的预测S的输出y。(x1,y1),(x2,y2),…,(xn,yn)系统(S)学习机(LM)输入x输出y预测输出ˆyˆy模式识别–统计学习理论的本质风险学习机LM的输出与输入x之间可以看作是一个函数关系:一般需要将函数限定在特定的一组函数中求取。定义风险:均方误差:似然函数:ˆyˆyfxfx,fxw,,Lyfxw2,,,Lyfyfxwxw,ln,Lppxwxw模式识别–统计学习理论的本质期望风险y与x之间存在一定的依赖关系,可以用一个未知的联合概率F(x,y)描述。期望风险定义为:统计学习的目的就是要寻找到一个最优的函数f(x,w*),使得R(w*)最小。,,,RLyfdFywxwx模式识别–统计学习理论的本质经验风险期望风险一般来说无法计算,在工程上转而计算经验风险:求取最优参数w*,使得经验风险Remp(w*)最小。当学习过程具有一致性时,统计学有如下关系:11,,nempiiiRLyfnwxwlimsup0,0empnPRR模式识别–统计学习理论的本质期望风险与经验风险的关系n期望风险R(w*)经验风险Remp(w*)R(w*)empRRww模式识别–统计学习理论的本质7.2函数集的VC维与推广性的界统计学习的推广能力不仅同训练样本数n有关系,而且同学习机的函数集选择有关系,“简单”的函数集合推广能力强,“复杂”的函数集合推广能力差。当函数集过于“复杂”时,很容易产生“过学习”现象:对于训练样本风险很小,而对非训练样本风险却很大。模式识别–统计学习理论的本质过学习模式识别–统计学习理论的本质VC维打散:如果存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能的2h种形式分为两类,则称函数集能够将样本数为h的样本集打散;VC维:如果函数集能够打散h个样本的样本集,而不能打散h+1个样本的样本集,则称函数集的VC维为h。1.d维空间中线性函数的VC维:h=d+1;2.正弦函数集合{sin(wx)}的VC维:h=∞。模式识别–统计学习理论的本质推广性的界函数集合的VC维描述了函数的复杂程度,利用VC维可以确定推广性的界,下列不等式右半部分至少以概率1-η成立:其中h为函数集合的VC维,n为训练样本数。当n/h较小时,置信范围较大;n/h较大时,置信范围较小:ln21ln4empemphnhRRRnempempnRRRh模式识别–统计学习理论的本质7.3提高推广能力的方法提高推广能力的本质方法是由原来只优化经验风险变为优化期望风险的上界:empRnhwempRw过学习欠学习empRwempnRhw模式识别–统计学习理论的本质结构风险最小化原则(SRM,StructuralRiskMinimization)首先把函数集分解为一个函数子集序列:各个子集按照VC维的大小排序:在子集序列中寻找经验风险与置信范围之和最小的子集,这个子集中使经验风险最小的函数就是所求的最优函数。,,Sfxww12kSSSS12khhh模式识别–统计学习理论的本质SRM在线性分类器上的应用(SVM)d维空间中的线性函数的VC维为d+1,但当限制判别界面的分类间隔时,其VC有可能更小。定理:在d维空间中,设所有n个样本都在一个超球范围之内,超球的半径为R,那么γ-间隔分类超平面集合的VC维h满足如下不等式:而间隔,因此根据SRM的原则,只需在保证经验风险为0的条件下(超平面能够正确分类全部训练样本),最小化权值矢量的长度。22min,1Rhd1ww模式识别–统计学习理论的本质验证技术(Validation)当无法计算函数集的VC维时,可以采用验证技术。将样本集分为训练集和验证集,用训练集的样本训练网络,用验证集的样本测试网络,寻找一个验证集风险最小的模型和参数。模式识别–统计学习理论的本质权值衰减实验表明,多层感知器网络中比较小的权值往往能够提高系统的推广能力,因此在训练过程中可以有意地衰减权值:或者采用一个等价的目标函数:1newoldww2tefJJ

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功