机器学习笔记四

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

机器学习笔记(四)一.方差和偏差1.引入对于课程一开始所引入的实际拟合问题,我们当时仅仅定性的陈述了二次函数去刻画比较合理,而线性函数以及高阶函数刻画不合理这样的事实,但是并没有就事实背后的模型选择问题进行深入的探讨。现在则是用数学公式去分析这个问题并且引入方差和偏差的概念。2.概念偏差:选取的模型的复杂度与实际的模型之间的差距。方差:选取不同的训练样本点所得到的模型的变化程度模型的评价指标:泛化误差,即从概率的角度定义的期望误差。如下图所示:左图选取线性模型取进行拟合,因此即使训练样本数目巨大,也还是无法刻画二次函数的特性。因此,会导致训练的模型与实际的模型差别很大,也就是偏差很大,泛化误差也很大。右图选取高阶多项式模型进行拟合,虽然对训练样本有着很好的拟合效果,但是模型的复杂度要高于实际的模型复杂度,因此也会有较大的泛化误差而且选取不同的训练数据集,所得到的模型参数往往相差很大,即有着较大的方差。二.数学模型我们实际关心的是泛化误差,泛化误差表示着训练模型对客观存在的实际模型的近似程度。但是,我们对于实际模型是知之甚少的(有些情况是知道一点,比如上面的例子通过作图可知实际模型大致为二次函数),也就是无法定量的描述泛化误差。但是训练误差是完全可以求出来的,如果可以通过训练误差来反映泛化误差的特性,那么我们就有了定量描述泛化误差的手段。接下来主要就是建立训练误差与泛化误差之间的关系。1.数学表达式训练误差:泛化误差:相关前提假设:训练数据和测试数据是独立同分布于D的。选定一种模型,然后计算模型的参数,这个过程也可以视为是从模型空间H中选择一个模型出来。最后建立的数学模型是:给定模型空间H,我们的问题就归结为:2.训练误差与泛化误差的关系1)H是有限大小为k的模型空间上式的推导详见讲义,上式的意义是用不等式与概率刻画出了泛化误差与训练误差之间的关系。而上式更加直观的解释是:给定和,可以求出样本数m的界限上式引申出的结论是:我们由训练误差最小化原则理论上可以求出模型,而使用这个模型时候的泛化误差又有上式来进行限定。2)H是无限大小的模型空间上式是无限维假设空间下的结论,d是假设空间的VC维,m是训练样本的数目。不细究这个公式背后的数学证明与推导,接下来结合下面的图来理解欠拟合,过拟合及它们和VC维之间的关系。对于一个实际的回归或者分类问题,我们的做法是生成训练数据集,选择模型空间,然后利用一定的准则(通常是训练误差最小化)来得到具体的模型。在得到具体的模型之后,就要利用对得到的模型进行评估,评价指标则是泛化误差。泛化误差并没有完备的数学表达式,我们是用概率,训练误差以及不等式来对泛化误差进行限定,从而对泛化误差也就是模型进行评估。通常情况下,训练样本数目m是固定的,VC维的大小跟模型的复杂度(模型中的参数数目)是成正比的。对于欠拟合问题,模型比较简单,因此VC维d比较小,因此泛化误差与训练误差比较接近。但是此时的模型过于简单,导致训练误差较大,因此泛化误差也比较大。如上图左半部分所示。对于过拟合问题,模型比较复杂,因此VC维d比较大,因此泛化误差和训练误差差别较大。虽然此时模型可以很好的描述训练数据的特性,训练误差比较小,但是泛化误差跟训练误差的差距较大,所以泛化误差还是比较大,如上图右半部分所示。上面的这个公式具有很强的意义,因为它实实在在的给了我们评估模型好坏的手段。直观上的欠拟合与过拟合问题也可以用这个公式很好的解释。

1 / 3
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功