第一章--统计学习方法概论

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

袁春清华大学深圳研究生院李航华为诺亚方舟实验室目录1.统计学习2.监督学习3.统计学习三要素4.模型评估与模型选择5.正则化与交叉验证6.泛化能力7.生成模型与判别模型8.分类问题9.标注问题10.回归问题一、统计学习统计学习的对象data:计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。数据的基本假设是同类数据具有一定的统计规律性。统计学习的目的用于对数据(特别是未知数据)进行预测和分析。统计学习统计学习的方法分类:SupervisedlearningUnsupervisedlearningSemi-supervisedlearningReinforcementlearning监督学习:训练数据trainingdata模型model-------假设空间hypothesis评价准则evaluationcriterion--------策略strategy算法algorithm统计学习统计学习的研究:统计学习方法统计学习理论(统计学习方法的有效性和效率和基本理论)统计学习应用二、监督学习Instance,featurevector,featurespace输入实例x的特征向量:x(i)与xi不同,后者表示多个输入变量中的第i个训练集:输入变量和输出变量:分类问题、回归问题、标注问题监督学习联合概率分布假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)P(X,Y)为分布函数或分布密度函数对于学习系统来说,联合概率分布是未知的,训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。假设空间监督学习目的是学习一个由输入到输出的映射,称为模型模式的集合就是假设空间(hypothesisspace)概率模型:条件概率分布P(Y|X),决策函数:Y=f(X)监督学习问题的形式化三、统计学习三要素模型:决策函数的集合:参数空间条件概率的集合:参数空间统计学习三要素策略损失函数:一次预测的好坏风险函数:平均意义下模型预测的好坏0-1损失函数0-1lossfunction平方损失函数quadraticlossfunction绝对损失函数absolutelossfunction统计学习三要素策略对数损失函数logarithmiclossfunction或对数似然损失函数loglikelihoodlossfunction损失函数的期望风险函数riskfunction期望损失expectedloss由P(x,y)可以直接求出P(x|y),但不知道,经验风险empiricalrisk,经验损失empiricalloss统计学习三要素策略:经验风险最小化与结构风险最小化经验风险最小化最优模型当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合over-fitting”结构风险最小化structureriskminimization,为防止过拟合提出的策略,等价于正则化(regularization),加入正则化项regularizer,或罚项penaltyterm:统计学习三要素求最优模型就是求解最优化问题:统计学习三要素算法:如果最优化问题有显式的解析式,算法比较简单但通常解析式不存在,就需要数值计算的方法四、模型评估与模型选择训练误差,训练数据集的平均损失测试误差,测试数据集的平均损失损失函数是0-1损失时:测试数据集的准确率:模型评估与模型选择过拟合与模型选择假设给定训练数据集经验风险最小:模型评估与模型选择模型评估与模型选择五、正则化与交叉验证正则化一般形式:回归问题中:正则化与交叉验证交叉验证:训练集trainingset:用于训练模型验证集validationset:用于模型选择测试集testset:用于最终对学习方法的评估简单交叉验证S折交叉验证留一交叉验证六、泛化能力generalizationability泛化误差generalizationerror泛化误差上界比较学习方法的泛化能力------比较泛化误差上界性质:样本容量增加,泛化误差趋于0假设空间容量越大,泛化误差越大二分类问题期望风险和经验风险泛化能力generalizationability经验风险最小化函数:泛化能力:定理:泛化误差上界,二分类问题,当假设空间是有限个函数的结合,对任意一个函数f,至少以概率1-δ,以下不等式成立:七、生成模型与判别模型监督学习的目的就是学习一个模型:决策函数:条件概率分布:生成方法Generativeapproach对应生成模型:generativemodel,朴素贝叶斯法和隐马尔科夫模型生成模型与判别模型判别方法由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型Discriminativeapproach对应discriminativemodelK近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。生成模型与判别模型各自优缺点:生成方法:可还原出联合概率分布P(X,Y),而判别方法不能。生成方法的收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用。判别方法:直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。八、分类问题分类问题二分类评价指标TPtruepositiveFNfalsenegativeFPfalsepositiveTNtruenegative精确率召回率F1值九、标注问题标注:tagging,结构预测:structureprediction输入:观测序列,输出:标记序列或状态序列学习和标注两个过程训练集:观测序列:输出标记序列:模型:条件概率分布十、回归问题回归模型是表示从输入变量到输出变量之间映射的函数.回归问题的学习等价于函数拟合。学习和预测两个阶段训练集:回归问题例子:标记表示名词短语的“开始”、“结束”或“其他”(分别以B,E,O表示)输入:AtMicrosoftResearch,wehaveaninsatiablecuriosityandthedesiretocreatenewtechnologythatwillhelpdefinethecomputingexperience.输出:At/OMicrosoft/BResearch/E,we/Ohave/Oan/Oinsatiable/6curiosity/Eand/Othe/Odesire/BEto/Ocreate/Onew/Btechnology/Ethat/Owill/Ohelp/Odefine/Othe/Ocomputing/Bexperience/E.回归问题回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(leastsquares)求解。股价预测Q&A

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功