机器学习算法汇总大全

junzi444
2 ℃
2019-10-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

2016.11机器学习(MachineLearning)报告建议内容基本概念以及数学定义基本性质及其物理意义具体算法应用（详细举例讲解）该算法与其他类似算法的分析比较可能的发展方向附参考文献2《机器学习》，TomM.Mitchell（汤姆·米切尔）著，曾华军，张银华等译，机械工业出版社，2003年。参考书其它参考书《机器学习及其应用》，周志华，王钰主编，清华大学出版社，2009。《神经网络与机器学习》，SimonHaykin著，机械工业出版社，2010。《机器学习导论》，EthemAlpaydin著，机械工业出版社，2009。《MachineLearning——AProbabilisticPerspective》KevinP.Murphy,2012第1章引言什么是机器学习【经典定义】：计算机程序如何随着经验积累自动提高性能，系统自我改进的过程。或：计算机利用经验改善系统自身性能的行为。——米切尔随着该领域的发展，主要做智能数据分析。学习与智能学习现象语言、文字的认知识别图像、场景、自然物体的认知识别规则（eg下雨天要带雨伞）复杂的推理、判断能力（智能）好人与坏人？好猫与坏猫？数据知识•认知•推理•决策•识别学习什么是机器学习？使得计算机具备和人类一样的学习能力决策推理认知识别……等智能给定数据（样本、实例）和一定的学习规则，从数据中获取知识的能力机器学习与人工智能自然智慧的伟大与奥妙举例：婴儿的认知能力（声音、人脸、汽车…）重要的二个特点：容错性，推广能力（举一反三）机器智能：希望用机器实现部分智能基于数据的机器学习问题（引自清华张学工教授）根据已知样本估计数据之间的依赖关系，从而对未知或无法测量的数据进行预测和判断关键：推广能力什么是机器学习中科院王珏研究员给出的定义：令W是给定世界的有限或无限所有观测对象的集合，由于我们的观测能力有限，我们只能获得这个世界的一个子集，称为样本集。机器学习就是根据这个样本集，推算这个世界W的模型，使它对这个世界（尽可能地）为真。三个重要的理论问题：一致：W与Q有相同的性质。eg.i.i.d划分：设样本定义于d维空间，要寻找在这个空间上的决策分界面泛化（推广能力）：对未知样本的判断能力WQWhat’sistheLearningProblem?Learning=ImprovingwithexperienceatsometaskImproveovertaskTWithrespecttoperformancemeasurementPBasedonexperienceEExample:中国象棋任务T：下中国象棋性能目标P：比赛中击败对手（的百分比）训练经验E：和自己进行对弈，或者看棋谱Ref：《机器学习》（曾华军等译）Pedro对学习理解MachineLearning引用自CMUDr.EricXing的LectureNotes机器学习的研究意义机器学习的重要性！《Science》2001年论文：…每个科学领域的科学过程都有它自己的特点，但是，观察、创立假设、根据决定性实验或观察的检验、可理解检验的模型或理论，是各个学科所共有的。对这个抽象的科学过程的每一个环节，机器学习都有相应的发展，我们相信它将导致科学方法中从假设生成、模型构造到决定性实验这些所有环节的合适的、部分的自动化。当前机器学习研究在一些基本论题上取得令人印象深刻的进展，我们预期机器学习研究在今后若干年中将有稳定的进展！”在稍早前，2000年《Science》还发表了另外3篇ML方面的论文“TheManifoldWayofPerceptron”,“Aglobalgeometricframeworkfornonlineardimensionalityreduction”,”Nonlineardimensionalityreductionbylocally…”Mjolsness,DDeCoste,MachineLearningforScience:StateoftheArtandFutureProspects-Science,2001:2051-2055.受到令人惊讶的重视！机器学习的重要性摘自南京大学周志华教授生物信息学计算金融学分子生物学行星地质学……工业过程控制机器人……遥感信息处理信息安全机器学习多学科交叉机器学习也是一个多学科交叉的产物，它吸取了人工智能、概率统计、神经生物学、认知科学、信息论、控制论、计算复杂性理论、哲学等学科的成果。实践证明，机器学习在很多应用领域发挥了重要的实用价值，特别是在数据挖掘、语音识别、图像处理、机器人、车辆自动驾驶、生物信息学、信息安全、遥感信息处理、计算金融学、工业过程控制。重要性：例子—网络安全入侵检测：是否是入侵？是何种入侵？如何检测？•历史数据：以往的正常访问模式及其表现、以往的入侵模式及其表现……•对当前访问模式分类这是一个典型的预测型机器学习问题常用技术：神经网络决策树支持向量机k近邻序列分析聚类…………搜索引擎摘自南京大学周志华教授重要性：例子—生物信息学常用技术：神经网络支持向量机隐马尔可夫模型k近邻决策树序列分析聚类…………重要性：例子—数据驱动控制相关学科对ML的影响人工智能：学习的概念符号表示Bayes方法统计学：统计学习理论(SLT)计算复杂性理论控制论信息论：最小描述长度哲学：“Occam’sRazor原则”，“没有免费午餐”心理学和神经生物学：NeuralNetworks（神经网络）机器学习目前主要的一些研究领域符号机器学习Eg.决策树，ID3，…计算学习理论（统计学习理论）PAC，SVM监督学习，非监督学习，半监督学习集群机器学习EnsembleLearning，Boosting流行（Manifold）学习强化学习Ranking学习聚类学习…机器学习简要发展历史回顾ML的发展历史(1)1950s：神经科学的理论基础James关于神经元是相互连接的发现McCullon&Pitts的神经元模型Hebb学习律（相互连接强弱度的变换规则）1960s：感知器（Perceptron）时代1957年Rosenblatt首次提出ML的发展历史(2)1969年：《Perceptron》出版，提出著名的XOR问题1970s：符号主义，逻辑推理1980s：MLP+BP算法成功解决XOR问题，从此进入神经网络时代（连接主义）1960s-1970s:统计学习理论创立VC维的基本概念结构风险最小化原则概率空间的大数定律ML的发展历史(3)1990s：统计学习理论的发展及完善典型代表：SVM（Vapnik，Bell实验室）结构风险最小化最小描述长度原则小样本问题核函数、核空间变化PAC理论下的弱可学习理论的建立支持向量机…ML的发展历史(4)2000s：各种机器学习理论及算法得以充分发展符号机器学习计算机器学习（统计学习理论，典型例子：SVM）集群机器学习（典型代表：Boosting）强化机器学习流行机器学习监督学习，非监督学习半监督学习、….未来发展趋势机器实际上是一个应用驱动的学科，其根本的驱动力是：“更多、更好地解决实际问题”由于近20年的飞速发展，机器学习已经具备了一定的解决实际问题的能力，似乎逐渐开始成为一种基础性、透明化的“支持技术、服务技术”基础性：在众多的学科领域都得以应用（“无所不在”）透明化：用户看不见机器学习，看见的是防火墙、生物信息、搜索引擎；（“无所不在”）“机器更好用了”(正如CALO的一些描述：“youwon’tleavehomewithoutit”；”embodiedasasoftwareenvironmentthattranscendsworkstations,PDA’s,cellphones,…”)讨论议题机器学习的主要策略与基本结构机器学习的主要策略机器学习系统的基本结构机器学习系统的基本结构我们以西蒙的学习定义做为出发点，建立起下图1.1所示的简单的学习模型，然后通过对这个简单模型的讨论，总结出设计学习系统应当注意的某些总的原则。图1.1学习系统的基本结构学习问题的标准描述定义如果一个计算机针对某类任务T，用P来衡量性能，根据经验E来自我完善，那么我们称这个计算机程序在从经验E中学习，针对某类任务T，它的性能用P来衡量。西洋跳棋学习问题的解释E，和自己下棋T，参与比赛P，比赛成绩（或赢棋能力，击败对手的百分比）手写识别学习问题机器人驾驶学习问题学习问题的标准描述（2）定义太宽泛甚至包括了以非常直接的方式通过经验自我提高的计算机程序实际的机器学习问题往往比较复杂定义一类问题探索解决这类问题的方法理解学习问题的基本结构和过程有监督学习有监督的学习方法在样本标签已知的情况下，可以统计出各类训练样本不同的描述量，如其概率分布，或在特征空间分布的区域等，利用这些参数进行分类器设计，称为有监督的学习方法。无监督学习无监督学习然而在实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本因而只能从原先没有样本标签的样本集开始进行分类器设计，这就是通常说的无监督学习方法。对一个具体问题来说有监督与无监督的作法是不相同的有监督学习x1x2无监督学习x1x2机器学习的问题存在什么样的算法能从特定的训练数据学习一般的目标函数呢？如果提供了充足的训练数据，什么样的条件下，会使特定的算法收敛到期望的函数？哪个算法对哪些问题和表示的性能最好？多少训练数据是充足的？怎样找到学习到假设的置信度与训练数据的数量及提供给学习器的假设空间特性之间的一般关系？学习器拥有的先验知识是怎样引导从样例进行泛化的过程的？当先验知识仅仅是近似正确时，它们会有帮助吗？关于选择有效的后验训练经验，什么样的策略最好？这个策略的选择会如何影响学习问题的复杂性。怎样把学习任务简化为一个或多个函数逼近问题？换一种方式，系统该试图学习哪些函数？这个过程本身能自动完成吗？学习器怎样自动地改变表示法来提高表示和学习目标函数的能力？课程内容简介第2章，基于符号和逻辑表示的概念学习（简介）第3章，决策树第4章，回归模型与神经网络第5章，评估假设第6章，贝叶斯理论（混合模型与EM算法）第7章，基于实例的学习（核函数与径向基函数网络）第8章，马尔科夫与隐马尔可夫模型第9章，支持向量机（线性判别与SVM）第10章，增强学习参考期刊与会议相关杂志MachineLearningNeuralComputationJournaloftheAmericanStatisticalAssociationIEEEtransactionsonPatternAnalysis&MachineIntelligence国际会议国际机器学习会议ICML神经信息处理系统会议NIPS计算学习理论会议CCLT国际遗传算法会议ICGA参考学术期刊及国际会议一些网络资源(1)AAAIMachineLearningTopics：SupportVectorMachines：一些网络资源(2)~tom/10701_sp11/lectures.shtmlMachineLearning(Spring2011)@CMUTomMitchellVideoLecture&SlidesMachineLearningResources:~dwaha/research/machine-lea