(第八讲)机器学习

a0199133
2 ℃
2020-03-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

机器学习什么是机器学习？人工智能大师HerbSimon这样定义学习：学习：系统在不断重复的工作中对本身能力的增强或改进，使得系统在下一次执行相同任务或类似任务（指的是具有相同分布的任务）时，比现在做的更好或效率更高。机器学习：通过经验提高系统自身的性能的过程（系统自我改进）。机器学习的重要性机器学习是人工智能的主要核心研究领域之一,也是现代智能系统的关键环节和瓶颈。很难想象:一个没有学习功能的系统是能被称为是具有智能的系统。信息检索（InformationRetrieval)5机器学习的任务令W是这个给定世界的有限或无限所有对象的集合，由于观察能力的限制，我们只能获得这个世界的一个有限的子集Q⊂W，称为样本集。机器学习就是根据这个有限样本集Q，推算这个世界的模型，使得其对这个世界为真。机器学习的三要素一致性假设：机器学习的条件。样本空间划分：决定模型对样本集合的有效性。泛化能力：决定模型对世界的有效性。要素1：一致性假设假设世界W与样本集Q具有某种相同的性质。原则上说，存在各种各样的一致性假设。在统计意义下，一般假设：W与Q具有同分布。或，给定世界W的所有对象独立同分布。要素2：对样本空间的划分样本集合模型：将样本集放到一个n维空间，寻找一个超平面(等价关系)，使得问题决定的不同对象被划分在不相交的区域。要素3：泛化能力泛化能力：学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,该神经网络仍具有正确的响应能力,称为泛化能力.通过机器学习方法，从给定有限样本集合计算一个模型，泛化能力是这个模型对世界为真程度的指标。关于三要素不同时期，研究的侧重点不同划分:早期研究主要集中在该要素上泛化能力(在多项式划分):80年代以来的近期研究一致性假设:未来必须考虑（Transferlearning）TransferlearningTransferlearning这一概念是由DARPA（美国国防高级研究计划局）在2005年正式提出来的一项研究计划。TransferLearning是指系统能够将在先前任务中学到的知识或技能应用于一个新的任务或新的领域。传统机器学习&转移学习TransferLearning=“举一反三”我们人类也具有这样的能力，比如我们学会了国际象棋，就可以将下棋的方法应用于跳棋，或者说学起跳棋来会更容易一些；学会了C++，可以把它的一些思想用在学习Java中；再比如某人原来是学物理的，后来学习计算机时，总习惯把物理中的某些思想和概念用于计算机科学中。用我们通俗的话总结，就是传统机器学习=“种瓜得瓜，种豆得豆”迁移学习=“举一反三”机器学习是多学科的交叉机器学习学科1983年，R.S.Michalski等人撰写《机器学习：通往人工智能的途径》一书1986年，MachineLearning杂志创刊1997年以TomMitchell的经典教科书《machinelearning》中都没有贯穿始终的基础体系，只不个是不同方法和技术的罗列机器学习还非常年轻、很不成熟机器学习的分类传统上，大致可分为4类：归纳学习解释学习遗传学习（GA)连接学习(神经网络）归纳学习是从某一概念的分类例子集出发归纳出一般的概念描述。这是目前研究得最多的学习方法，其学习目的是为了获得新的概念、构造新的规则或发现新的理论。这种方法要求大量的训练例，而且归纳性能受到描述语言、概念类型、信噪比、实例空间分布、归纳模式等的影响。解释学习（分析学习）是从完善的领域理论出发演绎出有助于更有效地利用领域理论的规则。其学习目的是提高系统性能，而不是修改领域理论。它与归纳学习相反，只需要少量的训练例，但要求有完善的领域理论，而且学习效果也与例子表示形式、学习方法（正例学习或反例学习）、概括程度等有关。机器学习面临的挑战随着应用的不断深入,出现了很多被传统机器学习研究忽视、但非常重要的问题（下面将以医疗和金融为代表来举几个例子）机器学习正与众多学科领域产生了交叉，交叉领域越多,问题也越多,也正是大有可为处.例子1：代价敏感问题医疗：以癌症诊断为例，“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的。金融：以信用卡盗用检测为例，“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的。传统的ML技术基本上只考虑同一代价如何处理代价敏感性？在教科书中找不到现成的答案。例子2：不平衡数据问题医疗：以癌症诊断为例，“健康人”样本远远多于“病人”样本。金融：以信用卡盗用检测为例，“正常使用”样本远远多于“被盗用”样本。传统的ML技术基本上只考虑平衡数据如何处理数据不平衡性？在教科书中找不到现成的答案例子3：可理解性问题医疗：以乳腺癌诊断为例，需要向病人解释“为什么做出这样的诊断”金融：以信用卡盗用检测为例，需要向保安部门解释“为什么这是正在被盗用的卡”传统的ML技术基本上只考虑泛化不考虑理解如何处理可理解性？在教科书中找不到现成的答案机器学习的最新进展算法驱动(建模与数据分析)应用驱动算法驱动海量非线性数据(108-10)算法的泛化能力考虑学习结果数据的解释代价加权的处理方法不同数据类型的学习方法应用驱动自然语言分析、网络与电信数据分析、图像数据分析、金融与经济数据分析、零售业数据分析、情报分析。Web信息的有效获取(新一代搜索引擎)。由此导致各种学习任务：数据流学习、多实例学习(部分放弃独立同分布条件)、Ranking学习、蛋白质功能分析,DNA数据分析，…….它们需要使用各种不同方法，解决实际问题。应用驱动机器学习流形机器学习半监督机器学习多实例机器学习Ranking机器学习数据流机器学习图模型机器学习……流形机器学习—高维数据的低维表示流形（manifold）就是一般的几何对象的总称。比如人，有中国人、美国人等等；流形就包括各种维数的曲线曲面等。和一般的降维分析一样，流形学习把一组在高维空间中的数据在低维空间中重新表示。比如在基于内容的图像检索中，当特征向量的维数非常高时，建立图像特征库时的存储高维特征的空间复杂度和度量图像之间相似性的运算复杂度都将非常的高。线性方法–PCA(PrincipalComponentAnalysis)–ICA(IndependentComponentAnalysis)非线性方法–LLE(LocallinearEmbeding)(Roweis,Science,2000)–Isomap(Tenenbaum,Science,2000)比较常用的降维算法比如PCA，是针对线性分布的高维数据进行降维的算法，并且有局部最优的问题。而LLE（LocalLinearEmbedding）算法则针对于非线性数据。在这个例子里，用LLE进行降维成功的体现了数据内在的局部分布结构，而用PCA映射则会将高维空间里的远点映射到低维空间后变成了近邻点。半监督机器学习半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。多示例机器学习传统的机器学习中，一个对象有一个描述，而在一些实际问题中，一个对象可能同时有多个描述，到底哪个描述是决定对象性质(例如类别)的，却并不知道。解决这种“对象：描述：类别”之间1:N:1关系的学习就是多示例学习Ranking机器学习其原始说法是learningforranking问题主要来自信息检索，假设用户的需求不能简单地表示为“喜欢”或“不喜欢”，而需要将“喜欢”表示为一个顺序，问题是如何通过学习，获得关于这个“喜欢”顺序的模型。数据流机器学习在网络数据分析与处理中，有一类问题，从一个用户节点上流过的数据，大多数是无意义的，由于数据量极大，不能全部存储，因此，只能简单判断流过的文件是否有用，而无法细致分析如何学习一个模型可以完成这个任务，同时可以增量学习，以保证可以从数据流中不断改善(或适应)用户需求的模型研究现状主要以任务为驱动力,学习方法有待创新以上这些机器学习方式还处于实验观察阶段，缺乏坚实的理论基础实际应用效果仍有待研究当前机器学习所面临情况是：数据复杂、海量，用户需求多样化。从而,要求：(1)需要科学和高效的问题表示，以便将其学习建立在科学的基础上(2)应用驱动成为必然,从而针对某个或某类应用给出特定的学习方法将不断涌现(3)对机器学习的检验问题只能在应用中检验自己(4)对机器学习的结果的解释,将逐渐受到重视现在我们逐一讨论几种比较常用的学习算法……7.3机械学习机械学习（RoteLearning）又称为记忆学习或死记硬背式的学习。这种学习方法直接记忆或存储环境提供的新知识，并在以后通过对知识库的检索来直接使用这些知识，而不再需要进行任何的计算和推导。机械学习是一种基本的学习过程，虽然它没有足够的能力独立完成智能学习，但存储对于任何智能型的程序来说，都是必要的和基本的。记忆学习是任何学习系统的一部分，任何学习系统都要将它所获取的知识存储在知识库中，以便使用这些知识。机械学习的过程执行机构每解决一个问题，系统就记住这个问题和它的解。简单的机械学习模型：1212(,,,)(,,,)npXXXYYY1212((,,,),(,,,))npXXXYYYf存储输入输出知识联想对执行单元例子：汽车修理成本估算系统输入：有关待修理汽车的描述，包括制造厂家、出厂日期、车型、汽车损坏的部位以及它的损坏程度输出：该汽车的修理成本例子：汽车修理成本估算系统为了进行估算，系统必须在其知识库中查找同一厂家，同一出厂日期、同一车型、同样损坏情况的汽车，然后把知识库中对应的数据作为修理成本的估算数据输出给用户。如果在系统的知识库中没有找到这样的汽车，则系统将请求用户给出大致的费用并进行确认，系统则会将该车的描述和经过确认的估算费用存储到知识库中，以便将来查找使用。数据化简级别图莱纳特(Lenat)，海斯·罗思(HayesRoth)和克拉尔(Klahr)等人于1979年提出：可以把机械学习看成是数据化简分级中的第一级。机械学习与计算、归纳和推理之间的关系如下图所示。存储计算推导归纳算法与理论机械记忆搜索规则可以在大量病例的基础上归纳总结出治疗的一般规律，形成规则，当遇见’—个新病例时，就使用规则去处理它，而不必再重新推断解决办法，提高了工作效率。在机械学习中，我们忽略计算过程，只记忆计算的输入输出，这样就把计算问题化简成另外存储问题。数据化简级别图例如，第一次解一个一元二次方程的时候，必须使用很长的一段推导才能得出解方程的求根公式。但是一旦有了求根公式，以后再解一元二次方程时，就不必重复以前的推导过程，可以直接使用求根公式计算出根，这样就把推导问题简化成计算问题机械学习要注意的问题存储组织信息如何存储？使得检索时间计算时间环境的稳定性和存储信息的适应性存储与计算之间的权衡存储空间+检索时间vs计算时间只存储最常使用信息，忘记不常使用信息7.5类比学习类比学习是利用二个不同领域（源域、目标域）中的知识相似性，可以通过类比，从源域的知识（包括相似的特征和其它性质）推导出目标域的相应知识，从而实现学习。例如：1.一个从未开过truck的司机，只要他有开car的知识就可完成开truck的任务。2.若把某个人比喻为很像消防车，则可通过观察消防车的行为，推断出这个人的性格。所以，类比学习系统可以使一个已有的计算机应用系统转变为适应于新的领域，来完成原先没有设计的相类似的功能。类比推理类比推理是在两个相似域之间进行的：－源域S（已经认识的域）－目标域T（当前尚未完全完全认识的域）推理目的：从S中选出与当前问题最近似的问题及其求解方法以解决当前的问题，或者建立起目标域中已有命题间的联系，形成新知识。类比推理过程1.回忆与联想2.选择:从找出的相似情况中选出与当前情况最相似的情况及其知识。3.建立对应关系：在S与T间建立映射关系。4.转