第7章机器学习与知识发现2019/12/191什么是机器学习?漫画:什么是机器学习?=MjM5OTA1MDUyMA==&mid=2655437041&idx=1&sn=dd702302cb3f0a7559fee99eaa93538a&chksm=bd730c868a0485909ce860fef099f024ae039dd01255c19562059f27556d6da3e241e61372c2&mpshare=1&scene=1&srcid=1012bA01lQApjqj1RzXPWSrO#rd斯坦福大学公开课:机器学习课程_全20集_网易公开课第7章机器学习与知识发现7.1机器学习的研究意义与发展史7.2机器学习的主要策略与基本结构7.3几种常用的学习方法7.4数据挖掘和知识发现方法7.5粗糙集和数据挖掘开发工具简介2019/12/194第7章机器学习与知识发现机器学习是当前人工智能和神经计算的核心研究课题之一。现有的AI系统只有非常有限的学习能力,不能满足科技和生产提出的新要求。本章将首先介绍机器学习的定义、意义和简史,然后讨论机器学习的主要策略及其各种获取知识的方法与技术。主要包括:机械学习、基于解释的学习、基于事例的学习、基于概念的学习、类比学习和基于训练神经网络的学习等。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展。现在我们先来讨论机器学习的研究意义。2019/12/19第7章机器学习57.1机器学习的研究意义与发展史学习是人类具有的一种重要智能行为,但究竟什么是学习,社会学家、逻辑学家和心理学家都各有其不同的看法。人工智能大师西蒙认为:学习就是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或类似任务时,会比现在做得更好或效率更高。西蒙对学习给出的定义本身,就说明了学习的重要作用。7.1.1机器学习的定义和研究意义(1)2019/12/19第7章机器学习67.1机器学习的研究意义与发展史机器能否象人类一样能具有学习能力呢?1959年美国的塞缪尔(Samuel)设计了一个下棋程序,该程序具有学习能力,它可以在不断的对奕中改善自己的棋艺。起先,程序下不过设计者;后来,设计者下不过程序;再后来,程序还战胜了美国一个洲的冠军。从而向人们展示了机器学习的能力,提出了许多令人深思的社会问题与哲学问题。7.1.1机器学习的定义和研究意义(1)2019/12/19第7章机器学习77.1机器学习的研究意义与发展史机器的能力是否能超过人呢?很多人认为:机器是人造的,其性能和动作完全是由设计者规定的,因此无论如何其能力也不会超过设计者本人。但是,对具备学习能力的机器来说,其能力可在应用中不断地提高,过一段时间之后,甚至设计者本人也不知它的能力达到了何种水平。7.1.1机器学习的定义和研究意义(2)2019/12/19第7章机器学习87.1机器学习的研究意义与发展史什么叫做机器学习(machinelearning)?至今,还没有一个统一定义。顾名思义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。更为严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。这里所说的“机器”,就是计算机;以后还将可能是中子计算机、光子计算机或神经计算机等等。7.1.1机器学习的定义和研究意义(2)2019/12/19第7章机器学习9定义:“机器学习是对能通过经验自动改进的计算机算法的研究”。定义:“机器学习是一种让计算机在没有事先明确地编程的情况下做出正确反应的科学”。7.1机器学习的研究意义与发展史机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。7.1机器学习的研究意义与发展史机器学习在AI研究中是较为年轻的分支,发展过程大体可分为4个时期:第一阶段50年代中到60年代中期,属于热烈时期;第二阶段从60年代中至70年代中期,称为机器学习的冷静时期;第三阶段从70年代中至70年代中期,称为复兴时期;机器学习的最新阶段始于1976年。7.1.2机器学习的发展史2019/12/19第7章机器学习147.1机器学习的研究意义与发展史机器学习主要研究内容:主要围绕三个基本方面进行1.学习机理的研究:比对人类获取知识与抽象概念等天赋能力学习机制研究,类比解决机器学习中存在的相关问题。2.学习方法的研究:研究人类的学习过程,探索各种可能的学习方法,建立起独立于具体应用领域的学习算法。3.面向任务的研究:根据特定任务的要求,建立相应的学习系统。与机器学习有关的学术活动空前活跃。国际上每年都要举行一次机器学习研讨会,还有计算机学习以及计算智能会议等。7.1.3机器学习的主要研究内容2019/12/19第7章机器学习15监督学习无监督学习机器学习算法统计分类回归分析聚类关联规则监督学习算法:统计分类监督学习算法:回归分析监督学习算法特征n目标训练集特征n目标特征n目标特征1特征1特征1………………监督学习算法:训练/学习身高发长抽烟性别1.881.4cm是男1.6615.3cm否女1.7822.6cm否女监督学习算法特征n测试集特征n特征n特征1特征1特征1………………结果目标目标目标监督学习算法:预测身高发长抽烟1.660cm是1.765.1cm否1.5514.4cm否性别男男女统计分类特征n测试集特征1……结果离散值监督学习算法:分类?回归?回归分析特征n特征1……连续值离散值连续值决策树KNN逻辑回归监督学习算法朴素贝叶斯神经网络监督学习算法随机森林SVM算法优化AdaBoost遗传算法无监督学习算法:关联规则刮风降温降雨冰雹111011001000101001111100刮风降温降雨冰雹111011001000101001111100-监督-统计分类-无监督-关联规则无监督学习算法特征n训练集特征n特征n特征1特征1特征1………………无监督学习算法:训练/学习监督学习算法特征n测试集特征n特征n特征1特征1特征1………………结果目标目标目标无监督学习算法:预测无监督学习算法K-meansBIRCHApriori特征提取特征1样本数据样本数据样本数据…n预处理特征样本集原始样本集机器学习算法训练预测输出验证集评价目标特征1…n目标特征1…n目标特征1…n训练集目标特征1…n目标特征1…n目标特征1…n验证集目标特征1…n目标特征1…n目标预测目标预测目标预测目标机器学习实施过程改进特征1…n预处理特征样本集目标特征1…n目标特征1…n目标特征1…n训练集目标特征1…n目标特征1…n目标特征1…n验证集目标特征1…n目标预处理过滤采样划分集合特征1…n目标特征1…n目标特征1…n目标特征1…n目标特征1…n目标算法A训练算法融合算法B算法C算法D特征1…n验证集目标特征1…n目标特征1…n目标特征1…n训练集1目标特征1…n目标特征1…n目标特征1…n训练集2目标特征1…n目标特征1…n目标预测•机器学习,Mitchell著,机械工业出版社;•机器学习实战,PeterHarrington著;人民邮电出版社•统计学完全教程,(美)活塞曼著;科学出版社参考书•MachineLearningbyAndrewNg线上课程•数据集下载ODPS平台海量工业数据真实业务逻辑阿里巴巴大数据竞赛入围阿里星百万奖励双11线上实战7.2机器学习的主要策略与基本结构学习是一项复杂的智能活动,学习过程与推理过程是紧密相连的。机器学习采用的策略大体分为四种:1)机械学习;2)通过传授学习;3)类比学习;4)通过事例学习等。此外,还有强化学习、基于神经元网络的学习、遗传算法、蚁群算法等高级的智能学习。学习中使用的推理越多,表明系统的学习能力越强。7.2.1机器学习的主要策略2019/12/19第7章机器学习367.2.1机器学习的主要策略7.2机器学习的主要策略与基本结构我们以西蒙的学习定义做为出发点,建立起下图7.1所示的简单的学习模型,然后通过对这个简单模型的讨论,总结出设计学习系统应当注意的某些总的原则。图7.1学习系统的基本结构7.2.2机器学习系统的基本结构(1)2019/12/19第7章机器学习387.2机器学习的主要策略与基本结构根据上述机器学习系统基本结构,环境向系统的学习部分提供某些信息;知识库用于存储学习得到的知识,它应是便于使用、便于维护的管理系统;学习部分是系统的核心,并用学习所得来修改知识库,以增进系统工作效能;执行部分则依据要求完成任务,同时把获得的信息反馈给学习部分。在具体的应用中,环境,知识库和执行部分决定了具体的工作内容,影响学习系统设计的最重要因素之一是环境向系统所提供的信息质量优劣;知识库还存放了指导执行部分动作的一般原则。7.2.2机器学习系统的基本结构(2)2019/12/19第7章机器学习397.2机器学习的主要策略与基本结构因为学习系统获得的信息往往是不完全的,所以学习系统所进行的推理并不完全是可靠的,它总结出来的规则可能正确,也可能不正确,这要通过执行效果加以检验。正确的规则能使系统的效能提高,应予保留;不正确的规则应予修改或从数据库中删除。学习系统必须具有知识库。知识库——是影响学习系统设计的第二个因素。要求其具有的功能为:(1)表达能力强。(2)易于推理。(3)容易修改知识库。(4)知识表示易于扩展。更确切地说,学习系统是对现有知识的扩展和改进。执行部分是整个学习系统的核心,因为执行部分的动作就是学习部分力求改进的工作。7.2.2机器学习系统的基本结构(3)2019/12/19第7章机器学习407.2机器学习的主要策略与基本结构按照机器学习实现途径来分,具体可分为符号学习、连接的学习、遗传算法学习等几种类型。1.符号学习:采用符号表达的机制,使用相关的知识表示方法及学习策略来实施机器学习。根据机器学习使用的策略、表示方法及应用领域的不同,符号学习具体又可分为:记忆学习、示教学习、演绎学习、类比学习、示例学习、发现学习、解释学习等类型。7.2.3机器学习分类2019/12/19第7章机器学习417.2机器学习的主要策略与基本结构2.连接学习连接学习即基于神经元网络的机器学习。神经计算连接的模型是由一些相同单元及单元间带权的联接组成,通过训练实例来调整网络中的联接权。这种连接机制是一种非符号的、并行的、分布式的处理机制。比较有名的神经网络模型和学习算法有:感知机、Hopfield模型和反向传播BP网络算法等。7.2.3机器学习分类2019/12/19第7章机器学习427.2机器学习的主要策略与基本结构3.遗传算法学习遗传算法是一种优化算法。它模拟了生物的遗传机制和生物进化的自然选择:适者生存,优胜劣汰。具体地说,一个概念描述的变形对应于一个物种的个体,这些概念的诱导变化和重组,可用一个相应于自然选择准则的目标函数来衡量,将其中那些优胜者保留在基因库中。遗传算法适用于非常复杂的环境,诸如带有大量噪音和无关数据的不断更新的事物,不能明显和精确定义的目标,以及通过很长执行过程才能确定当前行为的价值等。7.2.3机器学习分类2019/12/19第7章机器学习437.3几种常用的学习方法1.机械记忆学习模式:机械学习是最简单的机器学习方法——记忆,即把新的知识存储起来,供需要时检索调用,而不需要计算和推理。机械学习是最基本的学习过程,因为任何学习系统都必须记住它们获取的知识。当然,对于其它学习系统,需要对各种建议和训练例子等信息进行加工处理后,才能存储起来。7.3.1机械学习2019/12/19第7章机器学习4