人工智能第七章机器学习7.1机器学习的定义、研究意义与发展历史7.2机器学习的主要策略与基本结构7.3–7.7几种常用的学习方法7.8知识发现7.9小结37.1机器学习的定义和发展历史7.1.1机器学习的定义–机器学习的定义顾名思义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。47.1.2机器学习的发展史–机器学习的发展分为4个时期•第一阶段是在50年代中叶到60年代中叶,属于热烈时期。•第二阶段在60年代中叶至70年代中叶,被称为机器学习的冷静时期。•第三阶段从70年代中叶至80年代中叶,称为复兴时期。•机器学习的最新阶段始于1986年。7.1机器学习的定义和发展历史5机器学习进入新阶段的表现–机器学习已成为新的边缘学科并在高校形成课程。–综合各种学习方法–机器学习与人工智能问题的统一性观点正在形成。–各种学习方法的应用范围不断扩大。–数据挖掘和知识发现的研究已形成热潮。–与机器学习有关的学术活动空前活跃。7.1机器学习的定义和发展历史67.2机器学习的主要策略和基本结构7.2.1机器学习的主要策略按照学习中使用推理的多少,机器学习所采用的策略大体上可分为4种———机械学习、传授学习、类比学习和示例学习。–机械学习(死记硬背)–传授学习(灌输;推理、翻译、转化)–类比学习(模仿;寻找相似的案例)–示例学习(举一反三,归纳,抽象)77.2.2机器学习系统的基本结构1.学习系统的基本结构环境学习知识库执行图6.1学习系统的基本结构7.2机器学习的主要策略和基本结构82.影响学习系统设计的要素•影响学习系统设计的最重要因素是环境向系统提供的信息,或者更具体地说是信息的质量。•知识库是影响学习系统设计的第二个因素。知识的表示有特征向量、一阶逻辑语句、产生式规则、语义网络和框架等多种形式。•选择知识表达方式的四原则:–表达能力–推理能力–修改能力–扩展能力7.2机器学习的主要策略和基本结构97.3机械学习1.机械学习模式机械学习是最简单的学习方法。机械学习就是记忆,即把新的知识存储起来,供需要时检索调用,而不需要计算和推理。它是一种最基本的学习过程。特点:忽略推理、计算过程,提高效率7.3机械学习10存储计算推导归纳算法与理论机械记忆搜索规则图7.2数据化简级别图Lenat,Hayes-Roth,和Klahr等人于1979年关于机械学习提出一种有趣的观点,见图7.2。7.3机械学习112.机械学习的主要问题–存储组织信息:要采用适当的存储方式,使检索速度尽可能地快。•提高检索效率:索引、排序、杂凑–环境的稳定性与存储信息的适用性问题:机械学习系统必须保证所保存的信息适应于外界环境变化的需要。•知识过时,设置有效期–存储与计算之间的权衡:对于机械学习来说很重要的一点是它不能降低系统的效率。•重新计算比检索更省有效率时,失去意义;•方法:设置存储量阀值;选择忘却7.3机械学习127.4归纳学习–归纳学习(inductionlearning)是应用归纳推理进行学习的一种方法。根据归纳学习有无教师指导,可把它分为示例学习和观察与发现学习。(从个别到一般)7.4.1归纳学习的模式和规则–归纳学习的模式•其一般模式如下:–给定:观察陈述(事实)F,假定的初始断言(可能为空),背景知识(领域知识,约束,假设,优先准则)–求:归纳断言(假设)H13假设H永真蕴涵事实F,说明F是H的逻辑推理,则有:H|F或F|H;选择型概括,构造性概括:–选择性概括规则:•取消部分条件•放松条件•沿概念树上溯•形成闭合区域•将常量转化成变量解释过程实例空间规则空间规划过程147.4.2归纳学习方法1.示例学习(learningfromexamples)–动物识别–中医诊断2.观察发现学习(learningfromobservationanddiscovery)–观察学习:事例聚类,形成概念描述;–机器发现:发现规律,产生定理或规则;157.5类比学习7.5.1类比推理和类比学习方式类比学习(learningbyanalogy)就是通过类比,即通过对相似事物加以比较所进行的一种学习。其推理过程如下:回忆与联想选择建立对应关系转换P(a)∧Q(a),P(a)≌P(b)├Q(b)Q(a)167.5.2类比学习过程与研究类型类比学习主要包括如下四个过程:1.输入一组已知条件和一组未完全确定的条件。2.对两组出入条件寻找其可类比的对应关系。3.根据相似转换的方法,进行映射。4.对类推得到的知识进行校验。7.5类比学习17类比学习的研究可分为两大类:(1)问题求解型的类比学习(2)预测推定型的类比学习。它又分为两种方式:一是传统的类比法另一是因果关系型的类比7.5类比学习187.6解释学习(explanation-basedlearning)7.6.1解释学习过程和算法1986年米切尔(Mitchell)等人为基于解释的学习提出了一个统一的算法EBG:训练例子操作准则知识库新规则目标概念19EBG求解问题的形式可描述于下:给定:(1)目标概念描述TC;(2)训练实例TE;(3)领域知识DT;(4)操作准则OC。求解:训练实例的一般化概括,使之满足:(1)目标概念的充分概括描述TC;(2)操作准则OC。7.6解释学习207.7神经学习7.7.1基于反向传播网络的学习反向传播(back-propagation,BP)算法是一种计算单个权值变化引起网络性能变化值的较为简单的方法。BP算法过程包含从输出节点开始,反向地向第一隐含层传播由总误差引起的权值修正。21BP算法网络模型:BP网络的前向计算关系:–以三层网络为例,n个输入结点,m个输出结点,H个隐层结点,训练样本由(xk,dk)(k=1,2…p)组成训练对,转移函数微f()–当输入第k个样本数据时隐层结点h与输出层结点j的加权和与输出分别为:x1x2xny1y2ymWihWhjd1e2dme1emyh(k)xi(k)yj(k)])([))(()(iihihhWkxfkSfkyiihihWkxkS)()(])([)()(iihihhjhhjhjWkxfWWkykS]})([{])([)]([)(iihihhjhhjhjjWkxfWfWkyfkSfky22BP算法的权值调整方法:–令输出结点家j的误差为则k个训练样本的误差平方和为性能指标–隐层到输出层的权值调整(梯度法):–输入层到隐层的权值调整(梯度法):BP网络的训练步骤:•用小随机数初始化网络各层权值;•样本数据输入;•误差计算;•权值变化量计算;•权值调整)()()(kykdkejjj22)]()([21)]([21)(kjjjkjjkykdkeWJ)()()()]([)]()([)('kykkykSfkykdWWJhkjhjkjjhj)]([)()('kSfkekjjj其中khjhjhjkykWWJW)()()()()()()]([)]([)]()([)('',kxkkxkSfWkSfkykdWWJikhihhjjjkjjihjjhjhhkWkSfk)()]([)('其中kihihihkxkWWJW)()()(237.7.2基于Hopfield网络的学习反馈神经网络,它是一种动态反馈系统,比前馈网络具有更强的计算能力。Hopfield网络是一种具有正反相输出的带反馈人工神经元。7.7神经学习24反馈型神经网络(Hopfield网络)Hopfield网络结构Hopfield离散随机网络是Hopfield于1982提出的,1984年又提出了连续时间模型。一般在进行计算机仿真时采用离散模型,而在硬件实现时采用连续模型。Hopfield网络的重要意义;f(.)f(.)f(.)I1I2InVnV2V1W2nW22W1225一种特定的Hopfield离散网络的特性(CAM)–f(.)=sign(.)–网络计算:–Hopfield证明当Wij=Wji,网络是收敛的。–数据网络演变方式:同步与异步–网络的稳定性:稳定吸引子、极限环状态、状态发散Hopfiled算法:–(1)设置互联权值具有m个样本,x为输入样本变量,为1或-1的n维向量;–(2)对未知类别的采样初始化yi(0)=xi0=i=n-1–(3)迭代运算:–(4)网络收敛,则结束;否则转(2))(,jijiiijjIVWsignV1,0,,0,10njijijixxWmssjsiij10),)(()1(10njtyWftyniiiji267.8知识发现7.8.1知识发现的发展和定义•知识发现的产生和发展知识发现最早是于1989年8月在第11届国际人工智能联合会议的专题讨论会上提出。•知识发现的定义数据库中的知识发现是从大量数据中辨识出有效的、新颖的、潜在有用的、并可被理解的模式的高级处理过程。•数据集、新颖、潜在有用、可被人理解的、模式、高级过程277.8.2知识发现的处理过程1.数据选择。根据用户的需求从数据库中提取与KDD相关的数据。2.数据预处理。主要是对上述数据进行再加工,检查数据的完整性及数据的一致性,对丢失的数据利用统计方法进行填补,形成发掘数据库。7.8知识发现283.数据变换。即从发掘数据库里选择数据4.数据挖掘。根据用户要求,确定KDD的目标是发现何种类型的知识。5.知识评价。这一过程主要用于对所获得的规则进行价值评定,以决定所得的规则是否存入基础知识库。7.8知识发现297.8.3知识发现的方法1.统计方法:统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。(1)传统方法:收集数据,分析数据,进行推理(回归分析,判别方法,聚类分析,探索性分析)(2)模糊集(3)支持向量机(SVM)(4)粗糙集:具有三值隶属函数的模糊集,肯定属于、也许属于、肯定不属于该概念。7.8知识发现302.机器学习方法(1)规则归纳如:AQ算法(2)决策树(3)范例推理(4)贝叶斯信念网络(5)科学发现如:BACON系统(6)遗传算法3.神经计算方法(MLP、BP、Hopfield、RBF)4.可视化方法:可视化(visualization)就是把数据、信息和知识转化为可视的表示形式的过程。317.8.4知识发现的应用•知识发现已在许多领域得到应用。现在,知识发现已在银行业、保险业、零售业、医疗保健、工程和制造业、科学研究、卫星观察和娱乐业等行业和部门得到成功应用,为人们的科学决策提供很大帮助。7.8知识发现32金融–(1)市场分析与预测–(2)帐户分类、信用评估保险–(1)潜在客户评估、分析–(2)索赔合理性分析制造业(生产过程优化)市场与零售业(销售、库存、需求、零售点、价格等的分析与预测)医疗业(医疗诊断)司法(FAIS系统,识别洗钱、诈骗、犯罪分析)工程与科学(星体发现)337.9小结本章只对机器学习作个入门介绍。机器学习在过去十多年中获得较大发展。今后机器学习将在理论概念、计算机理、综合技术和推广应用等方面开展新的研究。其中,对结构模型、计算理论、算法和混合学习的开发尤为重要。在这些方面,有许多事要做,有许多新问题需要人们去解决。