机器学习

jianping95
5 ℃
2020-03-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1机器学习学习是人类获取知识的重要途径和自然智能的重要标志，机器学习则是机器获取知识的重要途径和人工智能的重要标志。什么是机器学习•是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法2什么是机器学习•研究计算机怎样模拟或实现人类（动物）的学习行为，以获取新的知识或技能•重新组织已有的知识结构使之不断改善自身的性能•是人工智能的核心，是使计算机具有智能的根本途径•其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎3机器学习的一个形象描述4机器学习的一般泛型•监督学习必须预先知道学习的期望结果，并依此按照某一学习规则来修正权值。知道输入数据，知道结果，用函数预测个例无监督学习，不知道结果，根据数据特征分类•半监督学习是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。输入数据不可靠，依据权重的调整进行训练。•强化学习利用某一表示“奖／惩”的全局信号，衡量与强化输入相关的局部决策如何。(输入\输出之间没有固定的函数)5监督学习•决策树（简单问题）•人工神经网络（大量样本）•支持向量机（小样本）决策树学习决策树学习1．什么是决策树决策树(decisiontree)也称判定树，它是由对象的若干属性、属性值和有关决策组成的一棵树。其中的节点为属性（一般为语言变量），分枝为相应的属性值（一般为语言值）。从同一节点出发的各个分枝之间是逻辑“或”关系；根节点为对象的某一个属性；从根节点到每一个叶子节点的所有节点和边，按顺序串连成一条分枝路径，位于同一条分枝路径上的各个“属性-值”对之间是逻辑“与”关系，叶子节点为这个与关系的对应结果，即决策。例如图1就是一棵决策树。其中，A,B,C代表属性，ai,bj,ck代表属性值，dl代表对应的决策。处于同一层的属性（如图中的B,C）可能相同，也可能不相同，所有叶子节点（如图中的dl，l=1,2,…,6）所表示的决策中也可能有相同者。由图1不难看出，一棵决策树上从根节点到每一个叶子节点的分枝路径上的诸“属性-值”对和对应叶子节点的决策，刚好就构成一个产生式规则：诸“属性-值”对的合取构成规则的前提，叶子节点的决策就是规则的结论。例如，图1中从根节点A到叶子节点d2的这一条分枝路径就构成规则：(A=a1)∧(B=b2)=d2而不同分枝路径所表示的规则之间为析取关系。图1决策树示意图图2飞机起飞的简单决策树例1图3所示是一个描述“兔子”概念的决策树。图3“兔子”概念的决策树2.怎样学习决策树决策树是一种知识表示形式,构造决策树可以由人来完成,但也可以由机器从一些实例中总结、归纳出来,即由机器学习而得。机器学习决策树也就是所说的决策树学习。决策树学习是一种归纳学习。由于一棵决策树就表示了一组产生式规则,因此决策树学习也是一种规则学习。特别地,当规则是某概念的判定规则时,这种决策树学习也就是一种概念学习。决策树学习的基本方法和步骤是:首先,选取一个属性,按这个属性的不同取值对实例集进行分类;并以该属性作为根节点,以这个属性的诸取值作为根节点的分枝,进行画树。然后,考察所得的每一个子类,看其中的实例的结论是否完全相同。如果完全相同,则以这个相同的结论作为相应分枝路径末端的叶子节点;否则,选取一个非父节点的属性,按这个属性的不同取值对该子集进行分类,并以该属性作为节点,以这个属性的诸取值作为节点的分枝,继续进行画树。如此继续,直到所分的子集全都满足:实例结论完全相同,而得到所有的叶子节点为止。这样,一棵决策树就被生成。下面我们进一步举例说明。表1汽车驾驶保险类别划分实例集可以看出,该实例集中共有12个实例,实例中的性别、年龄段和婚状为3个属性,保险类别就是相应的决策项。为表述方便起见,我们将这个实例集简记为S={(1,C),(2,C),(3,C),(4,B),(5,A),(6,A),(7,C),(8,B),(9,A),(10,A),(11,B),(12,B)}其中每个元组表示一个实例,前面的数字为实例序号,后面的字母为实例的决策项保险类别(下同)。另外,为了简洁,在下面的决策树中我们用“小”、“中”、“大”分别代表“＜21”、“≥21且≤25”、“＞25”这三个年龄段。显然,S中各实例的保险类别取值不完全一样,所以需要将S分类。对于S,我们按属性“性别”的不同取值将其分类。由表1可见,这时S应被分类为两个子集:S1={(3,C),(4,B),(7,C),(8,B),(11,B),(12,B)}S2={(1,C),(2,C),(5,A),(6,A),(9,A),(10,A)}于是,我们得到以性别作为根节点的部分决策树(见图4(a))。考察S1和S2，可以看出，在这两个子集中，各实例的保险类别也不完全相同。这就是说，还需要对S1和S2进行分类。对于子集S1，我们按“年龄段”将其分类；同样，对于子集S2，也按“年龄段”对其进行分类（注意：对于子集S2，也可按属性“婚状”分类）。分别得到子集S11,S12,S13和S21,S22,S23。于是，我们进一步得到含有两层节点的部分决策树（如图4(b)所示）。注意到，这时除了S12和S13外，其余子集中各实例的保险类别已完全相同。所以，不需再对其进行分类，而每一个子集中那个相同的保险类别值就可作为相应分枝的叶子节点。添上这些叶子节点，我们又进一步得到发展了的部分决策树（如图4(c)所示）。接着对S12和S13，按属性“婚状”进行分类（也只能按“婚状”进行分类）。由于所得子集S121,S121和S131,S132中再都只含有一个实例，因此无需对它们再进行分类。这时这4个子集中各自唯一的保险类别值也就是相应分枝的叶子节点。添上这两个叶子节点，就得到如图4(d)所示的决策树。图4决策树生成过程图4决策树生成过程图4决策树生成过程图4决策树生成过程由这个决策树即得下面的规则集:①女性且年龄在25岁以上,则给予A类保险.②女性且年龄在21岁到25岁之间,则给予A类保险。③女性且年龄在21岁以下,则给予C类保险。④男性且年龄在25岁以上,则给予B类保险。⑤男性且年龄在21岁到25岁之间且未婚,则给予C类保险。⑥男性且年龄在21岁到25岁之间且已婚,则给予B类保险。⑦男性且年龄在21岁以下且未婚,则给予C类保险。⑧男性且年龄在21岁以下且已婚,则给予B类保险。人工神经网络人工神经网络1生物神经元及人工神经元的组成2人工神经网络的模型2.1人工神经元的模型2.2常用的激活转移函数2.3MP模型神经元1、生物神经元及人工神经元的组成神经元也称神经细胞，它是生物神经系统的最基本单元，它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分：细胞体、树突和轴突，见图5（a）。(a)简单神经元网络图(b)简化后的网络示意图(1)细胞体；(2)树突；(3)轴突；(4)突触图5简单神经元网络及其简化结构图目前多数人工神经网络的构造大体上都采用如下的一些原则：由一定数量的基本神经元分层联接；每个神经元的输入、输出信号以及综合处理内容都比较简单；网络的学习和知识存储体现在各神经元之间的联接强度上。2、人工神经网络的模型2.1人工神经元的模型神经元是人工神经网络的基本处理单元，它一般是一个多输入/单输出的非线性元件。神经元输出除受输入信号的影响外，同时也受到神经元内部因素的影响，所以在人工神经元的建模中，常常还加有一个额外输入信号，称为偏差，有时也称为阈值或门限值。神经元的输出矢量可以表示为：A=f(W*P+b)=f(∑wjpj+b)可以看出偏差被简单地加在W*P上作为激活函数的另一个输入分量。实际上偏差也是一个权值，只是它具有固定常数为1的权值。在网络的设计中，偏差起着重要的作用，它使得激活函数的图形可以左右移动，从而增加了解决问题的可能性。人工神经网络的学习就是过程就是对它的训练过程2.2激活转移函数激活转移函数f（Activationtransferfunction）简称激活函数，它是一个神经元及神经网络的核心之一。神经网络解决问题的能力与功效除了与网络结构有关外，在很大程度上取决于网络激活函数。线性函数、非线性斜面函数、阈值函数、S形函数人工神经网络•人工神经网络是对人类神经系统的一种模拟。尽管人类神经系统规模宏大、结构复杂、功能神奇，但其最基本的处理单元却只有神经元。人工神经系统的功能实际上是通过大量神经元的广泛互连，以规模宏伟的并行运算来实现的。•基于对人类生物系统的这一认识，人们也试图通过对人工神经元的广泛互连来模拟生物神经系统的结构和功能。人工神经元之间通过互连形成的网络称为人工神经网络。在人工神经网络中，神经元之间互连的方式称为连接模式或连接模型。它不仅决定了神经元网络的互连结构，同时也决定了神经网络的信号处理方式。人工神经网络的分类目前，已有的人工神经网络模型至少有几十种，其分类方法也有多种。例如，若按网络拓扑结构，可分为无反馈网络与有反馈网络；若按网络的学习方法，可分为有导师学习网络和无导师学习网络；若按网络的性能，可分为连续型网络与离散型网络，或分为确定性网络与随机型网络；若按突触连接的性质，可分为一阶线性关联网络与高阶非线性关联网络。无导师学习：当两个神经元同时处于激发状态时被加强，否则被减弱。它学习的是神经元之间的连接强度。有导师学习：输入向量与其输出向量构成一个训练对，不断调整权值，使输入与输出向量在一个误差范围内。人工神经网络的局限性人工神经网络是一个新兴学科，因此还存在许多问题。其主要表现有：1.受到脑科学研究的限制：由于生理实验的困难性，因此目前人类对思维和记忆机制的认识还很肤浅，还有很多问题需要解决；2.还没有完整成熟的理论体系；3.还带有浓厚的策略和经验色彩；4.与传统技术的接口不成熟。上述问题的存在，制约了人工神经网络研究的发展。2.3MP神经元模型MP神经元模型是由美国心理学家McClloch和数学家Pitts共同提出的，因此，常称为MP模型。MP神经元模型是典型的阈值型神经元，见图7，它相当于一个多输入单输出的阈值器件。．．．w1w2wrp1p2pr∑briiibpwfA1图7MP模型神经元如图7所示，假定p1，p2，…，pn表示神经元的n个输入；wi表示神经元的突触连接强度，其值称为权值；n表示神经元的输入总和，f(n)即为激活函数；a表示神经元的输出，b表示神经元的阈值，那么MP模型神经元的输出可描述为(1)式所示：．．．w1w2wrp1p2pr∑briiibpwfa1图7MP模型神经元riiibpwnnfa1(1)MP模型神经元是二值型神经元，其输出状态取值为1或0，分别代表神经元的兴奋和抑制状态。如果N＞0，即神经元输入加权总和超过某个阈值，那么该神经元兴奋，状态为1；如果N≤0，那么该神经元受到抑制，状态为0。通常，将这个规定称为MP模型神经元的点火规则。用一数学表达式表示为：对于MP模型神经元，权值w在（－1，＋1）区间连续取值。取负值表示抑制两神经元间的连接强度，正值表示加强。1000NAfnN(2)MP模型神经元具有什么特性？能完成什么功能？为了回答这个问题，我们以简单的逻辑代数运算为例来说明。例1假设一个MP模型神经元有2个输入：P1和P2，其目标输出记为T，试问它能否完成下列真值表功能？解：根据要求，神经元的权值和阈值必须满足如下不等式组：若取b值为0.5,W1和W2取0.7。可以验证用这组权值和阈值构成的2输入MP模型神经元能够完成该逻辑“或”运算。00201021bbWbWbWW(1)(2)(3)(4)不等式组真值表p1p2t111101011000如同许多代数方程一样，由MP模型激活函数得出的不等式具有一定的几何意义，所有输入样本构成样本输入空间。对于任意特定W和P的值都规定了一个超平面（决策平面），其方程为：它把超平面Rn（X∈Rn）分成了两部