第3章-人工智能基础知识——机器学习与算法

中央狙击手
2 ℃
2020-02-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

人工智能基础知识发现规律规则测试结果评估邮件Xi测试数据Yi：垃圾邮件or正常1.发件人邮件地址异常2.标题含有低价促销信息3.低俗信息4.……机器学习主流分为：监督学习无监督学习强化学习•机器学习领域有两种主要类型：监督式和无监督式。•监督学习的目标是学习一个函数，该函数在给定样本数据和期望输出的情况下，最接近于数据中可观察到的输入和输出之间的关系。另一方面，无监督学习没有标注输出，因此其目标是推断一组数据点中存在的自然结构。预测1预测0实际1TruePositive(TP)FalseNegative(FN)实际0FalsePositive(FP)TrueNegative(TN)Accuracy=𝑇𝑃+𝑇𝑁𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁𝑃=𝑇𝑃𝑇𝑃+𝐹𝑃𝑅=𝑇𝑃𝑇𝑃+𝐹𝑁TP：正确肯定的数目；FN：漏报，没有正确找到的匹配的数目；FP：误报，给出的匹配是不正确的；TN：正确拒绝的非匹配对数；TP：实际是狗，预测是狗→TP=2FP：实际是猫，预测是狗→FP=0FN：实际是狗，预测是猫→FN=1TN：实际是猫，预测是猫→TN=2准确率(Accuracy)＝(TP+TN)/总样本＝(2+2)/5=0.8=80%P(精确率)＝TP/(TP+FP)＝2/3=0.667=66.7%R(召回率)＝TP/(TP+FN)＝2/3=0.667=66.7%R表示：样本中的正例有多少被预测正确了，它是针对我们原来的样本而言的。Recall又称为查全率。狗2猫3狗3(TP)=2(FN)=1猫2(FP)=0(TN)=2“正确的”输入输出关系完全取决于训练数据是否真实可靠，因此尽管我们确实有一个基本事实，即我们的模型假设是真实的，但并不是说现实世界中的数据标签总是正确的。嘈杂或不正确的数据标签将明显降低模型的有效性。插值：精确通过给定点；拟合：不需要精确通过给定点最小ε带：偏差最大最小通俗一点就是，对已经存在的点（训练数据）进行分析，拟合出适当的函数模型y=f(x)，这里y就是数据的标签，而对于一个新的自变量x，通过这个函数模型得到标签y。斜率搜索点和直线变化无监督学习是另一种研究的比较多的学习方法，它与监督学习的不同之处，在于我们事先没有任何训练样本，而需要直接对数据进行建模。通俗讲就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。无监督学习又称归纳性学习（clustering）利用K方式(K-means)，建立中心（centriole），通过循环和递减运算(iteration&descent)来减小误差，达到分类的目的。•1.算法简介：K-means方法是聚类中的经典算法，数据挖掘十大经典算法之一；算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高，而不同聚类中的对象相似度较小。•2.算法思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直到得到最好的聚类结果。•3.算法描述：（1）适当选择c个类的初始中心；（2）在第k次迭代中，对任意一个样本，求其到c各中心的距离，将该样本归到距离最短的那个中心所在的类；（3）利用均值等方法更新该类的中心值；（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束；否则继续迭代。无监督学习又称归纳性学习（clustering）利用K方式(K-means)，建立中心（centriole），通过循环和递减运算(iteration&descent)来减小误差，达到分类的目的。k均值聚类是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k，k由用户指定，k均值算法根据某个距离函数反复把数据分入k个聚类中。K方式提出者JamesMacQueen无监督学习的应用•案例1：发现异常银行客户数据变动查询有无资金流动异常账户信息清晰稳定并且长时间无变化需监控账户数据无异常需监控账户数据有异常账户出现异常数据无违法证据账户出现异常数据存疑需进一步分析无监督学习的应用•案例2：用户细分案例2：用户细分这个对于广告平台很有意义，我们不仅把用户按照性别、年龄、地理位置等维度进行用户细分，还可以通过用户行为对用户进行分类。通过很多维度的用户细分，广告投放可以更有针对性，效果也会更好。无监督学习的应用•案例3：推荐系统比如大家在淘宝、天猫、京东上逛的时候，总会根据你的浏览行为推荐一些相关的商品，有些商品就是无监督学习通过聚类来推荐出来的。系统会发现一些购买行为相似的用户，推荐这类用户最喜欢的商品。强化学习的定义•强化学习就是学习如何将场景（环境状态）映射到动作，以获取最大的、数值的、奖赏信号。强化学习的基本模型和原理•如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习的基本模型和原理•强化学习系统学习的目标是动态地调整参数，以达到强化信号最大。若已知r/A梯度信息，则可直接可以使用监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r/A无法得到。•强化学习的核心机制：用试错（trail-and-error）来学会在给定的情境下选择最恰当的行为。Sutton定义强化学习为：通过试错学习如何最佳地匹配状态（states）和动作（actions），以期获得最大的回报（rewards）。网络模型设计机器人大脑•机器人大脑也称为“类脑”（或智能计算机、人造大脑），它涉及了脑科学、心理学、计算机、自动化、材料、教育等等学科，关于机器人大脑的定义至今尚未有一个公认的定义。•人工智能主要应用方向之一就是智能机器人的控制。如果说驱动子系统是机器人的肌肉，能源子系统是机器人的心脏，那么控制和决策子系统就是机器人的大脑。这是机器人最重要、最复杂的一个子系统。机器人大脑机器人大脑深度学习的概念深度学习（DL）是机器学习中一种基于对数据进行表征学习的方法，是一种能够模拟出人脑的神经结构的机器学习方法。它源于人工神经网络的研究。而人工神经网络ANN（ArtificialNeuralNetwork）是从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络，简称为神经网络或类神经网络。因此，深度学习又叫深层神经网络DNN（DeepNeuralNetworks），是从之前的人工神经网络ANN模型发展而来的。“深度学习三巨头”——亚·本吉奥(YoshuaBengio)、杰弗里·辛顿(GeoffreyHinton)和杨乐昆(YannLeCun)三位深度学习之父既有各自独立的研究，又有相互间的合作，他们为人工智能领域发展了概念基础，通过实验发现了许多惊人的成果，并为证明深度神经网络的实际优势做出了贡献。近年来，深度学习方法在计算机视觉、语音识别、自然语言处理和机器人等应用领域取得了惊人的突破。2018年图灵奖获得者。YoshuaBengioGeoffreyHintonYannLeCun深度学习的概念——“深度”即层数。深度学习的概念简单的说，深度神经网络就是很深的神经网络。我们利用网络中逐层对特征进行加工的特性，逐渐从低级特征提取高级特征。深度超过8层的神经网络才叫深度学习。含有多个隐层的多层学习模型是深度学习的架构。深度学习可以通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念简单的说，深度神经网络就是很深的神经网络。我们利用网络中逐层对特征进行加工的特性，逐渐从低级特征提取高级特征。深度超过8层的神经网络才叫深度学习。含有多个隐层的多层学习模型是深度学习的架构。深度学习可以通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念深度学习的训练过程第一步自下上升非监督学习。从底层开始，一层一层的往顶层训练。采用无标定数据（有标定数据也可）分层训练各层参数，这是一个无监督训练过程，是和传统神经网络区别最大的部分，这个过程可以看作是featurelearning过程。深度学习的训练过程第二步自顶向下的监督学习。通过带标签的数据去训练，误差自顶向下传输，对网络进行微调。这一步是一个有监督训练过程，由于DL的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；所以deeplearning效果比较理想很大程度上归功于第一步的featurelearning过程。深度学习在人工智能中的地位及应用深度学习领域研究包含：优化（Optimization），泛化（Generalization），表达（Representation）以及应用（Applications）。除了应用（Applications）之外每个部分又可以分成实践和理论两个方面。深度学习在人工智能中的地位及应用深度学习已经成功应用于计算机视觉、语音识别、记忆网络、自然语言处理等领域。深度学习摧枯拉朽般地实现了各种任务，使得越来越多的机器辅助功能都变为可能。目前，无人驾驶汽车，预防性医疗保健，甚至是更好的电影推荐，都近在眼前，或者即将实现。①黑白图像的着色②机器翻译③图像中的对象分类与检测④自动产生手写体⑤自动玩游戏⑥聊天机器人人工智能技术子品牌AudiAI，旨在运用深度学习技术提供主动式的人机界面，由此作为未来第四阶段自动驾驶技术以及更高级别智能驾驶的基础。深度学习在人工智能中的地位及应用深度学习在人工智能中的地位及应用深度学习新方法：像人一样玩游戏遗传和进化算法人工免疫算法萤火虫算法智能蚁群算法粒子群算法人工鱼群算法人工蜂群算法人工智能常用的算法——仿生类人工智能涉及算法按照模型训练方式不同分类监督学习类算法人工神经网络贝叶斯类（Bayesin）类决策树（DecisionTree）类线性分类器类无监督学习类算法人工神经网络关联规则学习分层聚类算法聚类分析（Clusteranalysis）类异常检测（Anomalydetection）类半监督学习类算法强化学习类算法深度学习类算法按照解决任务的不同来分类二分类（Two-classClassification）多分类算法（Multi-classClassification）回归算法（Regression）聚类算法（Clustering）异常检测算法（AnomalyDetection）迁移学习类算法(TransferLearning)模仿生物行为的智能优化算法是近些年来国内外学者研究的热点问题，也是人工智能的一个重要分支。其主要的思想是研究或者模仿自然界群体生活的生物的社会行为而构造的随机搜索方法。蚁群算法是一种用来寻找优化路径的概率型算法。它由MarcoDorigo于1992年在他的博士论文中提出，其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。蚁群算法是一种仿生学算法，是由自然界中蚂蚁觅食的行为而启发的。在自然界中，蚂蚁觅食过程中，蚁群总能够按照寻找到一条从蚁巢和食物源的最优路径。蚂蚁的运动过程可以简单归纳如下：①当周围没有信息素指引时，蚂蚁的运动具有一定的惯性，并有一定的概率选择其他方向②当周围有信息素的指引时，按照信息素的浓度强度概率性的选择运动方向③找食物时，蚂蚁留下家相关的A信息素，找家时，蚂蚁留下食物相关的B信息素，并随着移动距离的增加，洒播的信息素越来越少④随着时间推移，信息素会自行挥发在图（a）中，有一群蚂蚁，假如A是蚁巢，E是食物源（反之亦然）。这群蚂蚁将沿着蚁巢和食物源之间的直线路径行驶。假如在A和E之间突然出现了一个障碍物，见图（b）。那么，在B点（或D点）的蚂蚁将要做出决策，到底是向左行驶还是向右行驶？由于开始路上没有前面蚂蚁留下的信息素（pheromone），蚂蚁朝着两个方向行进的概率