湖南大学人工智能课件2

xiaoxiaospy
1 ℃
2020-02-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第二章智能Agent内容提要Agents和环境理性Agent环境的性质Agent的类型与结构Agent通过感知器感知环境并通过执行器对所处的环境产生影响人类Agent眼睛，耳朵为感知器手，脚，声道为执行器机器人Agent摄像头，红外距测仪为感知器马达为执行器Agent函数将任何感知历史数据映射为行为：Agent程序通过在物理系统上运行来实现Agent函数Agent=体系结构+程序感知器：地点和内容（eg.[A,Dirty]）行为：向左，向右，洗尘，无操作理性agent：对于每一可能的感知数据序列，一个理性的agent应该采取一个行为以达到最大的性能。理性判断的4个因素性能度量先验知识可以完成的行动截至到此刻的感知序列一个Agent应该根据它感知的信息和它能够进行的行为而做正确的事情正确的行为将使得Agent能够取得最大的成功性能度量：一个客观的标准来评价Agent的行为的成功性Eg.真空器agent的性能度量可以是它清洗区域的数量，花费的时间，消耗的能量，产生的噪音等等Eg.真空洗尘器8个小时内清理的灰尘总量来度量性能？以行为来度量性能不如以结果来度量性能全知：明确知道它的行动产生的实际结果并且作出相应的动作理性不等同于全知(已知的知识都是有限的)理性不等于完美：理性是使期望的性能最大化完美是使实际的性能最大化理性agent能够进行信息收集。理性的agent应该具有自主性，能够进行学习从环境的感知信息中根据历史经验来学习任务环境：包括性能(Performance)，环境(Environment)，agent的执行器(Actuators)和传感器(Sensors)，英文缩写为PEAS对于每一个智能agent,必须说明其PEAS参数Eg.自动驾驶出租车性能度量环境执行器传感器Eg.自动驾驶出租车性能度量：安全性，快速性，交通违规，舒适度，利润环境：马路，其他交通工具，行人，乘客执行器：方向盘，加速油门，刹车，语音合成器传感器：摄像头，红外或声纳，速度表，GPS,键盘，麦克风Environment:Patient,hospital,staffActuators:Screendisplay(questions,tests,diagnoses,treatments,referrals)Sensors:Keyboard(entryofsymptoms,findings,patient'sanswers)Eg.医疗诊断系统性能度量：病人的健康性，病人花费环境：病人，医院，工作人员执行器：显示屏(询问，测试，诊断，治疗方案)传感器：键盘(输入症状，现场检测，病人的回答)14Eg.挑拣零件机器人性能度量：正确挑拣的零件所占的百分比环境：零件传送带，容器执行器：机器人手臂和手传感器：摄像头，关节感知器15Eg.交互式英语教学者性能度量：最大化学生成绩环境：学生执行器：显示屏(练习题，建议，正确答案)传感器：键盘16完全可观察的vs.部分可观察的一个agent的传感器在每个时间点上都能获取环境的完整状态一个agent的传感器在每个时间点上都能获取环境的部分状态真空洗尘器？自动驾驶汽车？单agentvs.多agent单agent独自运行eg.字谜游戏多agent同时运行eg.国际象棋国际象棋vs.驾驶出租车？确定的vs.随机的环境的下一个状态完全取决于当前状态和agent执行的动作部分可观察？出租车驾驶？真空吸尘器？片段式的vs.延续式的agent的经历被分成一个个原子片段，在每个片段中agent感知信息并完成单个行动，下一个片段不依赖于以前的片段检查次品零件的机器人？国际象棋？18静态的vs.动态的环境在agent计算的时候不会变化(vs.会变化)半动态的:环境本身不变化但agent的性能评价随时间变化出租车，国际象棋，填字游戏？离散的vs.连续的环境的状态，时间的处理方式以及agent的感知信息和行动都有离散/连续之分国际象棋，出租车驾驶？环境的性质决定了agent的设计最难处理的情况：部分可观察的，随机的，连续的，动态的，延续式的，多agent的一个agent用agent函数来表示agent函数将感知数据序列映射为行为Agent程序以传感器得到的当前感知信息为输入以执行器的行动为输出仅仅以当前感知为输入而不是以整个历史感知为输入缺点表太大创建表时间长非自主性，需人工填写即使能够学习，也需要很长的时间四种基本的类型简单反射agent基于模型的反射agent基于目标的agent基于效用的agent基于当前的感知选择行动，不关注感知历史环境是完全可观察的还是部分可观察的？Eg.真空吸尘器问题，刹车问题Agent根据感知历史维持内部状态Agent随时更新内部状态信息除了根据感知信息之外，还要根据目标信息来选择行动效率比较低，需要推理搜索和规划算法当达到目标的行为有很多种的时候，需要考虑效率环境是部分可观察的和随机的，不确定下的决策过程可以通过基于效用的agent来实现。效用的作用多目标相冲突时多目标在不确定环境中一个目标有多种行为可以达到时4个组件性能元件：相当于整个agent评判元件：反映性能元件做得如何学习元件：负责改进提高问题产生器：提出一些新的有建设性的探索尝试Eg.出租车行驶Agents和环境理性Agent环境的性质Agent的类型与结构QA？