基于拟人化推理策略的行为模仿

spider301
1 ℃
2018-06-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于拟人化推理策略的行为模仿尚涛１，２，吴威１，２，刘建伟３（１．虚拟现实技术与系统国家重点实验室，北京１００１９１；２．北京航空航天大学计算机学院，北京１００１９１；３．北京航空航天大学电子信息工程学院，北京１００１９１）摘要：本文从模仿机制的再现环节入手，采用知识使用和行动预见为主的拟人化推理策略，来实现有效的行为模仿．具体地，以模糊集合间的Ｈａｕｓｄｏｒｆｆ距离作为知识使用的尺度，导入知识半径到距离型模糊推理方法当中实现知识的选择使用；以预见控制的基本思想为指导，设计行动预见模型作为知识使用的高层决策，优化知识使用策略的参数．并以驾驶行为模仿为例，验证了拟人化推理策略对于动态知识使用的有效性，实现了即学即仿的模仿效果．关键词：模仿；模糊推理；知识使用；行动预见中图分类号：ＴＰ１８１文献标识码：Ａ文章编号：０３７２２１１２（２０１０）２Ａ０８３０６ＢｅｈａｖｉｏｒＩｍｉｔａｔｉｏｎＢａｓｅｄｏｎＨｕｍａｎｏｉｄＲｅａｓｏｎｉｎｇＳｔｒａｔｅｇｙＳＨＡＮＧＴａｏ１，２，ＷＵＷｅｉ１，２，ＬＩＵＪｉａｎｗｅｉ３（１．ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＶｉｒｔｕａｌＲｅａｌｉｔｙＴｅｃｈｎｏｌｏｇｙａｎｄＳｙｓｔｅｍｓ，Ｂｅｉｊｉｎｇ１００１９１，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＢｅｉＨａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００１９１，Ｃｈｉｎａ；３．ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＢｅｉＨａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００１９１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｆｏｃｕｓｅｓｏｎｔｈｅｒｅｃｕｒｒｅｎｃｅｃｏｍｐｏｎｅｎｔｏｆｉｍｉｔａｔｉｏｎｍｅｃｈａｎｉｓｍａｎｄｐｒｅｓｅｎｔｓｈｕｍａｎｏｉｄｒｅａｓｏｎｉｎｇｓｔｒａｔｅｇｉｅｓｓｕｃｈａｓｋｎｏｗｌｅｄｇｅｕｓｅａｎｄａｃｔｉｏｎｐｒｅｖｉｅｗｔｏｉｍｐｌｅｍｅｎｔｅｆｆｅｃｔｉｖｅｂｅｈａｖｉｏｒｉｍｉｔａｔｉｏｎ．Ｃｏｎｃｒｅｔｅｌｙ，ｂｙｄｅｆｉｎｉｎｇｔｈｅＨａｕｓｄｏｒｆｆｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｆｕｚｚｙｓｅｔｓａｓｔｈｅｍｅｔｒｉｃｏｆｋｎｏｗｌｅｄｇｅｕｓｅ，ｗｅｃｏｍｂｉｎｅｄｋｎｏｗｌｅｄｇｅｒａｄｉｕｓｉｎｔｏｔｈｅｄｉｓｔａｎｃｅｔｙｐｅｆｕｚｚｙｒｅａｓｏｎｉｎｇｍｅｔｈｏｄｆｏｒｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｓｅｌｅｃｔｉｖｅｋｎｏｗｌｅｄｇｅｕｓｅ；ａｃｃｏｒｄｉｎｇｔｏｔｈｅｍａｉｎｉｄｅａｏｆｐｒｅｖｉｅｗｃｏｎｔｒｏｌ，ｗｅｄｅｓｉｇｎｅｄｔｈｅａｃｔｉｏｎｐｒｅｖｉｅｗｍｏｄｅｌａｓｈｉｇｈｌｅｖｅｌｄｅｃｉｓｉｏｎｏｆｋｎｏｗｌｅｄｇｅｕｓｅｔｏｏｐｔｉｍｉｚｅｔｈｅｐａｒａｍｅｔｅｒｓｏｆｋｎｏｗｌｅｄｇｅｕｓｅｓｔｒａｔｅｇｙ．Ｆｉｎａｌｌｙｗｅｐｒｅｓｅｎｔｅｄｔｈｅｒｅｓｕｌｔｓｏｆｄｒｉｖｉｎｇｂｅｈａｖｉｏｒｉｍｉｔａｔｉｏｎ，ｄｅｍｏｎｓｔｒａｔｅｄｔｈｅｖａｌｉｄｉｔｙｏｆｈｕｍａｎｏｉｄｒｅａｓｏｎｉｎｇｓｔｒａｔｅｇｉｅｓｉｎｄｙｎａｍｉｃｋｎｏｗｌｅｄｇｅｕｓｅ，ａｎｄｒｅａｌｉｚｅｄｑｕｉｃｋｌｅａｒｎｉｎｇａｎｄｉｍｉｔａｔｉｎｇｐｅｒｆｏｒｍａｎｃｅ．Ｋｅｙｗｏｒｄｓ：ｉｍｉｔａｔｉｏｎ；ｆｕｚｚｙｒｅａｓｏｎｉｎｇ；ｋｎｏｗｌｅｄｇｅｕｓｅ；ａｃｔｉｏｎｐｒｅｖｉｅｗ１引言模仿是指有意或无意仿效他人的语言或行为，使自己的语言或行为与对方相似．从婴幼儿最初的言语行为的获取到成人间的相互影响，模仿在问题解决过程中表现出来的有效性为众人所共知．模仿与高级形式的智力有关，是一种从根本上与人类特有的智力形式相联系的能力，特别是语言、文化和理解他人思想的能力．社会学习理论创始人·认知理论之父———阿尔伯特·班杜拉（ＡｌｂｅｒｔＢａｎｄｕｒａ）对模仿学习进行了深入的研究，认为婴儿主要是通过对各种社会言语模式的模仿学习而获得言语能力的，并将社会模仿学习分为下述四个必备的过程：①注意、②保持、③运动再现、④动机建立［１］．鉴于模仿的有效性，国内外智能科学和机器人研究人员高度关注模仿的研究和应用［２～５］，尤其在机器人研究制造领域，通过模仿人的结构和行为，使机器人能够自主适应环境的变化．近年，随着神经科学和认知科学迅速发展，相关的研究成果为揭示模仿机制的本质提供了新的参考依据［６～８］．应用模仿任务的神经成像研究表明人脑中存在类似猴镜像神经元的皮层，包括额下回、顶叶和颞上沟，这些皮层在对行为的理解、模仿学习新的复杂行为以及固有行为的协调方面起着重要作用，且这些皮层在不同实验的模仿任务中表现出相当一致的激活，体现了模仿过程中某种动态的知识运用策略．可见，建立体现人脑运用的拟人化知识使用策略对于新型模仿机制的构建是一个重要的发展方向，对于模仿的研究和应用具有重要的参考意义．收稿日期：２００９０２２０；修回日期：２００９０５１５基金项目：３２批教育部留学回国人员科研启动基金；高等学校博士学科点专项科研基金（Ｎｏ．２００８０００６０００１８）；中国博士后科学基金（Ｎｏ．２００８０４３０３０３）；国家自然科学基金（Ｎｏ．６０６７２１０２）第２Ａ期２０１０年２月电子学报ＡＣＴＡＥＬＥＣＴＲＯＮＩＣＡＳＩＮＩＣＡＶｏｌ．３８Ｎｏ．２ＡＦｅｂ．２０１０２行为模仿机制从工学研究角度，可以将模仿细化为观察、学习、记忆、再现、评价的五个环节．具体地说，观察是通过视觉以一定编码方式将环境信息和目标模仿对象传递到人脑，编码方式是对环境信息和目标模仿对象的等价描述，既可能是具体物理信息，也可能是抽象拓扑信息；学习是将输入信息划分为条件信息和行为信息，采用某种机制从获取来的信息中提取更高抽象层次的知识，并以一定编码方式存储到代表不同功能的各个脑部位；记忆是将知识存储到人脑记忆单元，知识的有效性依据在存储单元的差异在脑内存储时间的长短也不同；再现是在相同或相似的环境下依据脑内已经存储的知识，判断行为，并给出行为指令，指令将进一步支配肌肉；评价是对行为与环境作用的效果进行比较，用于反馈给大脑，进行自身调整．总之，模仿机制可以归纳为图１所示的原理图．①⑤描绘了模仿发生的主要过程，其中①④内在模型具有输入输出功能，能实现依赖知识的感觉运动状态，⑤是以内在模型为基础进行更新行为，为达到某一目标所需要运动计划而准备．虚线部分表示用于没有强化条件的新输入，表现更强适应性的模仿．本文以行为模仿为研究对象，构建模仿机制的具体模型．通过观察环节的数据采集，可以完成环境行为的信息表达，常用相对关系的物理量就可以用来描述人与环境的关系．通常行为模仿过程的数据有限性，可以简化对机器学习方法的要求．因而，集中在再现环节的推理方法建立体现人脑运用的拟人化策略是行为模仿机制的关键环节．尽管推理方法多种多样［９，１０］，但推理的过程本质是求解问题，问题求解的质量与效率不仅依赖于所采用的求解方法，而且还依赖于求解问题的策略，即推理策略．由于模仿行为的产生具有模糊特性，基于模糊集合的模糊性和模糊推理的鲁棒性，本研究采用模糊推理方法实现再现环节，通过模拟人脑知识运用的特征，建立多样的拟人化推理策略，来实现有效的行为模仿．３拟人化推理策略（一）知识使用行为模仿的过程中，人通过观察获取目标信息，激活大脑不同部位的知识加以运用来决策自己的行为．根据知识的关联程度，知识使用策略可以在推理方法中灵活运用．３１知识使用尺度知识使用的多样性取决于如何表示事实与知识之间关联程度．定量化事实与知识之间的关联程度主要包括两种：通常的隶属度函数的计算（经典的Ｚａｄｅｈ、Ｍａｍｄａｎｉ模糊推理方法），和模糊集合之间的距离值（距离型模糊推理方法［１１］）．当采用模糊集合之间的Ｈａｕｓｄｏｒｆｆ空间距离作为模糊集合之间关联程度的评价基准时，距离越大，相关性越小；距离为零时，模糊集合完全一致，相关性最大．其有效性已在理论分析和实际应用中得到了验证［１１，１２］，因而本文采用模糊集合之间的Ｈａｕｓｄｏｒｆｆ空间距离作为一种的知识使用尺度来实现推理过程中知识使用策略．在Ｈａｕｓｄｏｒｆｆ空间内，以输入事实为圆心，以各规则的前提为离散点，计算圆心和各个离散点的距离，通过用某一距离值作为圆半径来圈定使用的规则．随着圆半径的变化，圈定使用的规则的个数也发生变化．为了简化运算，以某一个规则的离散点对应距离值作为半径，定义圈定的规则个数为知识半径．导入离散的整数值范围的知识半径代替连续的实数距离值有三个主要特点：知识半径的范围明确，为不连续区间的大于１的正整数；用较少的计算量可探索最优的知识半径；可实现规则的选择性使用．例如，图２所示规则库存储有３个规则，事实与各规则的前提的距离值依次递减，知识半径的变化范围｛２３｝．知识半径用来实现在模仿过程中知识的选择使用，如果知识半径在推理过程中为常数，其描述在推理过程中使用的知识个数不变，称之为静态知识半径；如果知识半径在推理过程中为变量，其描述在模仿过程４８电子学报２０１０年中根据场景变化动态改变使用知识的个数，称之为动态知识半径．可见，知识半径是一个非常灵活的知识运用控制策略．３２结合知识半径的模糊推理方法基于Ｈａｕｓｄｏｒｆｆ空间距离运算的距离型模糊推理方法满足渐近特性和分离原则（ＭｏｄｕｓＰｏｎｅｎｓ）．本文导入知识半径到距离型模糊推理方法当中，在推理过程中利用知识半径的变化对知识加以选择使用．通常使用以下的推理对象．Ｒｉ∶ｉｆｘ１＝Ａｉ１，ｘ２＝Ａｉ２……，ｘｍ＝Ａｉｍｔｈｅｎｙ＝Ｂｉｉ＝１，２，…，ｎ，ｊ＝１，２，…，ｍ．事实：ｘ１＝Ａ１ｘ２＝Ａ２……ｘｍ＝Ａｍ输出：Ｂ其中，ｘ１，…，ｘｍ和ｙ分别表示输入变量和输出变量，Ａｉ１，…，Ａｉｍ，Ｂｉ是相应的模糊集合，ｎ是规则的个数，ｍ是前提的个数．导入知识半径的距离型模糊推理方法由以下四个步骤构成．ＳＴＥＰ１：根据式（１）计算模糊集合的事实Ａｊ和第ｉ个规则中第ｊ个前提Ａｉｊ的距离值ｄｉｊ．ｄｉｊ＝ｄｉｊ（Ａｉｊ，Ａｊ）＝｜ａｉｊ－ａｊ｜（１）在式（１）中，在适用于单点型模糊集合的情况下，两个模糊集合间的距离计算公式Ａｉｊ和Ａｊ简化为上式．事实Ａｊ和前提Ａｉｊ相距越远，计算的距离值ｄｉｊ越大．当事实Ａｊ和前提Ａｉｊ完全一致的时候，距离值ｄｉｊ为０．ＳＴＥＰ２：根据式（２），计算第ｉ个规则的所有前提与事实的距离值ｄｉ．ｄｉ＝∑ｍｊ＝１ｄｉｊ（Ａｉ，Ａｉｊ）（２）距离值ｄｉ定量表示事实与第ｉ个规则的差别．ｄｉ值越大，意味着事实与第ｉ个规则条件的关联性越弱．ＳＴＥＰ３：按着从小到大的顺序排序距离值ｄｉ，根据知识半径大小ｑ和相应距离阈值δ，如式（３）进行距离变换，其中ｓｇｎ（·）是信号函数．ｄ′ｉ：＝ｄｉ·εｓｇｎ（δ－ｄｉ）－１，ε→０（３）ｓｇｎ（ｘ）＝１，ｘ≥０－１，ｘ{＜０（４）ＳＴＥＰ４：根据式（５），计算输出结果ｙｏ．ｙ０＝∑ｎｉ＝１ｂｉ∏ｎｊ＝１，ｊ≠ｉｄ′[]ｊ∑ｎｉ＝１∏ｎｊ＝１，ｊ≠ｉｄ′ｊ＝∑ｎｉ＝１ｂｉ∏ｎｊ＝１，ｊ≠ｉｄｊ·εｓｇｎδ－ｄ()ｊ－{}[]１∑ｎｉ＝１∏ｎｊ＝１，ｊ≠ｉｄｊ·εｓｇｎδ－ｄ()ｊ－{}１（５）从式（５）可知，前提与事实的距离越近，其规则的结论部分在推理结果上起的作用越大．尤其是，当前提与事实完全一致时，其规则的结论部分作为输出结果输出．３３选择性知识使用的性质导入知识半径的距离型模糊推理方法不仅继承了原方法的性质（推导过程详见文献［１１］），而且派生了关于选择性知识使用的新特性．性质：知识半径的值ｑ作用于模糊推理中所有规则的重要性，知识半径限定的规则的权值增大，非限定的规则的权值减小为零．证明：原推理方法的输出如式（６）表示，可转化为式（７），其中ｗｉ表示规则的权值．ｙ０＝∑ｎｉ＝１ｂｉ∏ｎｊ＝１，ｊ≠ｉｄ[]ｊ∑ｎｉ＝１∏ｎｊ＝１，ｊ≠ｉｄｊ＝∑ｎｉ＝１ｂｉ∏ｎｊ＝１，ｊ≠ｉｄｊ∑ｎｉ＝１∏ｎｊ＝１，ｊ≠ｉｄｊ（６）