LOGO智能控制理论及应用------------第十三章迭代学习控制主讲:尚振东河南科技大学机电工程学院汇报提纲基本原理1基本迭代学习控制算法2迭代学习控制的关键技术3机械手轨迹跟踪迭代学习控制仿真实例4线性时变连续系统迭代学习控制5移动机器人轨迹跟踪迭代学习控制6第11章迭代学习控制实际控制中存在一类轨迹跟踪问题,它的控制任务是寻找控制律,使得被控对象输出在有限时间上沿着整个期望轨迹实现零误差轨迹跟踪。这列跟踪问题是具有挑战性的控制问题。人们在处理实际场合中的重复操作任务时,往往依据对象的可重复动态行为与期望行为的差距来调整决策。通过重复操作,使得对象行为与期望行为的配合达到要求。这时,衡量动态行为的指标是某种满意指标。utyt0,T迭代学习控制(ILC,IterativeLearningControl)的思想最初由日本学者Uchiyama于1978年提出[23],于1984年由Arimoto等人[24]做出了开创性的研究。这些学者借鉴人们在重复过程中追求满意指标达到期望行为的简单原理,成功地使得具有强耦合非线性多变量的工业机器人快速高精度地执行轨迹跟踪任务。其基本做法是对于一个在有限时间区间上执行轨迹跟踪任务的机器人,利用前一次或前几次操作时测得的误差信息修正控制输入,使得该重复任务在下一次操作过程中做得更好。如此不断重复,直至在整个时间区间上输出轨迹跟踪上期望轨迹。迭代学习控制适合于具有重复运动性质的被控对象,通过迭代修正达到某种控制目标的改善。迭代学习控制方法不依赖于系统的精确数学模型,能在给定的时间范围内,以非常简单的算法实现不确定性高的非线性强耦合动态系统的控制,并高精度跟踪给定期望轨迹,因而一经推出,就在运动控制领域得到了广泛的运用。迭代学习控制方法具有很强的工程背景,这些背景包括:执行诸如焊接、喷涂、装配、搬运等重复任务的工业机器人;指令信号为周期函数的伺服系统;数控机床;磁盘光盘驱动系统;机械制造中使用的坐标测量机等。由于迭代学习控制模拟了人脑学习和自我调节的功能,因而是一种典型的智能控制方法[25]。经历了三十多年的发展,迭代学习控制已成为智能控制中具有严格数学描述的一个分支。目前,迭代学习控制在学习算法、收敛性、鲁棒性、学习速度及工程应用研究上取得了很大的进展。11.1基本原理设被控对象的动态过程为,(11.1)()((),(),)tftttxxu()((),(),)tgtttyxu式中,、、分别为系统的状态,输出和输入变量,、为适当维数的向量函数,其结构与参数均未知。若期望控制存在,则迭代学习控制的目标为:给定期望输出和每次运行的初始状态,要求在给定的时间内,按照一定的学习控制算法通过多次重复的运行,使控制输入,而系统输出第k次运行时,式(11.1)表示为:(11.2)跟踪误差为(11.3)nxRmyRruR()f()gd()tud()ty(0)kx0,tTd()()kttuud()()kttyy()((),(),)kkktftttxxu()((),(),)kkktgtttyxud()()()kkttteyy迭代学习控制可分为开环学习和闭环学习。开环学习控制的方法是:第k+1次的控制等于第k次控制再加上第k次输出误差的校正项,即(11.4)闭环学习策略是:取第K+1次运行的误差作为学习的修正项,即(11.5)式中,L为线性或非线性算子。1()L((),())kkktttuue11()L((),())kkktttuue11.2基本迭代学习控制算法Arimoto等首先给出了线性时变连续系统的D型迭代学习控制律[24](11.6)式中,为常数增益矩阵。在D型算法的基础上,相继出现了P型、PI型、PD型迭代学习控制律。从一般意义来看它们都是PID型迭代学习控制律的特殊形式,PID迭代学习控制律表示为(11.7)式中,、、为学习增益矩阵。算法中的误差信息使用称为开环迭代学习控制,如果使用则称为闭环迭代学习控制,如果同时使用和则称为开闭环迭代学习控制。1()()()kkktttuuΓeΓ1d()()()()()tkkkkktttt0uuΓeΦeΨeΓΦΨ此外,还有高阶迭代学习控制算法、最优迭代学习控制算法、遗忘因子迭代学习控制算法和反馈-前馈迭代学习控制算法等。11.3迭代学习控制的关键技术11.3.1学习算法的稳定性和收敛性稳定性与收敛性问题是研究当学习律与被控系统满足什么条件时,迭代学习控制过程才是稳定收敛的。算法的稳定性保证了随着学习次数的增加,控制系统不发散,但是,对于学习控制系统而言,仅仅稳定是没有实际意义的,只有使学习过程收敛到真值,才能保证得到的控制为某种意义下最优的控制。收敛是对学习控制的最基本的要求,多数学者在提出新的学习律的同时,基于被控对象的一些假设,给出了收敛的条件。例如,Arimoto在最初提出PID型学习控制律时,仅针对线性系统在D型学习律下的稳定性和收敛条件作了证明11.3.2初始值问题运用迭代学习控制技术设计控制器时,只需要通过重复操作获得的受控对象的误差或误差导数信号。在这种控制技术中,迭代学习总要从某初始点开始,初始点指初始状态或初始输出。几乎所有的收敛性证明都要求初始条件是相同的,解决迭代学习控制理论中的初始条件问题一直是人们追求的目标之一。目前已提出的迭代学习控制算法大多数要求被控系统每次运行时的初始状态在期望轨迹对应的初始状态上,即满足初始条件:(11.8)当系统的初始状态不在期望轨迹上,而在期望轨迹某一很小邻域内时,通常把这类问题归结为学习控制的鲁棒性问题研究。d(0)(0),0,1,2,kxxk…11.3.3学习速度问题在迭代学习算法研究中,其收敛条件基本上都是在学习次数下给出的。而在实际应用场合,学习次数显然是没有任何实际意义的。因此,如何使迭代学习过程更快地收敛于期望值是迭代学习控制研究中的另一个重要问题。迭代学习控制本质上是一种前馈控制技术,大部分学习律尽管证明了学习收敛的充分条件,但收敛速度还是很慢。可利用多次学习过程中得到的知识来改进后续学习过程的速度,例如,采用高阶迭代控制算法、带遗忘因子的学习律、利用当前项或反馈配置等方法来构造学习律,可使收敛速度大大加快。kk11.3.4鲁棒性问题迭代学习控制理论的提出有浓厚的工程背景,因此仅仅在无干扰条件下讨论收敛性问题是不够的,还应讨论存在各种干扰的情形下系统的跟踪性能。一个实际运行的迭代学习控制系统除了存在初始偏移外,还或多或少存在状态扰动、测量噪声、输入扰动等各种干扰。鲁棒性问题讨论存在各种干扰时迭代学习控制系统的跟踪性能。具体地说,一个迭代学习控制系统是鲁棒的,是指系统在各种有界干扰的影响下,其迭代轨迹能收敛到期望轨迹的邻域内,而当这些干扰消除时,迭代轨迹会收敛到期望轨迹。11.4机械手轨迹跟踪迭代学习控制仿真实例11.4.1控制器设计考虑一个关节的机器人,其动态性能可以由以下二阶非线性微分方程描述:(11.9)式中:为关节角位移量,为机器人的惯性矩阵表示离心力和哥氏力,为重力项,为控制力矩,为各种误差和扰动。设系统所要跟踪的期望轨迹为,。系统第i次输出为令。d,DqqCqqqGqττnqRnnDqR,nCqqRnGqRnτRdnτRdty0,tTitydiittteyy在学习开始时,系统的初始状态为。学习控制的任务为通过学习控制律设计,使第次运动误差减少。采用三种基于反馈的迭代学习控制律:(1)闭环D型(11.10)(2)闭环PD型:(11.11)(3)指数变增益D型:(11.12)00x1uit1i1eit1dd1kkkttttuuKqq1pd1dd1kkkkttttttuuKqqKqq1pd1dd1kkkkttttttuuKqqKqq11.4.2仿真实例针对二关节机械手,介绍一种机器人PD型反馈迭代学习控制的仿真设计方法。针对二关节机器人控制系统式(11.9),各项表示为:22ijdD2221111212122122coscccddldllllqII21221221222cosccdddlllql222222cddlI22ijcC112chq1212chqhq211chq220c2122sinchmllqT12GGG干扰项为机器人系统参数为,,,,采用三种闭环迭代学习控制律,其中为D型迭代学习控制,为PD型迭代学习控制,为变增益指数D型迭代学习控制。两个关节的位置指令分别为和,为了保证被控对象初始输出与指令初值一致,取被控对象的初始状态为。取PD型迭代学习控制,即,仿真结果如图11-1至图11-3所示。1112112212gcosgcosccGdldlqdlqq22212gcoscGdlqqTd0.3sin0.11ett121kgdd120.5mll120.25mccll2120.1kgmII29.81m/sg1M2M3Msin(3)tcos(3)tT00310x3M图11-120次迭代学习的跟踪过程图11-2第20次迭代学习的位置跟踪图11-320次迭代过程中误差范数的收敛过程11.5线性时变连续系统迭代学习控制11.5.1系统描述Arimoto等[24]给出了线性时变连续系统(11.13)的开环PID型迭代学习控制律:(11.14)其中,,为学习增益矩阵。ttttttttxAxBuyCx1dddkkktttttuuΓLΨeΓLΨ11.5.2控制器设计及收敛性分析定理1若由式(11.13)和式(11.14)式描述的系统满足如下条件[24]:(1);(2)每次迭代初始条件一致,即则当时,有,。证明:由式(11.13)及条件式(2)得则,即系统满足初始条件。1tttICBΓ00d01,2,3,,00xxyykkkdyyktt0,tT110000yCxCxykkkk000,1,2,kke非齐次一阶线性微分方程的解为:取,则由于,,则tttttxAxBu000000expdexpdexpddexpexpexpdexpexpdttttttttttxCAABuACAABuACAABu,expttΦA110,dtkkkktttxxΦBuudeyykkttt1d1eyykkttt11110,deeyyCxxCΦBuukkkkkktkkttttttttt即将PID型控制律式(11.14)代入上式,则第k+1次输出的误差为:(11.15)利用分部积分公式,令,有(11.16)将式(11.16)代入式(11.15),得(11.17)110,deeCΦBuutkkkktttt100,ddeeCΦBΓeLeΨetkkkkktttt,GCBΓtt0000d,,d,dtttkkktkkttttt