武汉科技大学本科毕业设计外文翻译1RobustNeuro-ControlforAMicroQuadrotorJackF.ShepherdIII,KaganTumerConferenceonGenetic&EvolutionaryComputation,2010:1131-1138应用于微型四轴飞行器的鲁棒性神经元控制JackF.ShepherdIII,KaganTumer遗传进化算法会议,2010年,1131-1138页武汉科技大学本科毕业设计外文翻译2应用于微型四轴飞行器的鲁棒性神经元控制摘要:四轴飞行器在提供出色操控性的微型飞行器中(相对于翼飞行)是独一无二的,同时它保持了一个简单的机械结构(相对于直升机)。这种机械简单是以增加控制器的复杂度为代价的。四轴飞行器是固有不稳定的,并且微四旋翼是特别难以控制的。在本文中,我们建立一个分层神经元控制器来实现一个微(0.5千克)四旋翼控制。该控制的第一阶段旨在基于所请求的姿态(俯仰,滚动,偏转和垂直速度)稳定飞行器和输出电机转速。此控制器分四个部分围绕每个变量进行工作,然后合并并进一步优化来提高鲁棒性。控制的第二阶段的目的是达到由第一阶段提供的适当姿态时所要求的(X,Y,Z)位置。结果表明,稳定的旋翼控制可以通过该结构来实现。此外,结果还表明,神经元进化控制从一个一定大小的扰动中恢复得比基本PID控制器更快。最后,神经元进化控制器在相比于施加给PID控制器的5倍以上的传感器噪声和8倍以上的执行器噪声的情况下依然能提供稳定的飞行。分类和主题描述I.2.9[Arti_cialIntelligence]:Robotics关键词:学习::进化,适应;学习::学习1简介安全,准确地收集有关环境信息的能力对于许多军用或民用需要迅速安全的部署人员的需求是非常重要的。最近的微型飞行器(MAV)平台的增长证明了他们的战略重要性。体积小,重量轻,用途广泛的飞行器将主导侦察领域,无论是军事情报,或搜索和救援。微型飞行器最大的优势和劣势在于它们的大小。如果体积小,微型飞行器将易于运输,难以探测,制造更便宜。然而,这也使得它们更加不稳定,难以控制,并且需要有效载荷的传感器和控制器的硬件更加的小型化。传统的微型飞行器是小型化的飞机,由于其更大的固有稳定性。然而,由于控制器的硬件和软件变得更强大,旋翼机正逐渐流行。他们在悬停和垂直进行起飞和降落的能力,使它们非常适用于近距离的信息搜集任务。一个旋翼飞行器包括如图1中的4个旋翼,代替直升机中的可变桨距主旋翼,飞行器是通过调整各个电机之间的相对速度来进行操纵的。例如,增加旋翼1的速度,而在同一时间以同样量减小旋翼3的速度会引起飞行器倾倒。在相反方向上的调节将导致相反的运动。横滚的调整是使用旋翼4和2进行相同的操作。最后,旋翼之间的转动方向上的差异可以用来使飞行器绕z轴旋转。这样的控制,使飞行器内在不稳定,其中任何电机的不平衡都需要控制器不断的输入,以保持飞行器保持在空中。然而,它显着降低了固定桨距电机和小型电机的机械复杂性。它也提供了使有较小的叶片带来的更好的安全性,并将其封装在一个机体里。武汉科技大学本科毕业设计外文翻译3相关工作:四旋翼控制器以往的工作范围包括从传统的基于模型的比例积分微分(PID)控制器,到现代和最优的基于模型的技术。然而,微型飞行器对干扰和未知的动力变化非常敏感,使得精确的模型很困难,这导致了对自适应控制方法的探索。一个主要基于模型的控制器,增加上神经网络以考虑动态和未知参数的非线性,被证明是成功的。同样地,使用神经网络来充当一个现代控制策略观察者可能是可取的。图1:四旋翼布局:横滚(围绕x轴旋转)由用相反的数值调整电机2和4来控制。俯仰(围绕y轴旋转)由旋翼1和3作相似的调整来控制。偏航(围绕z轴旋转)由旋翼2,4同时调整一个和旋翼1,3大小相同,方向相反的调整量来实现控制。用人工控制的飞行期间所采集的数据点同时使用神经网络和强化学习来增强一个控制器也被探索过。然而,由于四旋翼飞行器固有的不稳定性,它们不能在没有一些稳定性辅助的情况下由人工操作飞行。由于之前的工作使用人类飞行员控制下的数据,它会导致一个人为的约束,就是即使自适应控制器已经训练好了也会使用这些平滑稳定的操作。然而,这种监督的强化学习控制在无人直升机自主控制的情况下已被证明是非常有效。无模型自适应控制在许多领域有一个经过验证的成功率,从机械手,单机器人导航,多个自主车辆的协调。这种控制可以用来设计一个没有建立一个完整模型需求的控制器或飞行员的训练以及稳定例程的关联。在这项工作中,神经网络被用来在功能上近似的替换掉现实的模型,来为四旋翼飞行提供必要的信息。神经网络建立一个从输入到输出的非线性映射,通过它我们假设可以充分捕捉旋翼的动态和创建一个强大的控制器。作为使用监督学习和记录的数据点集合以确定正确的行为的替代,如在几个如前所述的情况下,我们使用神经演化算法来整定一个训练有素的控制器。神经-进化算法武汉科技大学本科毕业设计外文翻译4基于一些的成本函数将每个控制器排名。更高性能的控制器随后以一定的概率发生突变,以搜索一个最佳解决方案。这项工作采用增广拓扑结构(NEAT)算法的神经演变。该算法允许在网络中修改包括对权重的改变以及拓扑的改变。我们的工作使用实时NEAT算法,使之后在硬件中实施的进一步的控制器训练和调整成为可能。许多神经进化算法的一个缺点是在大型搜索域,它们需要多次反复,才能找到一个甚至是平庸的解决方案。尽管在陆上机器人身上神经进化工作的非常成功,在该领域一个坏的解决方案意味着机器人不会朝着目标,但对于神经网络的学习仍然可以提供足够的信息。在无人机领域一个坏的解决方案意味着坠毁,并且不能提供一点有用的信息来学习。内容:这个工作的目的是开发能够在三维空间中的运动过程中保持四旋翼稳定性的控制器。我们假设开发了自适应控制器将在几种类型的条件下保持稳定:未建模的干扰(代表阵风),传感器和致动器的噪声(如存在于所有物理环境),以及参数化的差别(用参数来显示这种控制器控制下能够稳定的能力的范围)。本文阐述了神经控制器在MAV旋翼飞行层次的开发和测试。第2节介绍了用于开发仿真的模型。第3节讨论了控制器的公式化,以及它们的训练。第4节总结了我们关键的实验发现与最终控制器。第5条给出了结论言论和重申这项工作的贡献。2.建模与仿真四旋翼飞行器的数学模型是在先前开发的模型的基础上建立的。我们这里简要总结了其发展过程。首先,有两个坐标系统要注意的,地球坐标系,和飞行器的坐标系。这是通过三个连续的旋转相关联的。横滚(Roll):绕x轴旋转俯仰(Pitch):绕y轴旋转偏航(Yaw):绕z轴旋转主要的空气动力,iU,是由机身上的电机提供,正比于电机的转速的平方i其中,U1是所有四个转子的总推力,U2是转子2和4的推力差(即横滚力矩),U3是转子3和1的推力差(即俯仰力矩),U4是对角的电机的推力差(即偏航力矩)。推力和阻力系数,分别为B和D,都是飞行器依赖的参数,它们也是正比于电机之间的速度差。武汉科技大学本科毕业设计外文翻译5为了得出运动方程,我们先从力的平衡方程开始,其中R是旋转矩阵,Fb的是体积力。这产生了飞行器在地球坐标系中的x,y和z轴的加速度。为了找到角加速度,我们还需要一个力矩平衡,其中I是机体性矩阵,是转动惯量,α被角加速度,是角速度,为机身的扭矩。这引出了在上述的力和力矩方面的运动方程:其中,x,y和z表示飞行器在地球参照系中的位置,和,是横滚,俯仰角和武汉科技大学本科毕业设计外文翻译6偏航角,如上所述。其他变量,不包括和Ω,是飞行器参数。这些参数的值,如在此工作中使用的,在表2中。假设在某个很短的时间步长内有一个恒定的加速度,我们就可以在这个时间步长内确定速度和位置的变化。时间步长的适当选择为我们提供了所选择的四旋翼飞行器的几个参数的相对准确的模拟。3、控制器简介飞四旋翼飞行器,因为其电机速度差异的固有敏感性,即使在模拟中,也是一个难题。虽然,从理论上讲,需要学习的信息可以在单个目标函数中进行编码,进行搜索的空间是非常大的,而成功飞行的控制器的解空间是非常小的。由于我们对飞行器四个电机响应速度不同的理解,我们在控制器的开发中使用这方面的知识。为了代替只用一个控制器来控制所希望的位置的输入和移动到目标位置所需的转子速度的输出,我们开发了有层次结构的控制器。在最高层级,位置控制器在姿态控制器提供的横滚角,俯仰角,偏航角,以及垂直速度的帮助下移动飞行器。此姿态控制器被进一步分解成几个简单的控制器,每一个都能调整电机速度以独立地控制四个姿态变量。图2:姿态控制器的结构独立地调整电机速度来控制横滚角,俯仰角和偏航角,以及垂直速度。每个控制器接收来自所需的设定点的积分和微分的差异来做为输入。武汉科技大学本科毕业设计外文翻译73.1姿态控制器姿态控制器负责飞行器的稳定性和运动。它调整电机速度使飞行器达到成所需的由横滚角,俯仰角,偏航角,以及垂直速度描述的姿态和轨道。3.1.1姿态控制器简介这个控制器接受期望姿态的信息和传感器的信息,其中传感器的信息是以四个姿态变量期望的和实际的差的微分和积分的形式来传输的。这给控制器提供了有关绝对误差,以及误差如何变化的信息。依据这些,控制器输出所有四个电机所需的期望转子速度。由于四旋翼的姿态即使在转速很小的变化时也非常敏感,直接训练姿态控制器被证明是非常具有挑战性的。作为替换,它被细分为在图2中展示的四个控制器,分别独立地使用相应的三个输入来调整横滚角,俯仰角偏航角和垂直速度。这四个姿态参数被组合如下:其中,是每个转子的速度,AAA,,,是横滚角,俯仰角和偏航角的调整量,是垂直速度的调节量。将姿态控制器分开可以使四个神经控制器独立的进行训练,这使得它们可以很快的学习并在飞行器上达到期望的效果,当所有四个控制器都进行了培训,它们就将合并起来,如图3所示并像公式6一样呈现。这导致一个姿态控制器产生一个期望的电机速度需要12个原始的输入。武汉科技大学本科毕业设计外文翻译8图3:对每个神经控制器的输入和输出进行组合,以形成一个单一的,更高水平的姿态控制器,输出的电机速度是由四个子控制器计算得出的。3.1.2姿态控制器的训练上述每一个在图2(横滚,俯仰,偏转和垂直速度)显示出的单个控制器是分别训练得。为了从一个稳定悬停开始,一开始仅仅被设置为克服重力的水平。PID控制器是对这三个角度中的任意一个而设计的。该PID控制器进行了调整,使其有一个没有超调的合理的快的反应时间。这个PID控制器被用作训练的起始点。与对一些稳定的目标函数进行训练不同,这些独立角度控制器被训练来匹配期望PID控制器,在神经进化训练过程中合格度定义如下:其中神经控制器预计的调整量,是PID控制器接受输入后计算得调整量。这个合格度是基于PID控制器和神经控制器的电机速度之差来改变的。这个合格度是这个差的负指数,所以一个小的差会导致一个很大的接近1的合格度而一个大的差将导致一个接近0的合格度。在训练过程中,每个姿态控制器都被给予七个涵盖了预期运动范围的数据点:武汉科技大学本科毕业设计外文翻译9[]是给横滚角和俯仰角控制器的,而[-]是给偏航角控制器的。神经控制器的插值将允许将允许它达到给定范围内的任何角度并使飞行器保持在那个状态。这些数据点对所有潜在的控制器合格度评估都是一样的。这个合格度测量了这个控制器作PID响应时的时间是10s。在运行时,是神经控制器,而不是PID控制器在指挥飞行器的下一个电机速度。这使控制器可以去跟踪实现给定点的PID大致曲线。在10s结束时,这个模拟被重置而给出下一个期望角度。这总体上有100个潜在的控制器。每一个都以零隐藏节点开始,否则就连接上范围为-3和3之间的随机权网络。这种NEAT神经进化算法允许随机加入的隐藏节点(3%)和额外的链路(5%)。由于电机速度调整需要按期望姿态变量的符号进行正和负的调整,一个双曲正切函数被用作激活函数,将激活节点值定在-1和1之间。训练在3000次重复后完成。用合适度评估来学习PID控制器为后续的训练提供了一