拥挤空间中的上下文感知轨迹预测摘要拥挤空间的人类运动和行为受到几个因素的影响作为场景中其他移动代理的动态,以及静态元素可能被认为是吸引力点或障碍物。在这项工作中,我们提出了人类轨迹预测的新模型,能够利用人类和人类空间的相互作用。人类的未来轨迹是通过观察他们过去的位置和与周围环境的交互而产生的。为此,我们提出了一种“上下文感知”循环神经网络LSTM模型,可以在人行道,博物馆或商场等拥挤空间中学习和预测人体运动。我们在公共行人数据集上评估我们的模型,并且提供一个新的具有挑战性的数据集,收集在一个(真实的)拥挤空间(如大型博物馆)中导航的人类视频。结果表明,与先前最先进的预测模型相比,我们的方法可以更好地预测人类轨迹。1介绍人们通常在拥挤的空间中移动,注意目标,例如朝着在场景中活跃的另一个主体或到达特定的目的地。这些可能是例如博物馆的购物展示厅,公共建筑或特定艺术品。在这样做的时候,他们能够考虑几个因素,并相应调整其路径。一个人可以根据正在移动的空间以及在他周围散步的其他人来适应她/他的路径。以同样的方式,障碍物可以稍微修改行人的轨迹,而一些其他元素可能会限制他的路径。虽然人类行为理解和人跟踪在计算机视觉文献上有着悠久的传统[9,10,15,17,22,25],近年来,我们也注意到预测模型的兴趣越来越大[2,3,7,8,20,21]。观察人们如何驾驶拥挤的场景,并且能够预测他们的未来步骤,这是一个非常具有挑战性的任务,可以在机器人,智能空间和汽车领域有关键应用[1,6,14,14,18]。图1:我们的目标是在拥挤的空间中学习和预测人类的行为。为此,我们在大型博物馆收集了多台摄像机的新数据。与之前的相比,我们的数据集允许在真正拥挤的场景中进行实验,人们不仅与彼此交互,而且还具有以丰富语义为特征的空间。预测人类目标的行动,如行人或通用代理人,例如汽车或机器人,是一个非常具有挑战性和开放性的问题。这一领域的大部分现有工作都是通过推断现场的某些属性或者试图对所观察到的代理之间的交互动态进行编码来处理预测目标轨迹的任务。然后通过建模和学习人类空间[3,5,7]或人类的相互作用[2,13,16,19,24]来实现轨迹预测。开创性的作品已经尝试用诸如社会力量的手工模型来参数化人类行为[4,15,23],而最近的方法已经尝试以数据驱动的方式推断出这些行为[2]。这一想法已被证明对于提高多目标跟踪应用的性能以及短期轨迹预测是非常成功的。事实上,能够考虑附近代理人的互动,在拥挤的场景中避免碰撞是非常重要的[2,15,16]。同时,关于特定目标与场景的静态要素(例如人行道,建筑物,树木等的位置)之间的相互作用的先前知识对于获得可靠的预测模型是至关重要的[3,7]。然而,这些模型的主要限制是,它们都只尝试模拟人与人或人-空间的相互作用。在本文中,我们介绍一种人类轨迹预测的新方法基于“上下文感知”循环神经网络模型。每个人的轨迹都通过长短期内存(LSTM)网络进行建模。为了考虑与其他人类和/或空间的相互作用,我们扩展了Alahi等人最近提出的Social-LSTM模型。[2],通过定义一个“上下文感知”池,允许我们的模型也考虑一个人附近的静态对象。提出的模型观察人类的过去位置和他与周围环境的相互作用,以便预测他近期的轨迹。结果表明,考虑人与人与空间的相互作用是获得准确预测人的轨迹的基础。本文的主要贡献有两方面:i)我们引入了一种基于LSTM架构的轨迹预测模型和一种能够学习和编码人与人与空间相互作用的新型“上下文感知”池;ii)与以前的最新技术方法相比,我们展示了所提出的模型的有效性,例如最近的社会LSTM[2],UCY数据集[11]和一个新的具有挑战性的数据集,称为博物馆馆,我们将公开发布。2途径在本节中,我们描述了我们的“上下文感知”轨迹预测模型。我们的关键假设是,每个人的行为都受到他与上下文的互动的强烈影响,无论是在场景的静态元素和在同一场景中活动的动态代理(如其他行人)方面。为此,我们用LSTM网络对每个人的轨迹进行建模。我们的工作建立在最近的社会LSTM模型之上[2],但是我们引入了一个更为一般的方法,其中可以包含人与人之间的相互作用。2.1上下文感知LSTM给定视频序列,每个轨迹以空间坐标的形式表示,使得代表第t个人在时刻t的位置。我们使用LSTM网络来表示第i个人的轨迹,如下所示:表示输入数据,是输出状态,是隐藏的其中在时间t的LSTM的状态。输入通过应用ReLU函数获得空间坐标和权重矩阵。。在训练时间1,当前输入和前一时刻的输出被更新,根据重量和偏差项,然后,更新的向量通过S形函数进行规则化以获得,分别表示输入门向量(其对新信息的贡献加权),忘记门矢量(维持旧信息)和输出门。对于tanh功能来说,相反,在新的候选值上创建一个向量,,可以添加到状态。第i个轨迹位置,在时间t考虑输出状态和双变量高斯分布时估计:其中,是高斯分布的第一和第二阶矩,而表示相关系数。这些参数是通过线性转换的输出状态与矩阵。给定第i个轨迹,通过最小化负对数似然损失来学习参数:即使这些网络是用于建模时间依赖现象的真正强大的工具,但是它们不能考虑可影响人的路径的其他因素,例如与其他人的交互以及与场景的静态元素的交互。编码人与人之间的相互作用。[2]最近引入了一种用于建模在同一空间内移动的人之间的交互建模的解决方案。在这里,为了模拟人与人的交互,在每个时间步长中,通过大小为的单元格的占用网格汇集第i个轨迹的所有邻居的位置。占用矩阵计算如下:其中是指标函数,用于为每个单元格分配的网格相应的轨迹。该矩阵允许建模每个人的邻居的存在或不存在。这两个模型不考虑一个人移动的上下文,这可能会限制他们在真正拥挤的空间中的应用。因此,我们引入了一个上下文感知池,其中明确地考虑了人与人之间的空间交互。编码人与人与空间的相互作用。考虑到人们移动的空间是获得更准确预测的基础。为此,我们首先确定场景中可以影响人类行为的一组静态对象。这些要点是手动定义的,可以只包含一些入口点或出口点,也可以包含更复杂的元素,可以以不同的方式影响人的行为(如博物馆的艺术作品)。我们的方法的概述如图2所示。一种用于建模人类空间相互作用的天真的方法,可以通过修改方程式(8)来获得,以便将每个人附近的静态元素包括在内,如下所示:图2:我们的上下文感知轨迹预测概述。LSTM的输入由被分析者(绿色),人与人之间的人与人之间的互动网格(红色)和上下文感知池(蓝色)的轨迹表示。其中表示场景中第k个静态对象的坐标。然而,这个模型的一个缺点是空间中的每一个元素对于预测是一致的。同样重要的是在邻域中存在的人可以理解轨迹是否接近碰撞。然而,应用于场景中的静态对象的相同原理有一定的限制。事实上,人类的轨迹受到人类或静态物体的不同影响。为此,我们引入一种解决方案来为后一种情况建立模型,为每个人定义一个包含相对于空间中的每个元素的距离的向量:与等式的原始解不同的(10)方程以这种方式,我们可以模拟每个静态元素可以影响一个人的路径。通过简单地修改公式(2)中定义的输入,可以获得在我们的基本LSTM模型中包含这种相互作用的直接方法,以便包括该表示公式(11)中方程式的定义,像这样的:最后,根据我们想要利用哪种方法对人与人之间的相互作用进行建模,我们可以通过连接等式(8)和(9)中的定义的表示来进一步将输入扩展到我们的模型中,分别如下:方程式(7)中定义的损失函数也被相应地修改,在LSTM优化中引入了一组参数。2.2轨迹预测在测试时间,我们考虑不同的轨迹集,训练时没有观察到。特别是,我们给我们的模型提供了在区间中观察到的所有人的位置集合。然后,我们估计每个人的近期轨迹,有如下考虑:1)他们的路径,直到时间;2)在同一时期内观察到的其他人的路径;3)在空间中的每个静态对象的距离w.r.t。表1:MuseumVisits数据集和ZARA序列的统计博物馆参观ZARA序列总人数57204平均轨迹长度42272最小轨迹长度267最大轨迹长度1019617每帧的平均人数1714与场景的互动元素有没有3实验在本节中,我们报告一组实验来评估我们的上下文环境轨迹预测的性能。我们首先描述用于评估我们的模型的数据集和用于训练我们的模型的设置。然后,我们报告我们的模型的最新和不同配置之间的比较。3.1数据集和评估协议UCY.我们的初步实验是在标准的UCY[11]数据集上进行的。该数据集包含三个序列,即ZARA-01,ZARA-02和大学,它们从鸟瞰图在两个不同的场景中获得。第一种情况,ZARA,呈现适度的人群状况。另一方面,大学的情景真的是人群众多,人们走在不同的方向,一群人陷入现场。由于该数据集不提供关于人-空间交互的任何注释,我们通过手动识别场景中的11个点来注释两个ZARA序列。这些点主要位于进入和离开位置附近。MuseumVisits.我们的新数据集已经在一个大型艺术博物馆的大厅中被采用,使用四个相机,小或不重叠。安装相机以观察大厅内的艺术作品,并且在访问期间捕捉人群。图1显示了博物馆大厅的三种不同观点。与现有的数据集不同,我们可以观察到丰富的人与人与空间的相互作用。例如,人们一起走在一起,停留在艺术品前面一段时间。针对57个不同人物的手势已经被手动注释以及一些元数据,例如一个人所属的组,一个人正在观察的艺术品等等元数据在这项工作中没有被利用。比较我们实验中使用的数据集的一些统计数据在表1中给出。在ZARA序列中观察到的人数相对于我们的数据集更高,但是它们的轨迹的平均长度真的很小。这主要是因为这个数据集的性质,因为人们不断进入和离开现场。此外,我们的数据集稍微更多的人群,每帧的平均人数为17,而不是14,最重要的是,它包括与场景中的静态对象的更丰富的交互。评估方案。。实验如下进行:观察人的轨迹3.2秒,然后使用训练模型预测4.8秒。轨迹被采样,以便每十个保持一帧;帧率为0.4,这对应于观察8帧并预测12帧,如[2,15,16]。结果以平均位移误差报告,其计算为由模型和地面真值预测的点之间的以米为单位的均方误差(MSE):其中N是要评估的轨迹的总数。表2:博物馆访问和LUCY(ZARA序列)的预测错误。结果以米为单位。MuseumVisitsUCY(ZARAsequences)TechniqueSeq1Seq2Seq3Seq4Seq5AvgSeq1Seq2AvgLSTM0.991.220.990.781.031.001.321.491.40O-LSTM1.601.430.950.761.021.151.651.401.52S-LSTM1.681.260.940.750.881.101.301.371.34Context-awareLSTM1.361.141.210.490.821.001.211.371.29Context-awareO-LSTM1.531.080.900.570.800.981.181.341.26Context-awareS-LSTM1.481.270.940.541.071.061.191.251.22表3:使用不同的汇编编码人-空间交互的博物馆访问和LUCY(ZARA序列)的预测错误。结果以米为单位。MuseumVisitsUCY(ZARAsequences)TechniqueSeq1Seq2Seq3Seq4Seq5AvgSeq1Seq2AvgContext-awareLSTM(O)1.661.551.260.811.201.301.301.401.35Context-awareO-LSTM(O)1.931.441.320.711.151.311.371.401.39Context-awareS-LSTM(O)1.661.551.260.581.201.251.311.291.303.2实施细则在我们的社会LSTM实现[2]中,我们使用与原始文件相同的参数配置。特别地,对于所有的LSTM模型,空间坐标的嵌入维度被设置为64,而隐藏状态维度等于128。一个人的社区的合并大小设置为32,用于池的窗口的大小为8*8。每个模型经过训练考虑了0.