用于车辆轨迹预测的稀疏注意力图卷积网络

编者按：面向复杂交通场景的智能车辆决策规划需求，高精度与高效率的车辆轨迹预测成为关键支撑技术。目标车辆的未来轨迹演化既受本体运动特征影响，更与周围车辆群体的动态交互存在复杂耦合关系，这使得多智能体交互建模成为该领域的核心科学问题。同时，长时序轨迹预测（LSTF）带来的计算复杂度激增问题，进一步制约着实际工程应用效能。本研究创新性地构建了稀疏注意力机制驱动的图卷积网络（SAGCN），通过深度解析多车交互机理实现LSTF性能的系统性优化。技术框架包含两个核心模块：基于真实驾驶物理约束与交互逻辑的多车拓扑图构建模块，实现目标车辆历史轨迹与邻域车辆交互特征的联合表征；以及多模态特征学习模块，通过图卷积网络提取时空关联特征，并采用稀疏注意力机制实现预测轨迹的精准解码。基于自然驾驶场景的实证研究表明，SAGCN在预测精度指标上较现有基准模型提升12.7%，同时推理速度达到工程化部署要求，为智能驾驶系统的实时决策提供了可靠的技术解决方案。

本文译自：

《Sparse Attention Graph Convolution Network for Vehicle Trajectory Prediction》

文章来源：

IEEE Transactions on Vehicular Technology ( Volume: 73, Issue: 12, December 2024)

作者：

Chongpu Chen; Xinbo Chen; Yi Yang; Peng Hang

作者单位：

Tongji University, Shanghai Automotive Industry Corporation

原文链接：

https://ieeexplore.ieee.org/abstract/document/10638816

摘要：为实现智能车辆在复杂交通场景中制定合理的决策与规划，精确且高效的车辆轨迹预测至关重要。然而，车辆的未来轨迹不仅受其自身历史路径影响，还与周围车辆(NVs)的交互作用密切相关。因此，理解车辆间的交互关系是轨迹预测的核心挑战。此外，长时序时间序列预测(LSTF)的计算复杂度进一步增加了轨迹预测任务的难度。本文提出了一种新型网络——稀疏注意力图卷积网络(SAGCN)，旨在全面分析多车辆轨迹交互细节，并优化目标车辆(TV)的LSTF性能。具体而言，基于真实驾驶场景与车辆交互特性，构建多车辆拓扑图以融合TV的历史轨迹与NVs的交互轨迹。SAGCN通过图卷积网络(GCN)学习拓扑图中的多模态特征，并利用稀疏注意力机制计算未来轨迹。在自然数据集上的实验验证表明，与现有先进方法相比，SAGCN在预测精度与时间效率方面均表现优异。

关键词：自动驾驶，轨迹预测，车辆交互，稀疏注意力图卷积网络

Ⅰ引言

自主驾驶作为智能技术的关键组成部分，是缓解交通拥堵和提高驾驶舒适性的解决方案[1]。与人工驾驶相比，智能驾驶具有信息处理速度快、驾驶模式选择灵活、驾驶行为规范等显著优势。自动驾驶是一项多方面的工作，要求车辆执行一系列决策、规划和控制行动。这一过程依赖于传感器检测到的环境信息，确保车辆按照交通规则行驶既定轨迹，避免与周围车辆发生碰撞 [2]，[3]。为了使智能车辆能够持续制定合理的决策和计划，预测交通参与者未来轨迹的能力至关重要。然而，自动驾驶具有错综复杂的性质，其特点是车辆轨迹的不确定性和车辆之间的无数互动，这使得轨迹预测在复杂的交通场景中具有挑战性[4]。因此，实现准确、高效的车辆长序列时间序列预测（LSTF）仍然是一个持续的挑战。

预测车辆轨迹的任务主要涉及基于历史车辆轨迹数据生成未来轨迹。关于车辆轨迹预测的现有研究可以大致分为三个领域：基于模型的方法[5]，基于行为意图的方法[6]和基于深度学习的方法[7]。

基于模型的方法通过采用动态模型来简化目标车辆（TV）的表示。该模型通过一组微分方程阐明车辆的运动状态。动态方程通常涉及加速度和前轮角度等输入，有助于计算车辆坐标的轨迹。著名的动态模型包括恒速（CV）模型、两自由度模型 [8]、[9]。在实际预测过程中，车辆状态被直接纳入动态方程，以迭代计算车辆的未来轨迹。然而，为动态方程获取必要的车辆状态往往具有挑战性。因此，我们采用贝叶斯滤波算法（如卡尔曼滤波器 [10]、[11] ）来估计车辆状态。这种估计状态与动态模型相结合，就构成了车辆轨迹预测模型。这些基于模型的方法计算效率高，擅长短期预测。然而，动态微分方程的构建需要进行大量简化，忽略大量车辆参数以及与邻近车辆（NV）的轨迹交互。因此，基于模型的方法在 LSTF 中表现出局限性。

基于行为意图的方法认为，车辆的行驶轨迹受驾驶员行为的影响，与驾驶员的行为倾向一致。在预测过程中，车辆的未来意图是通过轨迹特征（如变道或转弯）推断出来的。然后，基于识别的行为意图生成预期轨迹[12]。各种研究采用支持向量机[13]、[14]和隐马尔可夫模型[15]、[16]来辨别和学习复杂场景中的驾驶行为。通过连续监测车辆的历史状态，可以预测其未来的行为意图。使用高斯过程[17]对轨迹进行建模，其中历史车辆轨迹用作高斯过程的样本，允许根据高斯分布原理[18]，[19]，[20]生成预测轨迹。基于行为意图的方法为驾驶员行为提供了一个整体的视角，提高了预测的准确性。然而，他们忽略了车辆间的相互作用对TV的轨迹预测的影响，在复杂的交通环境中的预测精度提出了挑战。

近年来，人工智能算法发展的激增导致人们越来越关注基于深度学习的轨迹预测方法。递归神经网络（RNN）在轨迹预测中得到了广泛的应用，利用它们在处理时间序列数据方面的专长[21]，[22]。为了解决LSTF中RNN的梯度不稳定性，LSTM或GRU[23]，[24]，[25]等改进已经证明了上级性能。注意力机制在自然语言处理（NLP）中的显著功效促使人们进一步研究其在解决车辆轨迹预测挑战方面的应用[26]，[27]。

注意力机制的演变极大地推动了长期预测领域的发展。最近的研究[28]，[29]集中在细化注意力机制，以增强稳定性和加速LSTF的过程。图神经网络（GNN）在从非欧几里德结构中提取特征方面的功效使其特别擅长分析和处理车辆间相互作用对LSTF的复杂影响。[30]，[31]，[32].然而，当面对复杂场景中的长期轨迹预测任务时，深度学习方法需要连续堆叠网络深度，从而导致大量的内存资源消耗和训练成本。

为了解决LSTF在考虑多车辆相互作用轨迹时的挑战，本文介绍了一种新的网络，称为稀疏注意图卷积网络（SAGCN）。最初，NVs对TV未来轨迹的影响被仔细审查。以车辆状态为节点特征，以车辆之间的空间关系为邻接矩阵，建立了一个综合的多车辆拓扑图。SAGCN架构采用多层图卷积网络（MLGCN）结构的基础上，这些多车辆的拓扑图。通过MLGCN网络合成多个车辆的历史交互轨迹特征，稀疏注意力网络（SAN）有助于将这些特征与真实值连接起来，以进行精确的轨迹预测。值得注意的是，SAN网络取决于注意力机制的应用[33]。认识到LSTF中注意力的计算需求不断上升，结合ProbSparse注意力机制和注意力蒸馏操作[29]来降低注意力机制下点积对的计算复杂度。该网络在自然数据集上进行了实验验证，仿真结果显示了SAGCN的上级预测精度和时间成本。本文的主要贡献概述如下：

一个多车辆拓扑图，封装多个车辆之间的历史互动制定。作为一种创新的网络架构，SAGCN熟练地利用GCN从该图中提取特征。这种能力使SAGCN能够在生成未来轨迹时系统地纳入NV的影响，从而显着提高轨迹预测的准确性。

在SAGCN中采用的稀疏注意机制解决了与LSTF中点积对相关的计算冗余。通过选择性地保留关键的计算属性，这种机制简化了计算过程，从而显著降低了长期预测中固有的整体计算复杂性。

本文的其余部分分为以下几个部分。第二部分是问题描述和建议的方法。在第三节中，使用自然数据集对所提出的方法进行了测试和比较。第四章对实验结构进行了分析和讨论，第五章对论文进行了总结。

Ⅱ问题表述和提出的模型

A.多车辆拓扑图的构建

车辆在道路上行驶时，会遇到前车和相邻车辆的影响。如图1 所示的多车场景，绿色车辆代表预测的目标车辆，棕色车辆代表位于目标车辆附近的相邻车辆。它们的轨迹变化可能会对目标车辆产生影响。因此，在目标车辆的轨迹预测过程中，不仅要考虑目标车辆的历史轨迹，还要考虑相邻车辆的轨迹。

图1. 多车辆场景

在预测车辆轨迹的过程中，必须对每台目标车辆提取相关信息，包括其历史轨迹、相邻车辆的历史轨迹以及车辆之间的空间位置关系。因此，建立一个涉及每个目标车辆及其相邻车辆的拓扑图对于囊括这些关键特征至关重要。在本研究中，以单个目标车辆为例，将相邻车道车辆和正面车辆视为其相邻车辆，如图2(a)所示的典型车辆结构信息示意图。值得注意的是，位于目标车辆后面的车辆因其影响较小而不在考虑之列。利用这种车辆结构配置，可以绘制出图2(b)所示的多车辆拓扑图。在实际场景中，车辆结构信息中不一定存在相邻车辆。因此，基于相邻车辆的默认假设，可以得出相应的多车辆拓扑图。

图2. 车辆的结构信息(a)典型车辆结构，(b)多车辆拓扑图

在多目标车辆轨迹预测中，目标车辆承担了中心的角色，每个目标车辆的多车辆拓扑图的确定是以典型车辆结构为基础的。这种方法有助于实现多目标车辆轨迹预测。因此，多车轨迹预测过程涉及单车轨迹预测方法的重复应用。为了提供更清晰的阐述，本文以单个车辆为例阐明所提出的方法。

为了利用多辆车辆的历史交互轨迹实现对一辆或多辆目标车辆的轨迹预测，必须将标准车辆配置中所有车辆的历史轨迹作为网络的输入。因此，我们将这些历史轨迹定义为输入。

其中：

是历史轨迹时间戳，并且是输入范围。

代表网络输入，其中是车辆结构中的车辆数量，下标顺序与图2(a)中的车辆编号一致。在没有特定车辆的情况下，为了保持输入特征维度的一致性，车辆状态用零向量代替。为了全面研究车辆历史状态对未来轨迹的影响，每辆车的输入特征集表示为:

其中，、为车辆轨迹坐标，为车辆纵向速度，为车辆横向速度，为纵向加速度，为横向加速度。目标车辆的未来轨迹，即网络的输出定义为:

其中：

表示预测轨迹的时间戳，是预测范围。

代表目标车辆在未来某个时间的未来轨迹坐标。将每个轨迹坐标沿时间方向排列，即可得到最终的预测轨迹。

车辆在交通流中的移动不可避免地会受到相邻车辆的影响。因此，在预测目标车辆的未来轨迹时，必须同时考虑车辆状态和它们之间的空间关系。考虑到车辆之间的相对位置可能会随时间而变化，如图3所示，通过考虑与多辆车历史轨迹相关的时间戳，构建了一个时间序列多车辆拓扑图。此外，在每个特定时间戳拓扑图中，节点之间的空间属性可以通过邻接矩阵：

其中：

这种方法可以聚合目标车辆周围的所有邻近信息，但却忽略了节点自身信息的聚合。要解决这个问题，就需要将邻接矩阵的对角线修改为 1，表示节点的个体信息也被视为邻接信息。修改后的邻接矩阵表示为：

在整个输入范围内，沿时间方向排列邻接矩阵，以获得与输入历史轨迹序列相对应的时间邻接矩阵。

图3. 邻接矩阵计算

B. 稀疏注意力图卷积网络

本文提出的网络架构 SAGCN 如图 4 所示，分为 MLGCN 和 SAN 两部分。MLGCN 旨在接收多车辆空间拓扑图的节点特征和邻接矩阵，该图封装了 TV 及其 NVs 轨迹的时空交互信息。MLGCN 通过学习原始多车辆拓扑图，最终生成融合所有相关信息的特征图。SAN 则利用经典注意力机制结构解析 MLGCN 获得的特征图，与真实值(Ground Truth)建立连接，从而生成预测轨迹。值得注意的是，SAN 不同于传统注意力机制计算方法，它通过 ProbSparse 注意力机制和注意力蒸馏操作解决了注意力机制在 LSTF 中内存消耗高的问题，尤其考虑了多车辆拓扑图中嵌入的时空信息。以下分别介绍各组件。

图4. SAGCN网络架构

1)多层图卷积网络(MLGCN): MLGCN 的主要功能是理解多车辆拓扑图的复杂性，并将其转换为特征图。为增强图特征提取，如图 4 所示，MLGCN 网络主要采用三个 GCN 层的堆叠。在多车辆拓扑图中，NVs 对 TV 的影响存在显著差异。例如，当 TV 两侧均有车辆时，其轨迹更可能保持在车道内。因此，在这种情况下，两侧车辆的影响比前方车辆更显著。因此，在图特征构建中，应更多关注两侧车辆。基于此视角，在 GCNLayer 的每一层中，采用图注意力网络(GAT)作为 GCN 层的初始组件，以理解 NVs 对 TV 的影响。GAT 网络重构的节点特征可通过下式计算：

其中，为输出序列，为拓扑图中单个节点的特征，为可训练权重，为激活函数，注意力系数可通过下式计算：

其中，为单前馈神经网络，为权重，为节点特征，LeakyReLU 为激活函数，||为向量拼接操作。注意力值表示中心节点在聚合邻近节点信息时对该节点的重视程度。在邻接矩阵计算中，相邻节点的矩阵元素被指定为 1，本质上计算了节点间的均匀权重。因此，邻接矩阵中的有效值可替换为注意力值。具体而言，相邻节点的元素设置为其对应的注意力值，值为 0 的元素表示节点不相邻，即注意力值也为 0。因此，邻接矩阵重新表述为：

根据式 (12)，节点自身的注意力值为 1，因此邻接矩阵的对角线元素仍为 1。式 (11) 可改写为：

GAT 之后的输出序列需通过激活函数获得：

池化层在 CNN 中起着关键作用，用于减小特征向量尺寸、扩展感受野，从而展现出色的泛化能力。在本研究中，网络输出序列的维度是时空融合的。因此，在 LSTF 场景下，较长的历史轨迹会导致输入特征维度增加，进而放大 GAT 输出的特征向量规模。鉴于此，考虑对 GAT 网络输出进行池化。经典 CNN 池化操作不适用于 GCN，因此本研究采用图池化操作(gPool)进一步提炼网络特征。

图池化操作如图 5 所示，输入序列和邻接矩阵，其中为序列长度，为特征数量。通过可训练投影向量对输入序列进行矩阵乘法，得到评估每个节点在输入序列中重要性的得分向量。卷积核大小设为 2，从得分向量中筛选出得分较高的前一半元素，并记录其索引idx。随后，通过 Sigmoid 函数处理筛选后的得分向量，得到新得分向量。利用索引idx，从原始输入序列和邻接矩阵中过滤出新的池化特征向量和对应的新邻接矩阵。最终，图池化层的输出通过池化特征向量与新得分向量的逐元素相乘得到。

图5. 图池化操作

在本研究中，图池化操作应用于来自图注意力网络(GAT)的特征向量和邻接矩阵，具体如下列公式所示。最终得到图卷积网络(GCN)层的输出、。

为简化后续特征融合，为简化后续的特征融合，在图池化操作输出之后，所得向量随后通过一层前馈网络处理，得到：

其中，为前馈网络输出，为可训练权重。

如图 4 所示，GAT 网络、激活函数、图池化操作和前馈层共同构成 MLGCN 网络的子层。为增强图内特征提取并优化网络训练效率，本研究系统地堆叠了三个此类 GCN 层：

为捕获图内全局特征，对每一层的输出执行全局平均池化(GMP)，通过相加实现特征融合：

其中，为全局平均池化操作，其计算过程为：

其中，图为各节点特征，为节点数量，为池化后的全局特征。全局平均池化操作旨在通过平均图内所有节点的特征来融合全局特征，从而减小每个图的特征向量尺寸。考虑到 LSTF 中 NVs 的动态变化，输入历史轨迹可能包含多个图。因此，在批量处理多个图时，采用全局平均池化压缩每个图的全局特征，从而高效促进网络内数据传输。

在三层图卷积网络(GCN)完成全局特征融合后，最终输出将通过全连接层进行处理。这一过程生成由多层图卷积网络(MLGCN)提取的、与多车辆拓扑图相关的全局特征图。

其中，为激活函数，为可训练权重。 MLGCN 通过 GAT 网络理解多车辆拓扑图，随后通过池化操作提取全局特征图。GCN 的层堆叠增加了 MLGCN 的网络深度，允许重复提取关键图信息并增强网络泛化能力。最终，该过程将时间序列多车辆拓扑图转换为特征向量，供后续 SAN 网络分析。

2)稀疏注意力网络(SAN)

SAN 网络的作用是解析 MLGCN 生成的特征图，同时接收目标预测序列作为真实值(Ground Truth)。通过经典注意力机制架构，SAN 分析特征图与真实值之间的相关性，最终生成预测轨迹。然而，传统注意力机制在处理长度为L的输入 / 输出序列时，计算复杂度为，且内存消耗增加，这在处理长期预测问题时面临挑战。为解决这一问题，根据文献 [29]，SAN 网络采用 ProbSparse 注意力机制，选择性识别注意力值中的主导点积对，形成新的注意力值向量。这种稀疏操作减少了计算冗余，有效降低了时间复杂度。此外，在网络堆叠中，对特征向量执行最大池化操作以减轻空间复杂度。

在 NLP 的动态解码中，起始标记(start token)的使用被公认为一种有效方法。相应地，本研究指定一个标记用于真实值，以引导网络生成准确预测。不同于使用特定标志，输入序列的后半部分被选作标记。假设网络需要根据前 5 秒的历史轨迹预测未来 5 秒的轨迹，则选择输入轨迹中 3 秒到 5 秒的序列作为标记。该标记与 5 秒的真实值拼接后输入 SAN 网络：

其中，为输入轨迹中最后 3 秒的数据，为真实值，为向量拼接操作，为拼接后的序列。由于 SAN 并行处理输入序列，可能会丢失固有的时间特征。因此，必须对时间特征进行编码并融入输入。时间特征编码方法如下：

其中，为编码后的时间特征向量，为时间戳，为编码特征向量的维度序号，取值范围为。为编码特征向量的维度，为常数。编码特征与拼接轨迹的融合操作如下：

其中，为融合后的序列，将作为真实值输入 SAN 网络，为可训练权重。

融合了标记和时间特征的真实值在 SAN 第一层的计算如下：

其中，为层归一化操作 [38]，为激活函数，为 ProbSparse 注意力算子，为全连接层的可训练权重。式 (33) 为 ProbSparse 注意力块，对应图 4 中 SAN 网络底部的黄色方块。式 (34) 为 ProbSparse 注意力块上方的全连接层。通过层归一化和残差连接，这两个计算块构成 SAN 网络的一层。

在ProbSparse注意机制中，网络的输入首先通过线性投影转换为查询向量、关键字向量和值向量。投影过程为，，，其中、、为输入向量，、、分别为线性投影的可训练权重。代表关注头的数量。假设，，是向量的长度，是向量的长度。是向量的维数，其中。经典的注意力计算需要、的点积运算，如式(35)所示。

其中是第个关注点。由于和的点积，存储器消耗的增加取决于输入/输出序列的长度。为了解决这个问题，采用ProbSparse注意力机制来优化计算过程中的内存消耗。最初，(35)中的输出可以被视为符合和的概率分布。方程(35)被改写为

在整个注意力计算过程中，占主导地位的点积对导致偏离均匀分布，这表明输入序列中特定点之间存在稳健的相关性。接近均匀分布表明序列中每对点之间的连接不重要，这使得和(33)中的值的点生成毫无意义，并导致残差输入的冗余。当然，关于的差异可以分辨出关键的点积对。这种差异可以通过Kullback-Leibler散度来衡量。

忽略常数项，值的稀疏度量定义为

其中，初始项表示在所有个值上的对数求和表达式(LSE)，后续项表示它们的算术平均值。如果通过获得更大的，则其注意力分布变得更加离散，表明包含优势点积对的可能性更高。为了进一步简化稀疏测量值的计算，可以适当地缩放(36)。对于和，当时，随后的不等式成立，关于推导过程的更多细节可以在[32]中找到。

因此，稀疏测量的更简化计算为

变量的用于过滤掉更有意义的。我们将所选的数量指定为，其中是调整系数。这个过程涉及根据每个气对应的值，从大到小排列，分离出数量为的气。通过这个过程，可以被重采样为。

因此，在注意力计算期间，用于计算点积的存储器使用从转变为。这一调整对减轻LSTF固有的计算复杂性具有重要意义。采用多头视角，在每个头中生成不同的稀疏查询密钥对。

因此，多头注意力函数可以使用以下方程式确定：

其中是关注头的数量。在实际的预测场景中，虽然时间的轨迹可用，但之后的轨迹仍然未知。为了在网络训练中忠实地表示这一特征，真实值应该掩盖时间之后的序列。这项研究采用了一种掩蔽机制来掩盖特定的点积注意力值，确保网络无法访问真实值序列中的未来轨迹信息。要更全面地了解掩蔽机制的基本原理，请参阅[39]。

在SAN网络中，堆叠注意力机制层会导致网络内存消耗达到[8]。因此，必须减轻网络层之间特征向量传输导致的高内存使用率。在从初始层获得输出后，为了额外压缩矢量特征，本研究采用了

如图6所示，沿时间维度（核宽度=3）进行1-D卷积，并伴有激活函数[40]。表示所采用的具有stride2的最大池化层。同时，在堆叠SAN网络的一层后，将进行下采样，使其长度减半，如图4中的SAN网络金字塔所示。这种下采样有助于将整体内存使用率降低到，其中是一个小常数。识别SAN网络层计算的特征图内的冗余，蒸馏操作用于强调特征图中的主要特征，在不改变总体特征分布的情况下在后续层中制作一个聚焦的特征图，最终优化内存效率。

图6.注意蒸馏过程的机理

为了平衡网络深度和计算效率的考虑，本研究堆叠了两层SAN网络。值得注意的是，注意力机制蒸馏操作起着至关重要的“桥梁”作用，在两个网络层之间建立了连接。因此，蒸馏操作的输出被输入到SAN网络的后续层：

其中表示SAN网络的第二层，与初始层保持一致的结构。然后，利用表示为的输出向量来推导通过全连接层的最终预测轨迹。

其中是可训练重量。 MLGCN理解多车辆拓扑图，熟练迭代地提取其固有特征。SAN网络将特征图与真实值相结合，通过稀疏注意力机制仔细检查多车辆交互的历史轨迹与TV未来轨迹之间的内在联系。MLGCN和SAN的融合构成了SAGCN网络，赋予了它提取图特征和完成长期预测的能力。

SAGCN网络的模块化架构支撑了其可扩展性和灵活性。MLGCN网络组件精通迭代提取复杂信息，而SAN网络则有效地管理与数据扩展相关的复杂性。这种模块化结构不仅提高了SAGCN网络的部署效率，还简化了开发、测试和维护过程。每个模块都可以独立修改或升级，而无需对整个网络框架进行全面检修。此外，SAGCN中的各个模块可以根据特定要求进行扩展或缩减，从而为各种问题规模和数据量提供量身定制的适应性。这种固有的模块化大大提高了SAGCN网络的实用性和可扩展性。

C.训练模型

在这项研究中，为了严格评估网络输出的结果，选择均方根误差(RMSE)作为SAGCN网络输出的损失函数

其中表示输出序列的维度，表示作为基础真值的标签序列。在每个时间步长，计算损失，并采用反向传播算法更新本文中提到的所有可训练权重，旨在最小化损失。

Ⅲ 实验

A.数据和实施细节

为了评估SAGCN模型在高速公路和城市道路上的轨迹预测性能，使用NGSIM数据集[41]和INTERACTION数据集[42]对提出的模型进行了评估。NGSIM数据集涵盖了加利福尼亚州洛杉矶US101高速公路区域内的大量多车辆轨迹。US101沿线的研究区域跨度约640米，包括五条车道，第六条车道对应于数据收集区的坡道。该数据集捕获了大量多车辆交互轨迹，显示了不同的车辆速度。值得注意的是，该数据集以10Hz的频率记录全局或局部坐标、车辆速度、加速度和其他相关车辆信息。

INTERACTION数据集包括来自不同国家城市和高速公路环境的车辆运动数据，涵盖了各种驾驶场景，如环形交叉口、信号和无信号交互、合并和变道。本研究特别利用了数据集中来自美国的城市无信号交互数据。数据收集是使用无人机和摄像头进行的，捕捉城市环境中多辆车的互动运动。该数据集以10Hz的相同频率提供了有关车辆坐标和速度的详细信息。

高频数据允许从NGSIM数据集和INTERACTION数据集中构建许多多车辆拓扑图，每个图都封装了多个有意义的特征。因此，这两个数据集是评估SAGCN网络性能的非常合适的验证数据集。

构建多车辆拓扑图的方法包括首先识别TV，然后利用数据集信息确定NV。必须考虑到，如果TV和前方车辆（包括相邻车道上的前方车辆）之间的纵向距离超过安全距离模型，则这些车辆的轨迹被认为对TV轨迹的干扰最小。因此，这些车辆不被归类为NVs。安全距离模型可以使用以下方程式计算：

其中表示TV的速度，表示时间间隔，表示最小安全距离。在10秒的持续时间内对每个车辆轨迹进行采样，其中最初的5秒构成了网络训练期间用作输入的历史轨迹。后5秒内的数据被认为是未来的轨迹。具体来说，在网络训练过程中，历史轨迹中从3秒到5秒的数据用作令牌，并与未来轨迹合并以组成真实值。

根据(4)，通过从数据集中选择局部位置坐标来识别车辆的位置特征。车辆的纵向和横向速度由局部位置坐标的差异得出。类似地，根据速度差计算纵向和横向加速度。标志的确定取决于数据集提供的车辆ID。

我们提出的模型的操作环境是Ubuntu 20.04。模型训练是在单个GeForce RTX 3070 GPU上使用pytorch-1.8框架进行的。使用Adam优化器对模型进行优化，学习率设置为0.001。

B.实验设计

在这项研究中，预测准确性和时间成本这两个指标作为网络性能的评价标准。

预测精度的评估主要分为平均最终位移误差(AFDE)和平均位移误差(ADE)。ADE表示预测轨迹和实际轨迹之间在预测范围内的平均欧几里德距离，而FDE对应于最终时间实例中预测轨迹和真实轨迹之间的欧几里德距离。

其中是预测轨迹和真实值之间的相对误差：

时间成本包括两个指标：每个历元的训练时间和每一步的预测时间。一个定义为在训练过程中优化每个历元中的权重所需的持续时间，包括反向传播和权重调整阶段。另一个是处理测试数据输入时每个步骤的预测时间。

为了评估网络的性能，我们采用既定的基准进行比较分析。

注意LSTM(ATLSTM)[23]模型采用LSTM架构，使用编码器-解码器框架制定轨迹预测模型。该模型在编码器的输出中加入了注意机制，这有助于网络更细致地理解输入轨迹。

注意时空LSTM(ATST-LSTM)[24]在LSTM网络框架内集成了一种注意机制，专门用于处理输入轨迹的时间和空间信息。这种方法显著提高了模型的性能。

结构转换器(STTF)[26]采用结构化转换器模型，集中注意力机制以增强其功能。该模型擅长同时处理来自多辆车的时间和空间数据。它高效地计算输入轨迹，并并行输出预测轨迹。

多模态运动变换器(MMTF)[27]引入了一种网络架构，该架构利用堆叠变换器通过一组独立的建议在特征级别对多模态进行建模。

时空GNN[30]采用基于图的结构来聚合TV和SV之间的交互关系，同时考虑到车辆的时空属性来生成它们的预测轨迹。

Ⅳ结果与讨论

A.网络结构分析

1)MLGCN图注意：图7显示了从测试集中随机选择的四个轨迹的图注意值。垂直轴表示TV的轨迹点，而水平轴(1到5)对应于多车辆拓扑图中的NV。该图显示，在MLGCN网络理解时间序列多车辆拓扑图的过程中，分配给每个节点的注意力值在每个时刻都有所不同。例如，在图7(a)中，在整个50秒的时间范围内，NV(4)和NV(5)始终受到更高的关注。尽管其他车辆在特定情况下可能表现出更大的注意力值，但总体而言，MLGCN网络认为NV(4)和NV(5)对TV的未来轨迹产生了最显著的空间影响。很明显，在预测过程中为这些车辆分配更多的注意力更有意义。类似地，在其余的图中，MLGCN在不同的时间范围内为所有NV分配了不同的注意力值。

图7. 图注意力

在交通流的背景下，NVs的固有随机性引入了它们对TV影响的可变性，导致车辆之间空间轨迹相互作用的动态变化，从而持续影响TV。图7展示了图形注意力可视化，强调了在处理多辆车的历史轨迹时，MLGCN不仅仅是连接NVs的轨迹。相反，它巧妙地捕捉车辆之间相互作用轨迹的动态变化，根据车辆的每次撞击分配不同的注意力级别。这种细致入微的注意力分配有助于更集中地集成来自NV的特征。因此，在进行轨迹预测时，SAGCN网络不仅考虑TV本身的历史轨迹，而且还权衡NV的轨迹的影响。这种多维特征输入增强了网络分析和学习真实数据与多车辆相互作用轨迹之间复杂关系的能力，从而提高了预测的准确性和合理性。

2)SAN-Probsparse Attention：图8描绘了Probsparse Attention机制中两组稀疏操作的复杂过程。第一行图（图8(a)至(b)）展示了稀疏运算前分布，第二行图（图 8(a)至(b)）分别展示了对图 8(a)至(b)中各自的分布进行稀疏运算后的分布。垂直轴对应于的向量长度，水平轴表示的向量维度，并且标绘的点表示分布中的值，其中,,,, 。检查图8(a)，很明显，值是不均匀分布的，主要集中在向量的区间[0,30]中。随后，对的稀疏操作策略性地丢弃图8(a)中指定区间之外的0附近的点。这个过程强调了这些区间内的显著特征的重现，允许分布突出特征区域而不损害基本信息。类似地，随后的数字也具有这些独特的特征。

图8. 稀疏度测量过程

因此，集成到SAN网络中的Probsparse注意力机制被证明擅长于在点积对计算期间减轻传统注意力机制中固有的计算冗余。显性点积对的保留保留了关键的网络特征，使注意力机制更有效。

计算复杂度从降低到对于缓解LSTF上下文中网络训练期间的高内存消耗问题发挥着至关重要的作用。有利的点积对的保留确保了预测的准确性保持不受影响。在本文中，预测精度的提高来自MLGCN网络的能力，迭代地从多车辆拓扑图中提取特征。这种多方面的输入，加上MLGCN的特征提取，丰富了对环境的理解，并在输入序列和真实值之间建立了更强大的网络连接，从而提高了预测准确性。因此，通过不同的网络实现了计算时间的效率提高和预测准确性的提高，促进了不同网络类型之间的协同互动。下面的模拟结果肯定了这种协作方法的有效性，强调了时间效率和预测精度的提高，在这项研究中是可以实现的。

B. 轨迹预测精度分析

从NGSIM和INTERACTION数据集中随机选择TV，定量分析SAGCN的轨迹预测精度。表I和表II分别显示了NGSIM和INTERACTION数据集在1s至5s预测范围内SAGCN的FDE和ADE。这些表格显示，随着预测范围的扩大，预测准确性有所下降。

表Ⅰ NGSIM的位移误差(%)

表Ⅱ INTERACTION的位移误差(%)

表III和表IV所示的进一步分析比较了NGSIM和INTERACTION数据集内SAGCN和参考方法在5 s预测范围内纵向和横向位移的FDE和ADE。结果一致表明SAGCN的上级准确性，在两个数据集上实现了最小的误差。以纵向位移误差为例，在 NGSIM 数据集中，SAGCN 网络的 FDE 和 ADE 分别达到 2.44% 和 1.32%。在 INTERACTION 数据中，SAGCN 网络的 FDE 和 ADE 也达到了 2.61% 和 1.46%。

表Ⅲ 预测轨迹的纵向位移误差(%)

表Ⅳ 预测轨迹的横向位移误差(%)

值得注意的是，表III和表IV中的数据对应于5 s的最大预测水平，其中预测误差通常是所有方法的最高值。尽管如此，与其他方法相比，SAGCN仍然保持了明显较低的错误率。即使在整个5 s的预测范围内，NGSIM数据集和INTERACTION数据集的SAGCN值的纵向ADE分别为1.32%和1.46%。这表明，与参考方法相比，SAGCN在整个5秒范围内实现了上级预测精度。横向位移误差表现出类似的模式，加强了SAGCN的卓越预测能力。此外，两个数据集的一致预测性能突出了SAGCN的鲁棒性，在不同的交通环境（包括高速公路和城市）中提供上级LSTF准确性。

为了证实SAGCN在多车辆轨迹预测中的有效性，从测试集中随机选择几个车辆，使用它们各自的车辆ID从数据集中进行轨迹预测。图9提供了多组预测结果的视觉表示。从图中可以看出，SAGCN网络预测的每辆车的轨迹与相应的真实轨迹之间非常接近。值得注意的是，预测轨迹表现出类似于真实的轨迹的趋势和特性。这证明了SAGCN网络在车辆轨迹预测中的持续高精度。

图9. 轨迹预测可视化

C.轨迹预测时间代价分析

表Ⅴ对与SAGCN和参考方法有关的时间成本进行了比较分析。SAGCN在NGSIM和INTERACTION中的训练和预测时间分别为25.44s、0.089s和23.76s、0.092s，具有良好的性能。值得注意的是，这种网络的效率超过了其他方法。STGNN使用GNN来处理来自SV的大量信息。然而，它没有结合有效的特征计算技术来提高存储器利用率，从而由于这种省略而导致更高的时间成本。

表Ⅴ 时间成本

与STGNN相比，STTF和MMTF由于其固有的并行计算能力，利用经典的注意机制，表现出更高的计算效率。然而，这些模型仍然没有达到SAGCN的性能水平。注意力机制的并行计算特征虽然在某些上下文中是有益的，但在解决长期预测问题时会累积计算复杂性，从而影响整体效率。

相比之下，ATLSTM和ATST-LSTM都利用LSTM来构建编码器-解码器架构。由于LSTM的顺序特征传输，随着网络架构变得更加复杂，它们的处理时间变得不那么有效。不过，SAGCN 中的 Probsparse 注意机制和注意蒸馏操作有助于降低网络的时间和空间复杂性，从而减少处理 LSTF 时的时间成本。

因此，基于先前的网络结构分析和预测精度分析，本研究中提出的SAGCN网络不仅确保了LSTF的高预测精度，而且还实现了减少的时间成本。

Ⅴ 结论

为了实现对TV’s运动轨迹的长期预测，本文引入了一种新的网络结构–SAGCN网络，该网络能够很好地理解车辆间的相互作用，并能有效地预测TV的未来运动轨迹。提出的方法采用多车辆拓扑图，以便于SAGCN网络审查NVs对TV的影响。此图封装了TV和NV之间的状态和空间关系。SAGCN网络由两个主要组件组成：MLGCN网络和SAN网络。MLGCN网络利用GAT网络和图形池操作，产生一个特征图。SAN网络从MLGCN接收特征图和真实值，采用注意机制来分析它们的相关性并生成预测轨迹。在自然数据集上，SAGCN的性能通过两个指标来评估：预测精度和时间开销。实验表明：与已有方法相比，SAGCN网络的预测精度上级，时间开销更低。

因此，所提出的方法在LSTF中具有良好的性能。这一性能为智能车辆熟练地精确预测SV的未来轨迹开辟了道路。

尽管SAGCN网络取得了进步，但目前仍存在一些局限性。多车辆拓扑图的构建主要考虑NV信息，省略其他关键环境因素，如车道标记和交通信号，指示潜在的增强区域。未来的研究将致力于将更广泛的环境数据纳入拓扑图。MLGCN网络的这些增强输入可以包括道路线和交通灯的表示。随着输入信息复杂度的增加，ProbSparse注意机制在降低计算量方面的作用越来越明显。此外，探索更有效的特征稀疏方法对于在处理大量数据集的同时保持合理的计算成本至关重要。