文献阅读报告 - Situation-Aware Pedestrian Trajectory Prediction with Spatio-Temporal Attention Model

概览

描述：模型基于LSTM神经网络提出新型的Spatio-Temporal Graph（时空图），旨在实现在拥挤的环境下，通过将行人-行人，行人-静态物品两类交互纳入考虑，对行人的轨迹做出预测。

训练与测试数据库

QUESTION

数据库ETH和UCY中均只提供行人的轨迹坐标信息，未提供静态物体的坐标和分类方式，有关Obstacle的数据来源未知。

评价指标与评价结果

ADE（Average Displacement Error） - 计算出每位行人整个轨迹偏差的均值，再对所有行人取平均。

ADE = \[\Sigma^N_{j=1}{\Sigma^n_{i=1}\sqrt{(\hat x_i^j - x_i^j)^2 + (\hat y_i^j - y_i^j)^2} \over n} \over N\]

FDE（Final Displacement Error）- 计算出每位行人轨迹重点的偏差，再对所有行人取平均。

FDE = \[\Sigma^N_{j=1}{\sqrt{(\hat x_n^j - x_n^j)^2 + (\hat y_n^j - y_n^j)^2}} \over N\]

评价结果：

相比于其他模型，此模型更适合预测Finial Step，而不是Entire Step。

模型

本文在此将基于基于图的神经网络资料阅读整理的已有内容着重强调新模型运用Attention机制在原有SRNN模型基础上做出的改进，其他基础型内容请参见链接。

Spatio-Temporal Graph

模型中的时空图有两类点和三类边

边权（edge features）定义

LSTM替换st-graph中的部件

temporal edgeLSTM, spatial edgeLSTM, nodeLSTM

Edge LSTM

spatial edgeLSTM

对于每条edge都有一个LSTM模型，为了适应后续nodeLSTM处理方式，对于spatial edges将统一处理同一个点为起点的所有spatial edges（以 · 表示）。

\[e^t_{v_2.} = \phi(x_{v_2.}^t;W_s)\] - embedding

\[h^t_{v_2.} = LSTM(h_{v_2.}^{t-1}, e^t_{v_2.}, W_s^{lstm})\] - lstm cell

temporal edgeLSTM

对于每个点都仅有一个temporal edgeLSTM，因此无需批量地处理。

\[e_{v_2v_2} = \phi(x^t_{v_2v_2};W_t)\] - embedding

\[h_{v_2v_2}^t = LSTM(h_{v_2v_2}^{t-1}, e_{v_2v_2}^t, W_t^{lstm})\] - lstm cell

Node LSTM

QUESTION

Obstacle是否仅在建边时与pedestrian存在不同，而使用nodeLSTM等都与pedestrian一致？

假设nodeLSTM的输出满足二维正态分布

同SRNN模型，\(v_2\)的nodeLSTM将用注意力机制整合来自\(v_2\)相邻点之间edgeLSTM输出和\(v_2\)的temporal edgeLSTM输出作为输入的一部分（公式中\(H_{v_2}^t\)就是整合得到），最终基于LSTM的输出是二维正态分布的假设，求出预测的位置或计算损失值（与Social LSTM类似）。

\[\mu_{v_2}^{t+1}, \sigma_{v_2}^{t+1}, \rho_{v_2}^{t+1} = W_{out}h_{v_2}^t\]

\[(x_{v_2}^{t+1}, y_{v_2}^{t+1}) \sim N(\mu_{v_2}^{t+1}, \sigma_{v_2}^{t+1}, \rho_{v_2}^{t+1})\]

根据文章的解释，\(x^t_{v_2}\)和\(x^t_{v_2v_2}\)应该相等，即temporal edgeLSTM和nodeLSTM从st-graph所获取的features应该是一样的。

Node LSTM

\[e_{v_2}^t = \phi(x_{v_2}^t; W_{embed}) \] - embedding

\[h_{v_2}^t = LSTM(e_{v_2}^t, concat(h_{v_2}^t, H_{v_2}^t, e_{v2}^t), W^{lstm})\] - lstm cell

\(H_{v_2}^t\)的运算

文献中对于\(H_{v_2}\)的计算方式已经通过图示展现的很清晰明显了，大体就是将来自spatial edgeLSTM和temporal edgeLSTM的输出\(h_{v_2.}^t,h_{v_2v_2}^t\)经过PRelu和softmax得到的归一化\(\hat e_{v_2.}\)，与源数据作乘法得到注意力权重\(a_{v_2}^t\)，将这些权重累加并取平局即得到加权平均的隐藏状态\(H_{v_2}\)。

QUESTION

该文献与其他文献对于注意力权重的称呼有所不同，其他参考文献中将经过softmax归一化的数据称作注意力权重（coefficient），即\(\hat e_{v_2}\)，将\(a_{v_2}.\)称作加权结果，但该文献中将\(a_{v_2}.\)称作注意力权重，权重之和再平均就是加权的隐藏状态。

模型在求得\(H_{v_2}\)使用的正是注意力机制，在借鉴了multi-head attention机制后改进出multi-node attention机制，有以下几个要点：

multi-node vs multi-head

文献阅读报告 - Situation-Aware Pedestrian Trajectory Prediction with Spatio-Temporal Attention Model

概览