Action4D：人群和杂物中的在线动作识别：CVPR209论文阅读

Action4D: Online Action Recognition in the Crowd and Clutter

论文链接：

http://openaccess.thecvf.com/content_CVPR_2019/papers/You_Action4D_Online_Action_Recognition_in_the_Crowd_and_Clutter_CVPR_2019_paper.pdf

摘要

在拥挤杂乱的环境中识别每个人的行为是计算机视觉中一项具有挑战性的任务。本文建议解决这个具有挑战性的问题，使用一个整体的4D“扫描”杂乱的场景，包括每个细节的人和环境。这就产生了一个新的问题，即在杂乱的4D表示中识别多人的行为。

首先，本文提出了一种新的四维跟踪方法，能够可靠地实时检测和跟踪每个人。然后，本文建立了一个新的深层神经网络Action4DNet来识别每个被跟踪者的行为。这样的模型在真实环境中提供了可靠和准确的结果。

为了进一步提高模型的性能，本文还设计了一个自适应的三维卷积层和一个新的判别时间特征学习目标。本文的方法对摄像机视角不变，抗杂波，能够处理人群。

实验结果表明，该方法快速、可靠、准确。本文的方法为实际应用中的动作识别铺平了道路，并准备部署到智能家居、智能工厂和智能商店中。

1. Introduction

本文提出了一个新的Action4DNet，利用在线4D建模来识别杂乱环境中每个主体的行为。本文的工作有以下贡献：

•本文解决了在杂乱的4D海量数据中识别多人行为的新问题。

•本文提出了一种利用4D立体数据实时检测和跟踪人的新方法。

•本文提出了一种新的深层神经网络Action4DNet，用于动作识别。本文设计了一个自适应卷积层来处理来自多个摄像机传感器的噪声。本文还提出了一种新的判别损失，以在序列动作识别中获得更好的时间特征学习。据本文所知，本文的方法是首次尝试将深层神经网络应用于杂乱的“整体”4D立体数据，用于在线帧式动作识别。

•本文在实验中收集并标记了一个新的4D数据集。目前还没有包含多人和杂波的4D动作识别数据集。本文将发布数据集。

•本文提出的方法能够抵抗拥挤和干扰，并且可以直接用于复杂的实际应用。

2. Method

本文的任务是识别个人在杂乱拥挤的环境中的行为。本文的方法从构建每个时刻的整个场景的三维体表示开始。在此基础上，提出了一种基于场景三维体数据序列的人体检测与跟踪方法。这样，本文可以在每个时间瞬间裁剪每个以人为中心的三维立体。本文的4D跟踪器将这些关联的3D立体序列用作构建Action4DNet的输入。以下各节将讨论详细信息。

在本文能够识别出每个人的行为之前，检测场景中的每个对象是一个必要的步骤。为了动作识别，本文还需要在一段时间内观察每一个对象。因此本文需要追踪现场的每个人。跟踪也有助于消除虚假的人的检测和找回失踪的人。以往的多人跟踪方法大多采用背景减法去除背景差异。不幸的是，背景减法或图形/地面分离对于无约束的动态环境是困难的。

本文的4D跟踪器不需要图形/地面分离，能够直接处理有噪声的4D数据。给出了一组经过标定的RGBD图像，建立了整个场景的三维点云。这些卷构建在三维点云的顶部。如果体素O（i）中有一个点，本文将其占用率设为1。这些体素位于环境的场景表面。也可以填充每个对象的内部体素。然而，本文的实验表明，如此密集的表象对动作识别并没有多大好处。因此，本文在这项工作中只使用表面立体。

上面的跟踪器在每一个时刻都能给本文精确的物体三维位置，可以用来裁剪出三维物体进行动作识别。图4显示了裁剪立体表示，其中人员位于中心。即使在背景杂乱的情况下，音量表示也清晰地显示出一个人的动作。事实上，由于背景对象的上下文信息，它们是动作识别的理想对象。

本文处理4D立体（3D立体序列）数据，以推断每个时刻的动作。还有很多其他的线索可以用来推断一个人的动作，例如，身体姿势，身体部位的运动，以及被试正在处理的物体。例如，如果本文看到一个人下面有一把椅子，本文可以推断这个人坐。潜在的，每个人的位置或速度也可以用来推断具体的行动。

然而，在本文中，本文仅依靠立体数据来建立本文的4D动作识别模型。本文构造了深度卷积神经网络Action4DNet，用于精确的动作识别。输入的4D立体通过一系列3D卷积层与3D池层组合以产生动作特征。同时，本文还建议使用一个辅助注意网，这将在下面的小节中详细讨论。这些特征在每个时刻都被输入到一个递归神经网络（RNN）中，以聚集时间信息进行最终动作分类。在下面，本文将更详细地介绍网络结构。

3. Experimental results

在这一部分中，本文评估了所提出的4D方法的动作识别，并将本文的方法与不同的竞争方法进行了比较。

为了评估该方法的性能，本文收集了一个4D动作识别数据集。通过设置3个不同的环境（Env1、Env2和Evn3）和不同数量的Kinect V2摄像机来采集RGBD图像，生成动态场景的4D体表示。这三个环境位于不同背景的不同房间。本文以每帧的方式标记视频：每个视频帧都有一个动作标签。本文还使用每帧的准确度评估了所有的动作识别模型。本文数据集的统计数据汇总在表1中。

本文将提出的方法与不同的基线方法进行比较。基线包括：

•形状文本256和形状文本512：

三维形状上下文是形状上下文[3]描述符的三维版本。三维形状上下文具有高度轴和角度轴均匀分区，以及径向轴对数分区。

本文测试了两个版本的三维形状上下文：

ShapeContext256有256个存储箱，ShapeContext512有512个存储箱。本文建立了一个以三维形状上下文描述符为输入的深度网络。该网络使用LSTM网络来聚合时间信息。 •时刻：

矩是另一种流行的形状描述。本文使用4阶的原始时刻。与上述形状上下文方法类似，矩描述子被输入CNN进行动作识别。

•骨骼：

OpenPose[6]是RGB图像上最先进的棒形检测器之一。本文使用颈点规范化每个对象关节的位置，然后将xy坐标连接到特征向量中。本文使用与上述形状上下文方法相似的方法来训练深度网络。

•颜色+深度：

在这种方法中，本文根据本文的跟踪结果来确定每个人的边界框。本文从所有摄像机中裁剪视频中每个人的颜色和深度图像。本文使用裁剪后的颜色和深度图像及其动作标签来训练一个深度神经网络。公平地说，本文在本文的所有方法中都没有使用动议。 •点网络：

PointNet[20]是目前最先进的三维点云目标识别和语义分割的深度学习方法之一。本文将点网模型扩展为包含一个LSTM层，以便它能够处理用于动作识别的序列数据。利用多幅RGBD图像的点云，可以对网络进行端到端的训练。

•I3D和NL-I3D：

嵌入式3D ConvNet[7]（I3D）在RGB视频上实现了最先进的动作识别。本文还与非局部I3D[27]（NL-I3D）进行了比较，后者引入了非局部操作，以便更好地进行远程相关性建模。

•SparseConvNet

SparseConvNet[10]定义了子流形卷积，它跟踪“活动”站点以减少计算开销。本文使用3D卷和LSTM头训练SparseConvNet来识别3D流中的动作。

表3、表4和表5表明，本文提出的方法始终比所有竞争方法给出更好的结果。高精度还得益于本文可靠的4D人员跟踪器，它获得了所有测试和培训视频100%的跟踪率。本文的方法也很快，使用一个GTX1080 TI，本文的方法能够跟踪10个人，并推断他们的行动在15帧/秒（FPS）对立体空间为50毫米×50毫米×50毫米体素。在25毫米×25毫米×25毫米的体素上，一个人可以以25 FPS的速度识别动作。

图7显示了三个不同测试中Action4DNet的混淆矩阵。有趣的是，在测试二和测试三中发现了许多缺失的检测。特别是，对于弯腰动作，测试2和测试3都有超过40%的识别缺失。这可能是由于这种行为的巨大变化和不同的地面真值标签使用的不一致的标签标准。同时，本文的方法还混淆了一些如图7所示的操作。这主要是由于来自Kinect传感器的噪声数据。使用更好的深度相机和更好的时间同步，本文的动作识别结果可以进一步提高。此外，本文还可以进一步包含颜色等其他体素属性，并使用多分辨率体数据来获得更稳健的结果。

4. Conclusion

本文提出了一种新的在线4D动作识别方法Action4DNet，它能够生成4D的环境立体，跟踪三维空间中的每个人，并推断出每个人的动作。本文的方法能够处理多人和强杂波。特别是，提出的自适应卷积层和判别时间特征学习目标进一步提高了模型的性能。本文在不同环境下的实验结果证明了本文的方法在不同的竞争方法下具有更好的性能。所提出的方法可以被部署以使不同的应用程序能够增强人们与环境的交互方式。

Action4D：人群和杂物中的在线动作识别：CVPR209论文阅读

Action4D：人群和杂物中的在线动作识别：CVPR209论文阅读的相关教程结束。

相关推荐

表格JS实现在线Excel的附件上传与下载

opencv-python 车牌检测和识别

K210 调节颜色阈值识别红绿黄三色

在线OJ实用技巧（转载）

深度学习-05(tensorflow模型保存与加载、文件读取、图像分类：手写体识别、服饰识别)

文档在线预览（三）使用js前端实现word、excel、pdf、ppt 在线预览

使用 Swagger 自动生成 ASP.NET Core Web API 的文档、在线帮助测试文档（ASP.NET Core Web API 自动生成文档）

PyRedisAdmin v1.0 Beta 发布，Redis 在线管理工具 - 开源中国社区