时序行为提名的上下文信息融合方法

王新文，谢林柏，彭力

物联网技术应用教育部工程研究中心（江南大学物联网工程学院），江苏无锡214122

人体行为识别在智慧城市、智能交通和互联网视频推荐等环境下具有重要的应用前景。在基于视频的人体行为识别研究领域中，根据视频内容类型分为两种研究方向：行为识别和时序行为检测。时序行为检测要求预测未剪辑视频中人体行为发生的时间位置和所属的行为类别。早期方法采用时序滑动窗口进行检测[1-2]，但是大量的滑动窗口导致计算量急剧增加。受益于图像目标检测技术的发展[3-4]，目前行为检测主要采用两个关键步骤：时序提名和分类[5-8]。该方法第一步为时序行为提名，即精准地生成发生行为的候选时间区间（proposal）。第二步为分类，该步骤采用行为识别方法推断出proposal内的行为类别[9-12]。因此，第一步时序提名至关重要，直接影响时序边界的精确度[5-8]。

在早期工作中，Escorcia 等人[5]提出了深度行为提名（deep action proposals，DAPs）方法，采用单向长短期记忆网络（long short-term memory，LSTM）构建固定大小窗口内的视频单元之间的时序关系。Buch等人[6]提出了单流时序（single-stream temporal，SST）提名方法，该网络在整个视频上采用单向的门控循环单元（gated recurrent unit，GRU）输出多尺度的proposal，削弱了网络模型耗时问题。Guo 等人[7]在SST基础上进行改进，采用时序卷积构建上下文关系，并采用回归方法预测多尺度的时序区间。Gao等人[8]提出一种时序单元回归网络（temporal unit regression network，TURN）产生了较为精确的proposal。在以上时序行为提名方法中，DAP 和SST 均采用单向循环网络建立视频帧之间的时序联系。单向循环网络只能捕获当前和历史时刻的信息，无法获得未来信息，因此难以解决序列数据的长期依赖性问题。对于双向循环网络，它利用前向和后向网络运算使得在每一时刻都可以获得历史和未来时刻信息，从全局构建序列模型，可以较好地处理序列数据的长期依赖性问题[13]。但是当序列数据较长时，目前存在的循环网络（如GRU）易发生梯度消失问题，一定程度上削弱了循环网络处理长期依赖性的性能[14]。针对上述问题，通过输入特征控制门结构和引入滑动加权均值简化门控循环单元（simplified-GRU，S-GRU），提出一种基于双向S-GRU循环网络的时序行为提名方法。该方法使循环网络削弱了梯度消失问题，增强上下文信息融合能力，从而提高时序提名召回率。不同于SST 和DAP，本文方法采用表征能力较强的I3D（inflated 3D）[10]模型提取特征和双向循环网络构建上下文时序关系。在预测多尺度行为提名区间阶段，采用与SST相同的方法。最后在公开数据集Thumos14 和UCF101 上进行实验验证，结果表明该方法取得较好效果。

1 基础知识

循环神经网络（recurrent neural network，RNN）是深度学习中用于序列数据建立时序关系的模型，常见的循环网络变体有LSTM[15]、GRU[16]等。该类神经网络擅长处理变长的序列数据，但当输入的时序序列较长时，容易发生梯度消失问题，导致模型收敛效果变差。

GRU是简化版的LSTM结构，包含两个门：更新门和重置门。更新门控制历史时刻的状态信息被带入到当前时刻状态的程度，重置门控制前一时刻的状态信息被忽略的程度。GRU计算公式为：

图片[1]-时序行为提名的上下文信息融合方法-游戏花园

其中，Wz,Wr,Wh∈ℝm×(n+m)为参数矩阵，bz,br,bh∈ℝm为偏置项，σ为sigmoid非线性变换函数。zt,rt为重置和更新因子，是更新门和重置门的输出状态。-1,ht为当前时刻的候选状态、上一时刻的隐藏状态和当前时刻的隐藏状态，xt为特征输入向量。由式（1）可知，一层GRU 单元的参数量为3m2+3mn+3m，与隐藏状态维数的平方m2成比例。当m较大时，导致模型运算量大和参数训练不充分。GRU网络梯度随时间反向传播算法（back propagation through time，BPTT）如图1所示，梯度计算公式为：

图片[2]-时序行为提名的上下文信息融合方法-游戏花园

图片[3]-时序行为提名的上下文信息融合方法-游戏花园

Fig.1 Schematic diagram of back propagation through time of gradient图1 梯度随时间反向传播示意图

根据式（1）和BPTT算法有：

图片[4]-时序行为提名的上下文信息融合方法-游戏花园

2 视频时序行为提名网络设计

为生成精准的时序区间，借鉴SST 方法，采用如图2 所示的时序行为提名框架。该框架分为5 个部分：第1部分为视频数据输入，即输入视频图像序列；第2部分为特征提取，该部分采用三维卷积编码时空特征，即获得视频单元的时间和空间特征向量；第3部分为上下文信息融合，该部分采用双向S-GRU 循环网络构建长时间视频序列的时序关系；第4部分为时序提名生成，该部分将循环网络得到的上下文信息输入到全连接层（fully collected layer，FC）输出多尺度的候选时序区间；第5 部分为时序提名处理，该部分采用非极大值抑制（non-maximum suppression，NMS）[17]和置信分数阈值法去除冗余的候选时序区间。

借鉴图像目标检测技术[4]，为平衡模型耗时和精准定位，首先将L帧图像I构成的视频分割成多个由δ帧组成的视频单元ut={Ii;i=1,2,…,δ}，单元总数T=L/δ。异于SST 和DAP 使用三维卷积（3D convolution，C3D）[9]模型编码视频单元的时空特征，选取I3D[10]的最后一层特征图作为循环网络的输入数据，xt=F(ut)，F为I3D 特征编码网络。由于I3D 模型融合了多尺度局部特征，因此该模型对行为识别的精度比C3D高[10]。

图片[5]-时序行为提名的上下文信息融合方法-游戏花园

Fig.2 Network framework of temporal action proposals图2 时序行为提名网络框架

2.1 基于双向S-GRU的上下文信息融合

2.1.1 S-GRU循环网络

在深度学习领域中，模型参数需要通过训练优化或学习获得。在进行视频行为检测时，若视频序列过长，RNN易发生梯度消失问题，难以学习到较优参数和建立视频序列的长期依赖关系。针对GRU循环单元存在较多参数和梯度消失的问题，进行如下改进：

（1）基于简化重置因子和更新因子的门控结构

式（1）中GRU 的更新因子zt和重置因子rt大小是由t-1 时刻的历史信息和t时刻的当前输入信息共同决定，有一定的信息冗余。当输入序列较长时，该门控结构会降低并行计算能力，增加模型运行时间。为增强循环单元的并行计算能力，将GRU 的更新门和重置门进行简化，门结构仅由当前时刻的输入特征控制：

图片[6]-时序行为提名的上下文信息融合方法-游戏花园

其中，σ为sigmoid 函数；Wz,Wr∈ℝm×n为参数矩阵；br,bz∈ℝm为偏置项。

（2）基于滑动加权平均的信息融合

式（1）中GRU 的候选状态未完全自动融合当前和历史时刻信息，仅由rt控制历史时刻信息的输入。为此，类似于GRU的隐藏状态ht的结构，引入滑动加权平均完全自动融合当前时刻信息和历史信息：

图片[7]-时序行为提名的上下文信息融合方法-游戏花园

其中，Wh∈ℝm×n为参数矩阵。重置因子rt用于控制历史信息，rt越大，则保留历史信息越多；rt越小，则丢弃历史信息越多。式（8）中将候选状态作为t时刻的输入，目的是削减循环网络中梯度消失的影响，更好地建立长期依赖关系。根据BPTT 算法式（4）有=rt，当rt→1，即保留历史信息，反向传播梯度接近1，表明梯度全部传播给t-1 时刻，因此该结构削弱了梯度消失的影响。改进算法中GRU的隐藏状态ht仍沿用原有门控形式：

图片[8]-时序行为提名的上下文信息融合方法-游戏花园

其中，为t-1时刻候选状态的输出。没有使用激活函数tanh，目的是使式（9）的结构为一种残差网络连接形式，可以削弱梯度消失问题。更新因子zt用于更新隐藏状态ht，zt越大，信息更新越多，表明融合更多当前时刻输入信息；反之zt越小，信息更新越少。

根据上述改进的门控结构、候选状态和隐藏状态，形成如下新的门控循环单元（S-GRU）。该循环单元计算公式为：

图片[9]-时序行为提名的上下文信息融合方法-游戏花园

其中，σ为sigmoid 函数，Wz,Wr,Wh∈ℝm×n为参数矩阵，bz,br,bh∈ℝm为偏置项，输入为xt、，输出为、ht。GRU和S-GRU内部结构如图3所示，一层SGRU 的参数量为3mn+2m，比GRU 减少3m2+m。例如当隐藏状态维数m=128 时，S-GRU 比GRU 减少49 280个参数。

2.1.2 视频上下文信息融合

图片[10]-时序行为提名的上下文信息融合方法-游戏花园

Fig.3 Schematic diagram of internal structure in RNN图3 循环网络内部结构示意图

在图2 时序行为提名框架中，I3D 网络只提取了短时动作特征，没有获得长时动作信息。考虑到双向RNN 可以建立上下文依赖关系，因此该框架采用双向S-GRU网络编码视频序列的长时动作特征。定义S-GRU网络前向输出为：

图片[11]-时序行为提名的上下文信息融合方法-游戏花园

图片[12]-时序行为提名的上下文信息融合方法-游戏花园

图片[13]-时序行为提名的上下文信息融合方法-游戏花园

其中，concat(∙)为特征连接函数，ht∈ℝ2m。为得到多尺度的候选时序区间，将上下文融合后的特征ht作为全连接层的输入[6]。

2.2 损失函数

为优化模型参数，实验采用监督式学习训练方式。图2 中的提名网络框架采用预训练的I3D 模型作为特征提取网络，因此只对循环网络和全连接层进行训练。将训练视频X输入到提名网络中，所有输出的proposal 分为正负样本，对应的样本标签为y={ytj;t=1,2,…,T;j=1,2,…,k}，其中k为proposal尺度因子。在时刻t，全连接层输出多尺度proposal 的置信分数ct={ctj}，表示多尺度proposalPt={(bt-j,bt)}为正样本的概率。其中，Wc∈ℝk×2m为全连接层参数矩阵。第jproposal 的开始时间和结束时间为bt-j=(t-j)δ和bt=tδ。根据经验，proposal 与真实行为时间区间的交并比（temporal intersectionover-union，tIoU）大于阈值θtiou时为正样本，对应的标签ytj为1，否则标签为0。定义N视频组成的训练集为χ={(X,y)}，每个训练视频均采样Lw帧，则模型训练的损失函数为：

图片[14]-时序行为提名的上下文信息融合方法-游戏花园

其中，W为模型参数，Tw=Lw/δ，λ为正则化系数。α为调节正负样本不平衡的系数，由正负样本数量决定。

3 实验与分析3.1 实验设置

（1）数据集：Thumos14[18]是用于时序行为检测的视频数据集，共20 种动作。该数据集包含412 个体育运动视频，其中200 个用于训练，其余用于测试。根据训练需求，将用于训练的视频划分为160 和40作为训练集和验证集。UCF101[19]是包含101 个动作类别的行为识别数据集，共有13 320 个视频。该数据集实验中用于评估循环单元S-GRU 的泛化能力，训练集划分采用官方网站所提供的训练列表文件。

（2）超参数：设置视频单元的帧长δ=16，尺度因子k=32，训练和验证中的视频序列帧长Lw=2 048，参数大小与SST中的设置相同。根据经验，用于提供训练样本的交并比阈值θtIoU=0.75。实验中模型使用1 层循环网络，隐藏单元数量即和的维度m=128，预训练的I3D模型输出维度为400。提名网络训练采用小批量随机梯度下降，动量为0.9，批次大小为160，迭代次数（epoch）为200，学习速率为0.003，正则化系数为0.003。模型测试时，NMS 阈值θNMS=0.8，置信分数阈值θscore=0.15。实验计算机配置为NVIDIA GeForce 1070Ti GPU，操作系统为Ubuntu16.04，网络结构基于Tensorflow平台设计。

（3）评估指标：AR-AN和Recall@AN-tIoU。ARAN指平均每个视频产生的proposal中置信分数最高的前AN（average number，AN）在tIoU为[0.50:0.05:1.00]上召回率的均值（average recall，AR）。Recall@ANtIoU指AN为固定值下，每个视频预测置信分数最高的前ANproposal 分别在tIoU 为[0.50:0.05:1.00]上的召回率，AN常取1 000。

3.2 实验结果与分析

为验证循环单元S-GRU和时序行为提名框架的性能，进行如下实验：（1）比较GRU 改进前后的效果及融合上下文信息的前后效果；（2）对比本文方法与现有的提名方法。

3.2.1 循环单元S-GRU评估

为评估改进后S-GRU的性能，在数据集Thumos14上进行时序行为提名实验。为体现S-GRU的泛化能力，在数据集UCF101 上进行行为识别实验，行为识别模型的特征提取网络和循环网络与时序行为提名网络相同。实验中，通过对比单向及双向S-GRU、GRU和LSTM的性能差距来对S-GRU进行评估。

表1 给出了隐藏单元的数量（即输出状态维度）和参数数量（“bi-”表示双向）以及在数据集上的训练时间。S-GRU 比GRU 拥有较少的参数，当隐藏单元数量增加时，参数数量差距变大。通过减少模型参数的数量，能够降低模型运算复杂度。表1给出的训练时间为实验中整个网络模型的训练时间，结果表明基于S-GRU循环单元网络的模型训练时间较少。

图4 给出了模型在数据集上的损失大小随迭代次数变化的曲线，在模型训练后期，基于S-GRU网络的损失比GRU、LSTM 较小，收敛速度较快，表明该网络的表征能力较强。对比单向（GRU、S-GRU）与双向循环网络（bi-GRU、bi-S-GRU），发现双向循环网络的损失值较小，表明双向循环网络融合上下文信息增强了模型的表征能力。

图5 给出了S-GRU、GRU 和LSTM 循环单元内部参数梯度均值的变化曲线，可以看出S-GRU 和LSTM 参数的梯度均值属于同一个数量级。GRU 参数的梯度均值较小，和S-GRU、LSTM 相差一个数量级，表明模型训练期间GRU 单元存在梯度消失的风险。根据图5 展示的实验结果，对比S-GRU 循环单元和GRU循环单元，S-GRU有效地缓解了GRU循环网络梯度消失问题，与2.1节理论分析一致。

在Thumos14测试集上预测proposal的平均召回率如图6所示。从AR-AN图形中可以看出，随着AN的变化，基于bi-S-GRU 网络的时序提名方法的平均召回率最高。对比bi-S-GRU 和S-GRU 以及bi-GRU和GRU，发现基于S-GRU 的上下文信息融合网络取得了更好的效果，表明S-GRU 循环网络提升了GRU捕捉上下文信息的能力。

综合以上实验结果与分析，表明S-GRU 缓解了GRU 单元存在梯度消失的问题。该实验中基于SGRU 的双向循环网络融合了上下文信息，增强模型构建视频长期依赖性的能力，因此提高了时序行为提名的召回率。

3.2.2 与现有时序提名方法对比

为客观地评估时序行为提名框架性能，将近几年出现的提名方法进行对比，例如SCNN-prop（segmentconvolutional neural network proposal）[1]、DAPs[5]、SST[6]、TURN[8]以及文献[7]和文献[20]中的方法。其中，SCNN-prop通过重叠采样多尺度的视频片段，然后采用3D卷积提取时空特征进行分类识别，进而筛选出候选时序区间；文献[20]采用单向LSTM在整个视频上建立时序模型，而预测时序区间时采用深度强化学习算法。一个性能好的时序行为提名框架，能够产生高召回率和高时序重叠（tIoU）的proposal。

图片[15]-时序行为提名的上下文信息融合方法-游戏花园

Table 1 The number of parameters and training time of recurrent networks表1 循环网络的参数数量和训练时间

图片[16]-时序行为提名的上下文信息融合方法-游戏花园

Fig.4 Curve of cross entropy loss on dataset图4 数据集上的交叉熵损失变化曲线

图片[17]-时序行为提名的上下文信息融合方法-游戏花园

Fig.5 Average gradient value curve图5 梯度均值变化曲线

图片[18]-时序行为提名的上下文信息融合方法-游戏花园

Fig.6 AR-AN curve of temporal action proposals图6 时序行为提名的AR-AN曲线

（1）AR-AN。从图7（a）和表2 可以看出，在AN大于100时，基于双向S-GRU的上下文信息融合方法的平均召回率最高。方法SST、DAPs以及文献[20]采用单向LSTM或GRU网络，没有融合上下文信息，导致平均召回率较低。SCNN-prop和TURN采用多尺度时序窗口获得上下文信息，当视频序列较长时，难以构建长时依赖关系，因此平均召回率低于本文方法。在AN=50时，平均召回率低于文献[20]。文献[20]采用循环网络和强化学习方法生成proposal，预测出proposal 数量最高的AN 为500，小于其他几种方法，即文献[20]方法筛选出了数量少且质量高的proposal，导致在AN=50时平均召回率高于其他方法。

图片[19]-时序行为提名的上下文信息融合方法-游戏花园

Table 2 Comparison of average recall under different average number表2 不同均值数量AN下的平均召回率比较

图片[20]-时序行为提名的上下文信息融合方法-游戏花园

Fig.7 Comparison curve of different methods under evaluation index图7 不同方法在评估指标下的对比曲线

图片[21]-时序行为提名的上下文信息融合方法-游戏花园

Table 3 Comparison of recall under different tIoU表3 不同tIoU下的召回率比较

（2）Recall@1 000-tIoU。均值数量AN为1 000和时序重叠率tIoU为[0.50:0.05:1.00]下的召回率如图7（b）和表3所示。当tIoU＞0.70时，基于双向S-GRU的提名方法召回率最高，并且在tIoU=0.85 时与其他方法差别最大，表明该方法提高了构建视频序列的长期依赖性的能力，使得时序定位更加准确，预测出高时序重叠率的proposal。文献[7]采用一种时序卷积方法，增强了捕捉时序局部特征的能力，因此在tIoU为0.60 和0.70 时高于本文方法，表明该方法在低时序重叠率的要求下产生召回率高的proposal。

综合以上实验结果分析，可以得出：基于双向SGRU上下文信息融合的提名方法产生高召回率和高时序重叠的proposal，与现有方法DAPs、SST、TURN等相比提名性能较好。

4 结束语

针对时序提名效果不佳的问题，提出了基于双向S-GRU 的时序提名方法，该方法充分利用上下文信息，克服了视频序列的长期依赖性问题。通过对GRU 的门结构进行简化和引入滑动加权平均，提出了新的循环单元S-GRU，理论和实验均证明该循环单元有效地缓解了梯度消失问题。在公开数据集Thumos14 和UCF101 上进行实验验证，结果表明该循环单元比GRU、LSTM 的模型表征能力较好，训练收敛较快以及时序行为提名效果较优。将本文提名方法与现有方法进行比较，结果表明行为提名召回率得到了提升，从而验证了该方法的可行性。后续工作重点是优化时序行为检测步骤，进一步提高视频行为的定位和识别精度。

THE END