Video Description with Spatial-Temporal Attention

   涂云斌,张曦珊,刘炳涛,颜成钢

        时间关注已被广泛用于视频描述中以自适应地关注重要帧。然而,基于时间关注的大多数现有方法遭受识别错误和细节丢失的问题,因为仅采用粗略的帧级全局特征。受近期使用空间注意的图像描述成功工作的启发,我们提出了一种解决此类问题的时空关注(STAT)方法。特别是,首先,我们利用对象级本地功能来解决缺少细节的问题。其次,STAT方法通过空间关注进一步选择相关的局部特征,然后通过时间注意来关注重要的帧以识别相关的语义。所提出的两阶段注意机制可以更精确地识别显着对象,具有高度回忆,并且在给定句子上下文的情况下自动聚焦于最相关的时空片段。两项众所周知的基准测试的广泛实验表明,STAT方法优于MSVD的最新方法,BLEU4评分为0.511,MSR-VTT-10K的BLEU4评分为0.374。与没有局部特征的方法相比,我们的STAT方法得出的相对改进在两个基准测试中分别为10.1%和0.8%。与仅使用时间注意的方法相比,我们的STAT方法得出的相对改进在两个基准上分别为18.3%和9.0%。

         发表于 ACM on Multimedia Conference 2017,属CCF A类会议,收录于EI。

2017Video Description with Spatial-Temporal Attention.pdf


联系我们

联系人:孙老师

电话:0571-86878691

工作电话:0571-86878691

电子邮箱:syq@hdu.edu.cn

智能信息处理实验室

浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学