视觉问答(VQA)近年来备受关注。此任务旨在为给定的图像和问题生成答案。大多数方法分别提取图像和问题的特征,然后将它们融合在一起以预测答案。
然而,这些方法没有考虑到图像中的高级语义信息,尤其是图像中对象或部分之间的交互。我们提出了一种新的视觉问答方法,在图像中的对象之间建立共现关系和高级语义关系,生成高级视觉表示以捕获特定问题与图像之间的交互。
我们的方法包含两个主要部分,一个是问题引导的对象级图像特征提取器,用于在图像中生成共现关系,另一个是视觉关系检测器,用于提取图像中的语义关系。之后,应用图形卷积神经网络(GCN)生成图形表示,然后将其输入传统的VQA模块以预测答案。
联系人:孙老师
电话:0571-86878691
工作电话:0571-86878691
电子邮箱:syq@hdu.edu.cn
智能信息处理实验室
浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学