智能信息处理实验室-新闻

基于图卷积的视觉问答融合增强方法

视觉问答（VQA）近年来备受关注。此任务旨在为给定的图像和问题生成答案。大多数方法分别提取图像和问题的特征，然后将它们融合在一起以预测答案。

然而，这些方法没有考虑到图像中的高级语义信息，尤其是图像中对象或部分之间的交互。我们提出了一种新的视觉问答方法，在图像中的对象之间建立共现关系和高级语义关系，生成高级视觉表示以捕获特定问题与图像之间的交互。

我们的方法包含两个主要部分，一个是问题引导的对象级图像特征提取器，用于在图像中生成共现关系，另一个是视觉关系检测器，用于提取图像中的语义关系。之后，应用图形卷积神经网络（GCN）生成图形表示，然后将其输入传统的VQA模块以预测答案。

联系我们

联系人：孙老师

电话：0571-86878691

工作电话：0571-86878691

电子邮箱：syq@hdu.edu.cn

智能信息处理实验室

浙江省杭州市杭州经济开发区白杨街道2号大街1158号杭州电子科技大学