Chenggang Yan, Liang Li, Chunjie Zhang, Bingtao Liu, Yongdong Zhang, Qionghai Dai
对网络图像的理解一直是人工智能和多媒体内容分析领域的热门研究课题。 Web图像由各种复杂的前景和背景组成,这使得设计精确且稳健的学习算法成为具有挑战性的任务。为了解决上述重大问题,首先,我们学习了一种跨模式桥接字典,以便深入和完整地理解大量的Web图像。该算法利用视觉特征进入语义概念概率分布,可以在保留局部几何结构的同时构建图像的全局语义描述。为了发现和模拟类别内和类别之间的发生模式,引入了多任务学习,用于制定具有Capped-l1 penally的目标公式,这可以获得具有更高概率的最优解并且优于传统的基于凸函数的解。方法。其次,我们提出了一种基于知识的概念转移算法,以发现不同类别的潜在关系。这种在类别之间转移的分布概率可以带来更健壮的全局特征表示,并且随着场景变得更大,使得图像语义表示能够更好地概括。在ImageNet,Caltech-256,SUN397和Scene15数据集上使用经典方法进行的实验比较和性能讨论显示了我们提出的方法在三种传统图像理解任务中的有效性。
该成果发布于IEEE Transactions on Multimedia期刊。
Cross-modality Bridging and Knowledge Transferring for Image Understanding.pdf
联系人:孙老师
电话:0571-86878691
工作电话:0571-86878691
电子邮箱:syq@hdu.edu.cn
智能信息处理实验室
浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学