我院博士研究生郭博洋在多媒体领域顶级期刊《IEEE Transactions on Multimedia》发表论文

以下文章来源于杭电自动化

       近日,由我校自动化学院博士研究生郭博洋为第一作者,杭州电子科技大学为第一单位的论文 《Prompt Learning with Knowledge Regularization for Pre-trained Vision-Language Models》 被多媒体领域顶级期刊 IEEE Transactions on Multimedia (TMM) 正式录用。该研究由杭州电子科技大学与中国科学院计算技术研究所合作完成。论文第一作者为我校2023级博士研究生郭博洋,指导教师为中科院计算所李亮研究员和我校颜成钢教授。

图片

提示学习(Prompt Learning)是一种高效的模型适配方式,通过训练少量可学习的提示向量(prompt vectors),可将大规模预训练模型灵活迁移至具体下游任务。近期研究尝试将冻结的视觉-语言(Vision-Language, VL)预训练模型中蕴含的通用知识与任务特定数据相结合,从而为提示学习提供引导,缓解早期面临的适配挑战。然而,现有方法普遍受限于“泛化–适应”(Generalization–Adaptation, GA)权衡困境:过度依赖通用知识会削弱模型对特定任务的适应能力,而对任务知识的过分强调又会破坏预训练模型的泛化能力。为此,该研究提出了一种新型提示学习方法——PLKR(Prompt Learning with Knowledge Regularization)。该方法通过引入类别不变与拓扑不变的知识正则化策略,在增强任务适应性的同时有效保留原有通用知识结构。其中,类别不变正则项在不限制任务学习灵活性的前提下增强了类别区分能力;拓扑不变正则项则在模型迁移过程中保持了全局特征空间的结构稳定性。通过在11个数据集和4类代表性任务上的实证研究,PLKR在多个任务上均显著优于现有先进方法,展现出优越的泛化与适应性能。

图片

杭州电子科技大学“智能信息处理”实验室(HDU IIPLab)主任为颜成钢教授。实验室现有在职教师50余名,包含5位国家级人才及多位省级高层次人才。现有硕博研究生200余名,毕业生多就职于阿里巴巴、腾讯、字节跳动、海康威视、华为、网易等国内知名企业。实验室为校级交叉创新团队,拥有自由开放的学术氛围与国际前沿的研究方向。实验室长期致力于智能信息处理领域的研究,与国内外多所知名高校与研究机构(如清华大学、北京大学、中国科学院、美国北卡罗来纳大学教堂山分校、澳大利亚悉尼科技大学等)保持紧密合作,联合培养研究生。主要研究方向包括:机器学习、模式识别、计算机视觉、计算机图形学、医学影像处理、生物信息学等。


排版 | 蔡其磊

校对 | 吴玉柏

责编 | 叶玥都

审核 | 吴汉玲

投稿邮箱 | 2636911042@qq.com

【自动化学院融媒体中心】


联系我们

联系人:孙老师

电话:0571-86878691

工作电话:0571-86878691

电子邮箱:syq@hdu.edu.cn

智能信息处理实验室

浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学