我校智能信息处理团队两篇论文被多媒体领域顶级国际会议(CCF A类会议)ACM Multimedia录用

        近日,我校智能信息处理团队以杭州电子科技大学为第一单位发表的两篇论文被多媒体领域顶级国际会议ACM Multimedia录用。第一作者分别为我校2024级博士研究生张哲东和我校2023级博士研究生杨智文,两项研究的指导老师皆为中科院计算所李亮研究员和我校颜成钢教授,由杭州电子科技大学、中国科学院计算技术研究所和杭州电子科技大学丽水研究院合作完成。

       其中,论文《From Speaker to Dubber: Movie Dubbing with Prosody and Duration Consistency Learning》被会议选为Oral论文(Oral录用率3.97%)。该项研究聚焦于视觉声音克隆(Visual Voice Cloning,V2C),视觉声音克隆又称为电影配音任务(Movie Dubbing),旨在将台词转换为在时间和情感方面都与给定电影片段对齐的语音,同时保留住给定的单个参考音频的音色特征。配音中丰富的情绪和节奏变化以及需要和视频内容达成的对齐使其成为了一项极具挑战性的任务。该研究针对以上挑战设计了一个两阶段训练策略以及两个跨模态一致性模块,以使配音兼具高质量的发音和与视频内容的多层次对齐。
图片
      论文《Domain Shared and Specific Prompt Learning for Incremental Monocular Depth Estimation》增量单目深度估计旨在让模型在新域中不断学习的同时保持其在旧域中的性能,当模型适应动态场景变化时,灾难性遗忘问题是关键挑战。该项研究将跨域灾难性遗忘归因于域分布和深度空间的连续变化。为此,提出了用于增量单目深度估计的域共享和域特定提示学习(DSSP)。该篇论文所阐述的方法在不同场景下实现了最先进的性能,如不同深度范围、虚拟和现实、不同天气条件,以及少样本增量学习设置。
图片



联系我们

联系人:孙老师

电话:0571-86878691

工作电话:0571-86878691

电子邮箱:syq@hdu.edu.cn

智能信息处理实验室

浙江省杭州市杭州经济开发区白杨街道2号大街1158号 杭州电子科技大学