其中,论文《From Speaker to Dubber: Movie Dubbing with Prosody and Duration Consistency Learning》被会议选为Oral论文(Oral录用率3.97%)。该项研究聚焦于视觉声音克隆(Visual Voice Cloning,V2C),视觉声音克隆又称为电影配音任务(Movie Dubbing),旨在将台词转换为在时间和情感方面都与给定电影片段对齐的语音,同时保留住给定的单个参考音频的音色特征。配音中丰富的情绪和节奏变化以及需要和视频内容达成的对齐使其成为了一项极具挑战性的任务。该研究针对以上挑战设计了一个两阶段训练策略以及两个跨模态一致性模块,以使配音兼具高质量的发音和与视频内容的多层次对齐。 论文《Domain Shared and Specific Prompt Learning for Incremental Monocular Depth Estimation》增量单目深度估计旨在让模型在新域中不断学习的同时保持其在旧域中的性能,当模型适应动态场景变化时,灾难性遗忘问题是关键挑战。该项研究将跨域灾难性遗忘归因于域分布和深度空间的连续变化。为此,提出了用于增量单目深度估计的域共享和域特定提示学习(DSSP)。该篇论文所阐述的方法在不同场景下实现了最先进的性能,如不同深度范围、虚拟和现实、不同天气条件,以及少样本增量学习设置。