智能信息处理实验室-新闻

学术动态 | 我院博士研究生张哲东的论文被CCF-A类会议CVPR录用

原创新媒运营部杭电通信家园 2025年04月03日 20:01 浙江

近日，以我院博士研究生张哲东为第一作者，杭州电子科技大学为第一单位发表的论文《Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing》被计算机视觉与模式识别领域顶级国际会议CVPR 2025（CCF-A类会议）录用。该项研究由杭州电子科技大学和中国科学院计算所合作完成。论文的第一作者为我院2024级博士研究生张哲东，指导老师为中科院计算所李亮研究员、我校颜成钢教授和刘春山教授。

电影配音任务（Movie Dubbing，又称为视觉声音克隆，Visual Voice Cloning，V2C）旨在将台词转化为与给定电影片段中角色的表演在发音时间和情绪表达上对齐的语音，同时克隆一个简短的参考音频的音色。这一任务要求模型能够融合角色表现和复杂的韵律结构，以生成高质量且与视频片段对齐的配音。然而，电影配音数据集有限的规模，加之其音频数据中固有的背景噪声，限制了仅在配音数据集上训练的模型在生成高质量配音上的表现。为了解决这些问题，提出了一种声学-韵律解耦的两阶段方法，以实现高质量的配音生成，并确保精确的韵律对齐。首先，提出了一种韵律增强的声学预训练方法，以提升模型的鲁棒声学建模能力。接着，冻结预训练的声学系统，并设计了一个声学解耦的韵律适配框架，在根据输入的视觉模态建模韵律文本特征和配音风格的同时保持声学质量。此外，还引入了一个域内情感分析模块，以减少不同电影之间视觉风格差异带来的影响，从而增强情感-韵律的对齐效果。大量实验表明，该在两个主要基准测试中优于当前最先进的模型。

杭州电子科技大学“智能信息处理”实验室 (HDU IIPLab)主任为颜成钢教授。实验室现有在职教师50余名，含5位国家级人才及多位省级人才。现有硕博生200余名，毕业生多就职于阿里巴巴、腾讯、字节跳动、海康威视、华为、网易等国内知名企业。实验室为学校交叉创新团队，拥有自由开放的学术氛围和国际前沿的研究方向。实验室采用与海内外知名高校、研究所（清华大学、北京大学、中国科学院、美国北卡罗来纳大学教堂山分校、澳大利亚悉尼科技大学等）联合培养制，长期致力于智能信息处理方面的研究，主要研究方向包括：机器学习、模式识别、计算机视觉、计算机图形学、医学影像处理、生物信息学等。

图文：张哲东

排版：徐立超廖丹丹

审核：江劭玮

责编：张涵

发布：张霆岳