《高效语义聚焦的唇动到语音合成框架》作者：孟敬字谢东亮【PDF】

书呆熊 · 发表于 2025-3-23 06:58

高效语义聚焦的唇动到语音合成框架
孟敬字1，谢东亮2
1北京邮电大学计算机学院，北京100876
2北京邮电大学计算机学院，北京100876
摘要：唇动到语音合成的目标是根据无声说话人视频，合成与视频同步的高质量语音。然而，由于预测目标的复杂性及对先验知识的提取和利用不充分，先前大量工作所生成的语音听感机器化且准确度不高。为了解决这个问题，本文提出一种新的唇动到语音合成框架FusionV25。
首先设计音频掩码自编码器，采用不规则掩码重建的方式学习上下文语义信息，获取增强音频特征。然后设计音频自监督迭代聚类方法，细化该特征的聚类分配，得到量化的自监督语音单元，沟合成语音提供有效补充。同时设计去噪扩散模型，该模型结合卷积、多头注意力以及前馈神经网络聚焦带噪梅尔频谱的时序信息，从而在解码梅尔频谱时降低预测目标的复杂性。进一步地，以提取的唇部视频特征为条件，建立语音单元和梅尔频谱两个指导目标，充分利用该条件进行解码。最后，将两者融合用于指导音频的生成，很好地弥补了两个指导目标各自存在的缺陷。本文方法在公开的中文无约束多说话人数据集CMLR、CN-CVS上取得了先进的性能。
关键词：唇动到语音合成；音频掩码自编码器；自监督语音单元；去噪扩散模型
中图分类号：TP37

chenvenvei · 发表于 2025-6-22 06:02

这个应该在制作短视频领域的作用挺大啊

烟雨红尘 · 发表于 2025-6-23 19:47

是不是对聋哑人的福利啊

		自动登录	找回密码
密码			立即注册

[论文] 《高效语义聚焦的唇动到语音合成框架》作者：孟敬字谢东亮【PDF】

本帖子中包含更多资源

评分

爱心会员勋章

重建论坛爱心会员勋章

重建论坛勋章

版主勋章

分区版主勋章

管理员勋章

[论文] 《高效语义聚焦的唇动到语音合成框架》作者：孟敬字 谢东亮【PDF】