阡陌居

 找回密码
 立即注册
搜索
热搜: 新人报到
查看: 112|回复: 2

[论文] 《高效语义聚焦的唇动到语音合成框架》作者:孟敬字 谢东亮【PDF】

[复制链接]

用户组:分区版主

我,秦始皇,打钱

爱心会员勋章重建论坛爱心会员勋章重建论坛勋章版主勋章分区版主勋章

      UID
51
      积分
21110
      回帖
1377
      主题
2163
      发书数
757
      威望
16183
      铜币
85195
      贡献
2400
      阅读权限
100
      注册时间
2025-2-27
      在线时间
3892 小时
      最后登录
2025-12-17
发表于 2025-3-23 06:58 | 显示全部楼层 |阅读模式
高效语义聚焦的唇动到语音合成框架
孟敬字1,谢东亮2
1北京邮电大学计算机学院,北京100876
2北京邮电大学计算机学院,北京100876
摘要:唇动到语音合成的目标是根据无声说话人视频,合成与视频同步的高质量语音。然而,由于预测目标的复杂性及对先验知识的提取和利用不充分,先前大量工作所生成的语音听感机器化且准确度不高。为了解决这个问题,本文提出一种新的唇动到语音合成框架FusionV25。
首先设计音频掩码自编码器,采用不规则掩码重建的方式学习上下文语义信息,获取增强音频特征。然后设计音频自监督迭代聚类方法,细化该特征的聚类分配,得到量化的自监督语音单元,沟合成语音提供有效补充。同时设计去噪扩散模型,该模型结合卷积、多头注意力以及前馈神经网络聚焦带噪梅尔频谱的时序信息,从而在解码梅尔频谱时降低预测目标的复杂性。进一步地,以提取的唇部视频特征为条件,建立语音单元和梅尔频谱两个指导目标,充分利用该条件进行解码。最后,将两者融合用于指导音频的生成,很好地弥补了两个指导目标各自存在的缺陷。本文方法在公开的中文无约束多说话人数据集CMLR、CN-CVS上取得了先进的性能。
关键词:唇动到语音合成;音频掩码自编码器;自监督语音单元;去噪扩散模型
中图分类号:TP37






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1威望 +1 铜币 +2 收起 理由
飞乌与渔 + 1 + 2 论坛有您更精彩!

查看全部评分

回复

使用道具 举报

用户组:管理员

爱心会员勋章重建论坛爱心会员勋章重建论坛勋章管理员勋章

      UID
5
      积分
160592
      回帖
23792
      主题
17581
      发书数
17566
      威望
119939
      铜币
429860
      贡献
2400
      阅读权限
200
      注册时间
2025-2-27
      在线时间
1716 小时
      最后登录
2025-12-17
发表于 2025-6-22 06:02 | 显示全部楼层
这个应该在制作短视频领域的作用挺大啊
回复

使用道具 举报

用户组:翰林

一蓑烟雨任平生

重建论坛勋章

      UID
615
      积分
10638
      回帖
11057
      主题
226
      发书数
111
      威望
4885
      铜币
22699
      贡献
0
      阅读权限
80
      注册时间
2025-3-1
      在线时间
523 小时
      最后登录
2025-12-16
发表于 2025-6-23 19:47 | 显示全部楼层
是不是对聋哑人的福利啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2025-12-17 07:23 , Processed in 0.087501 second(s), 29 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表