计算机视觉与语音处理的交叉增强

cslehe · 发表于 2021-4-12 01:30:38

#111723#跟各人分享一篇十分成心思也很有效的文章，是WACV 2021的任命论文Visual Speech Enhancement Without A Real Visual Stream。该文研讨触及盘算机视觉与语音处置的穿插。
论文信息：

作者来自：印度 IIIT Hyderabad 和英国巴斯大学。
语音加强是语音处置的经典研讨内容，以往的语音加强常常只将语音作为输入信号，这在事实天下的喧闹情况中常常后果欠安。
比年来一种视觉帮助的语音加强技巧获得了冲破，通过跟踪视频中人物口型，能够较好的帮助过滤情况噪声。但其须要人物正脸在视频中，应用场景较为狭小，究竟大少数场景下，没有人物正脸，乃至没有视觉信息帮助。
该文学者指出，现实上依据语音停止唇语分解曾经是一个较为成熟的技巧，在现有框架下，能够直接应用语音信号自身分解人物口型的视频，进而帮助语音加强。

以下视频展现了终究语音加强的后果：
该文在多个数据集上获得了SOTA的成果，而且该技巧能够用于任何言语的语音加强，但因为此中含有视觉天生部份，估量比拟传统算法时光开消较大。作者曾经开源了代码，感兴致的友人能够试一下。

原文题目：无中生有！没有视觉信号的视觉语音加强
文章出处：【微信大众号：新呆板视觉】欢送增加存眷！文章转载请注明出处。

更多内容阅读推荐：抽油烟机回油烟怎么办

账号		自动登录	找回密码
密码			立即注册