雷锋。com AI技术评论:深度学习在2006年出现后,近几年发展迅速,无论在学术界还是工业界都呈现指数级增长趋势;随着这项技术的不断成熟,深度学习在智能语音领域处于领先地位,并取得了一系列成功的应用。
在这次分享会上,雷(微信官方号:雷)邀请了中科院自动化所的博士。中国科学院自动化研究所刘斌博士,智能语音算法高级专家,中科院与极限元素智能交互联合实验室核心技术人员。多次在国际顶级会议上发表论文,在语音和音频领域获得多项专利,具有丰富的工程经验。刘斌博士将与您分享近年来语音生成深度学习的新方法,重点关注两个典型问题:语音合成和语音增强。
雷锋的《AI科技评论》对演讲总结如下。想了解更多的读者可以看看文末的视频,在刘斌博士的指导下找到相关信息增加理解。
刘斌:大家好。深度学习近年来发展迅速,在学术界和工业界都有许多成果和应用。深度学习也解决了语音领域的许多问题,如语音合成、语音增强、语音转换、语音带宽扩展等。今天,我们将重点介绍语音合成和语音增强的方法。
话音合成
语音合成的任务是将文本输入转换成声学特征。在生成语音之前,需要对文本进行分析和预处理,其中正则化针对数字和特殊符号,音字转换针对复音词,韵律处理使生成的语音抑扬顿挫、有节奏,然后进行后端生成。声学处理的常用方法包括统计参数建模和声码器。
这是一种传统的基于隐马尔可夫框架(HMM)的统计参数语音合成系统,在训练过程中建立文本参数和音频参数之间的映射关系。导致语音质量下降的环节有三个:决策树聚类、声码器语音再生、动态参数生成算法。针对这三个问题,有人提出了深度学习的方法进行改进。
在深度学习方法中,用神经网络代替决策树,建立文本特征和声学特征之间的关系,提高了模型的准确性。对于具体的模型结构,LSTM比DBN具有更强的序列学习能力,所以在使用LSTM时,可以经常跳过参数生成算法,直接预测语音参数,然后发送给声码器生成语音。深度神经网络强大的非线性建模能力也能在一定程度上提高语音合成系统的性能。
在过去的一两年里,工业上出现了一些新的语音合成方法,如基于。这是一种从时域角度(声波在不同时间的采样值)处理语音问题的方法,问题本身很有挑战性;传统的方法是基于频域(声波在不同时间的频率)。Google提出,文本参数可以直接与声波的采样值相关联。其主要问题是一次只能输出单个采样点,导致计算速度慢,生成效率低。
百度还提出了一种基于的语音生成系统,其中几个模块由深度神经网络实现,然后使用相似的模块生成语音。它的计算速度提高了400倍左右。然后百度进一步扩展支持多说话人语音合成,每个人只需要至少半小时的数据就能达到理想的效果。
是Google推出的比较新的语音合成系统。其特点是采用编译码器网络结构。优点是输入输出序列长度不需要一致;并且引入了注意力机制,可以提高性能。该结构还包括后处理网络。网络的输出是声谱图,可以通过相位重构算法转换成语音。这种方法绕过了声码器模块,可以提高语音质量
目前,语音合成仍然存在一些未解决的问题。首先,大多数方法是针对单个扬声器的。对于多说话人多语种,语音合成效果还是不理想。迁移学习相关方法可能有助于解决此类问题。第二,目前的语音系统产生的声音表现力仍然不足,尤其是合成口语时,效果会下降。
语音增强
语音增强是语音识别、声纹识别等算法中重要的前端处理模块。其优缺点在一定程度上影响了后续识别方法的鲁棒性。根据麦克风的数量,语音增强可以分为单通道语音增强和多通道语音增强。多通道语音增强可以有效利用声音的空间信息,增强目标方向的声音信息,抑制子目标方向的干扰源;这种方法今天就不详细介绍了,有兴趣的可以参考麦克风阵列技术的相关资料。
图中显示了四种主要的干扰源,它们在实际情况下可能同时存在,给语音增强带来了很大的困难。下面是单通道语音环境下的一些语音增强方法。
单通道语音增强方法主要分为三类。下面将详细介绍基于深度学习的语音增强方法。这里我们还利用了深度学习强大的非线性建模能力,在匹配环境方面有明显优势,在处理非平稳噪声方面有一定优势。
该方法是用深度神经网络直接预测光谱参数。它的输入是带噪语音的幅度谱相关特征,输出是干净语音的幅度谱相关特征,然后建立它们之间的映射关系。网络结构可以是DNN,LSTM,甚至CNN。这种方法能够更有效地捕捉上下文信息,因此在处理非平稳噪声时具有一定的优势。
深度神经网络也可以用来预测屏蔽值。该方法中,模型的输入可以是听觉域相关特征,输出可以是二进制掩码值或浮点掩码值。这种方法根据听觉感知的特点将音频分为不同的子带,并提取特征参数。它的实用功能是判断时频单元中的内容是语音还是噪声,然后根据判断结果保留时频单元中的能量或置零。这种方法的优点是可以很好地保留共振峰处的能量,而相邻共振峰和共振谷之间的语音会失真更多,但人类对这种信息并不敏感,所以还是
然有相对较高的可懂度。以往的方法主要关注于声音的幅值谱,没有利用到相位谱中的信息。复数神经网络中的复数谱就是一种同时利用幅值谱和相位谱的方法。
现在还有利用生成式对抗网络GANs的语音增强方法。GANs是这两年的热点范式,目前在语音领域中的应用还不多,不过今年也已经有人提出运用在语音增强中。这篇论文中的方法中,不再需要RNN结构网络中的递归操作,可以直接处理原始音频,是端到端的方法,不需要手工提取特征,也不需要对原始数据做明显的假设。生成器结构采用了CNN,而且没有全连接层,这样可以减少模型参数数量、缩短训练时间;端到端直接处理原始语音信号的方法也避免了变换、提取声音特征等复杂过程。鉴别器仍然起到引导生成器更新的作用。
除了刚才说到的一些主要针对环境噪声抑制的方法之外,PIT方法则可以处理两个或更多说话人声音混叠时的分离问题。还有一种基于深层聚类的分离方法。不过为了在真实环境下可用,去噪音、去混响等问题也需要考虑,分离问题仍然有很大的困难。
语音增强领域目前仍待解决的问题是,如何在消除噪声的同时有效提高语音的可懂度、听感(避免消除语音本身的特征),以及,语音增强方法作为后续语音识别和声纹识别方法的预处理模块,需要前后合理对接,而不应完全分别设计,这样才能提高整个系统的鲁棒性。
最后,对于未来发展的展望,语音生成领域许多问题虽然建模方法不同,但是也有许多值得互相借鉴的部分,可以促进相互提高。深度学习虽然是火热的方法,但是也不能指望深度学习解决所有的问题。并且,要先对处理对象的物理含义有深入的理解,在这个基础上寻找合适的模型、对模型进行优化,才能得到较好的问题解决效果。
视频回放
相关阅读
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除
标签: #国外了解深度学**最新动态的网站