当前位置:静雅生活网 > 生活常识 >

tts系统(语音转换(VC)和语音合成(TTS)模型算法)

导读:本文梳理了语音转换(VC)和语音合成(TTS)领域的若干模型算法,下面简要介绍各模型算法的概况。  1. One-shot Voice Conversion by Sepa

  本文梳理了语音转换(VC)和语音合成(TTS)领域的若干模型算法,下面简要介绍各模型算法的概况。

  1. One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization

  目前,很多关于语音转换的研究主要集中在并行语料集的基础上,已经能够实现将一种音色转换成其他音色,但是这种方法对训练数据要求较严格(并行数据),且只能转换训练集内的人的音色。本文提出了一种one-shot音频转换方法,主要思想是通过 instance normalization等技术进行音色和内容分离,然后重组音色和内容,最终生成目标音色的音频。

语音转换(VC)和语音合成(TTS)模型算法语音转换(VC)和语音合成(TTS)模型算法语音转换(VC)和语音合成(TTS)模型算法语音转换(VC)和语音合成(TTS)模型算法语音转换(VC)和语音合成(TTS)模型算法

  在这项工作中,我们提出了一种新的非 AR 端到端 TTS 模型 VARA-TTS,它使用 VDVAE 和剩余注意机制从文本生成梅尔谱图。实验结果表明,在相似的推理速度下,VARA-TTS 获得了比 BVAE-TTS 更好的结果,并且比 Tacotron 2 的推理速度提高了 16 倍,但在自然性方面的性能略差。

  7. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism

  歌声合成 (SVS) 系统旨在合成高质量和富有表现力的歌声。以前的歌声合成模型采用简单的损失(例如 L1 和 L2)或生成对抗网络(GAN)来构建声学特征,但它们分别存在过度平滑和不稳定的训练问题,这阻碍了合成歌声的自然性。在这项工作中,我们提出了 DiffSinger,一种基于扩散概率模型的 SVS 声学模型。DiffSinger 是一个参数化的马尔可夫链,它迭代地将噪声转换为以乐谱为条件的梅尔谱图。通过隐式优化变分边界,DiffSinger 可以稳定地训练并生成真实的输出。为了进一步提高语音质量并加快推理速度,我们引入了一种浅层扩散机制,以更好地利用学习到的先验知识。具体来说,DiffSinger 根据真实梅尔谱图的扩散轨迹与简单的梅尔谱图解码器预测的扩散轨迹的交集,以比扩散步骤总数小的浅步开始生成。此外,我们训练了一个边界预测网络来定位交叉点并自适应地确定浅步。在中文歌唱数据集上进行的评估表明 DiffSinger 优于最先进的 SVS 模型。我们的扩展实验也证明了 DiffSinger 在文本到语音任务上的泛化性能。

语音转换(VC)和语音合成(TTS)模型算法

  Tacotron 2 结合了Seq2Seq循环网络和注意力机制,用改进的 WaveNet 声码器预测梅尔频谱图。该系统可以直接从数据中进行训练,而无需依赖复杂的特征工程,并实现了接近人类语音的音质。

  关注微信公众号“多模态人工智能”:语音转换(VC)和语音合成(TTS)模型算法

版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/shcs/39846.html,如需转载,请注明出处!

联系我们

在线咨询:点击这里给我发消息

微信号:weixin888

工作日:9:30-18:30,节假日休息