Facebook开源VoiceLoop,根据开放场景语音文字合成新语音

Facebook 研究员近日开源了他们在今年七月发表的一篇论文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的语音合成方法。

Facebook 研究员近日开源了他们在今年七月发表的一篇论文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的语音合成方法。

Facebook 研究员近日开源了他们在今年七月发表的一篇论文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的语音合成方法。

Facebook 开源 VoiceLoop,根据开放场景语音文字合成新语音

在论文中,他们提出了一种新的文字转语音的神经网络方法,可以将从开放场景下采样到的声音中提取的文字转化为语音。不同于其他的文字转语音系统,这种方法能够处理从公开演讲中提取出来的非约束性的样本,而且网络架构比现存的解决同样问题的架构要简单。它基于新的移位缓冲内存储器区(shifting buffer working memory),这个缓冲区也可以用于评估注意力,计算输出音频,以及自身的更新。

Facebook 开源 VoiceLoop,根据开放场景语音文字合成新语音

通过使用与上下文无关(context-free)的查找表对输入语句进行编码,该表的每个条目包含一个字符或音素。同样,能通过一个短向量来表示说话者,这个短向量也适用于新说话者。而且在生成音频之前,优先准备好缓冲区可以使生成的语音具有可变性。

上图为实验样例中生成的注意力图,X 轴是输出时间(声学样本),Y 轴是输入(文本/音素)。

代码地址:https://github.com/facebookresearch/loop

论文地址:https://arxiv.org/abs/1707.06588

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月5日 01:03
下一篇 2023年5月5日 01:03

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信