海阔天空蓝

Parrotron An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation

发表于 2021-08-22 更新于 2021-08-23 分类于工作

本文为Interspeech 2019发表的面向听力障碍的VC应用的代表性论文。

发表于 2021-08-21 分类于工作

本文为Interspeech 2021发表的在Glow-TTS上进行的Zero-shot Multi-Speaker Text-to-speech 方向的改进论文。

发表于 2021-08-21 分类于工作

本文为TTS行业内首个发表的采用syntactic parsed tree 方案来解决TTS韵律问题的论文，出自于西工大谢磊团队，发表于Interspeech 2019。

发表于 2021-08-20 更新于 2021-08-24 分类于工作

本论文为继GraphTTS, GraphSpeeech，GraphPB之后的第四篇讲GNN应用于TTS，以解决TTS语言语义建模韵律情感的问题。出自于清华深研院吴致勇教授团队,发表于ICASSP 2021。

发表于 2021-08-20 更新于 2021-08-24 分类于工作

本论文为继GraphTTS, GraphSpeeech, GraphPB等之后的第5篇将GNN应用于TTS，以解决TTS语言语义建模韵律情感的问题。出自于清华深研院吴致勇教授团队，投稿至Interspeech 2021，但不清楚是否录用。

发表于 2021-08-19 更新于 2021-08-20 分类于工作

文本概述声纹识别中遇到的i-vector, d-vector, x-vector之间的区别和联系。

发表于 2021-08-18 分类于工作

本文为西班牙电信Telefónica Research于NeurIPS 2019发表的 Vocoder领域的代表性论文，基于MelGAN修改，且在效率和性能上都得到了极大的提升。

发表于 2021-08-17 分类于工作

本文为NeurIPS 2020发表的 Vocoder领域的代表性论文，基于MelGAN修改，且在效率和性能上都得到了极大的提升。

发表于 2021-08-17 分类于工作

本文为NeurIPS 2020 (Oral) 发表的 Glow-TTS 的代表性论文，且论文代码已经开源。

发表于 2021-08-11 更新于 2021-08-12 分类于工作

本文为Sony在arxiv占坑的 End-to-end TTS 的代表性论文，看排版应该是发表到了Neurips。采用GAN的网络结构进行end-to-end VC 建模。