本文为Interspeech 2019发表的 面向听力障碍的VC应用 的代表性论文。
SC-GlowTTS an Efficient Zero-Shot Multi-Speaker Text-To-Speech Model
发表于
分类于
工作
本文为Interspeech 2021发表的 在Glow-TTS上进行的Zero-shot Multi-Speaker Text-to-speech 方向的改进论文。
Exploiting Syntactic Features in a Parsed Tree to Improve End-to-End TTS
发表于
分类于
工作
本文为TTS行业内首个发表的采用syntactic parsed tree 方案来解决TTS韵律问题的论文,出自于西工大谢磊团队,发表于Interspeech 2019。
SYNTACTIC REPRESENTATION LEARNING FOR NEURAL NETWORK BASED TTS WITH SYNTACTIC PARSE TREE TRAVERSAL
本论文为继GraphTTS, GraphSpeeech,GraphPB之后的第四篇讲GNN应用于TTS,以解决TTS语言语义建模韵律情感的问题。出自于清华深研院吴致勇教授团队,发表于ICASSP 2021。
Dependency Parsing based Semantic Representation Learning with Graph Neural Network for Enhancing Expressiveness of Text-to-Speech
本论文为继GraphTTS, GraphSpeeech, GraphPB等之后的第5篇将GNN应用于TTS,以解决TTS语言语义建模韵律情感的问题。出自于清华深研院吴致勇教授团队,投稿至Interspeech 2021,但不清楚是否录用。
i-vector/d-vector/x-vector
文本概述声纹识别中遇到的i-vector, d-vector, x-vector之间的区别和联系。
Blow a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion
发表于
分类于
工作
本文为西班牙电信Telefónica Research于NeurIPS 2019发表的 Vocoder领域 的代表性论文,基于MelGAN修改,且在效率和性能上都得到了极大的提升。
Hifi-gan
发表于
分类于
工作
本文为NeurIPS 2020发表的 Vocoder领域 的代表性论文,基于MelGAN修改,且在效率和性能上都得到了极大的提升。
Glow-TTS A Generative Flow for Text-to-Speech via Monotonic Alignment Search
发表于
分类于
工作
本文为NeurIPS 2020 (Oral) 发表的 Glow-TTS 的代表性论文,且论文代码已经开源。
nvc-net End-to-End Adversarial Voice Conversion
本文为Sony在arxiv占坑的 End-to-end TTS 的代表性论文,看排版应该是发表到了Neurips。采用GAN的网络结构进行end-to-end VC 建模。