本文为韩国团队发表的Reinforcement learning 应用于 End-to-end TTS aligner 的代表性论文。这还是迄今为止看到的第一篇reinforcement learning in TTS。
Wavegrad2
本文为Google的Heiga Zen发表于Interspeech 2021的 End-to-end TTS 的代表性论文。
END-TO-END ADVERSARIAL TEXT-TO-SPEECH
本文为ICLR 2021发表的 End-to-end GAN-based TTS 的代表性论文。
Wave-tacotron spectrogra-free end-to-end text-to-speech synthesis
本篇论文为一种End2end TTS的方法,由Google团队提出。
FASTSPEECH 2 FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECH
本篇论文为end-to-end text-to-speech 的创新尝试
Graphspeech syntax aware graph attention network for neural speech synthesis
本文为ICASSSP 2021发表的 Graph-based TTS的代表性论文。
EfficientTTS An Efficient and High-Quality Text-to-Speech Architecture
本篇论文为一种高效的TTS方法,此种方法既可以实现高质量,也可以实现较快的推理效率。由平安技术研究院发表,代码在github社区有TTSer已经复现。
End-to-end TTS & VC 文章总结
TTS领域近些年的研究大多重点放在多阶段的模型建模和训练,如TTS分为前端文本处理、声学模型、声码器,而VC分为Audio2Mel,Mel2mel。我本人认为,端到端的模型才是TTS / VC领域的重点,而end2end任务的难点主要在于声码器的合并,即对于高分辨率的语音采样点的降采样特征抽取和建模。近些年,一些学者和研究成员在end2end TTS 与end2end VC上发表了相关文章。因此本文加以总结和收纳,以推进在TTS和VC领域End2end的可能性。
VITS
本文为ICML2021发表的end-to-end TTS的代表性论文,且论文代码已经开源。
Awesome-bloggers
Awesome bloggers
TTS
https://rayeren.github.io Yi Ren (任意) FastSpeech
https://tan-xu.github.io 谭旭 微软亚洲研究院机器学习组的主管研究员 Fastspeech 二作
https://liusongxiang.github.io Songxiang Liu (刘颂湘),PhD from Helen Meng 2021
https://entn.at Ewald Enzinger,
https://jaywalnut310.github.io/#/about Jaehyeon Kim (KAIST), VITS(一作) / Glow-TTS(一作) / Hifi-GAN(二作) / FloWaveNet, KaKao
https://robin1001.github.io/ BInbin Zhang, WeNET 开发者,Xielei团队学生
http://tonywangx.github.io/research.html,https://scholar.google.com/citations?hl=en&user=uMZhUHcAAAAJ&view_op=list_works&alert_preview_top_rm=2&sortby=pubdate,https://researchmap.jp/wangxin?lang=en。Xin Wang,王鑫,NII Yamagishi Lab组 博士后
AI
https://dczha.com Daochen Zha DouZero
https://www.alanshawn.com Alan Xiang (项子越) 中山大学勤奋博主
https://kexue.fm 苏剑林 93年
http://blog.tsuai.cn 金天 神力算法开发者
https://dreamhomes.top/posts/202004170915/ 梦家 机器学习算法工程师
https://www.tyleryep.com Tyler Torchinfo作者
https://sites.google.com/a/email.wm.edu/teddy-lfwu/home Teddy Wu 京东硅谷研究院首席科学家 Graph4NLP 负责人
https://sites.google.com/view/xiaojie-guo-personal-site Xiaojie Guo 京东硅谷研究院应用科学家 Graph4NLP 第二负责人
http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/ Swami Chandrasekaran IBM CTO / Waston
https://jermainewang.github.io Minjie Wang Amazon AI Lab Shanghai DGL-GAT, MXNET作者
https://www.guofei.site/pages/about.html 郭飞 阿里巴巴 算法/安全工程师
Good resources
https://clemense.github.io. Clemens Eppner Nvidia
Acadamy’s great scholar leaders
https://dl.acm.org/profile/81350580267/publications?Role=author&pageSize=20&startPage=1 Tie-Yan Liu Microsoft
Awesome Company’s Bloggers
TTS
https://speechresearch.github.io
http://www.kecl.ntt.co.jp/people/kameoka.hirokazu/Demos/
https://google.github.io/tacotron/index.html Google Tacotron team
https://thuhcsi.github.io 清华大学人机语音交互实验室,吴致勇教授团队
http://lxie.npu-aslp.org/index.htm#Publications 西北工业大学谢磊团队
https://graphdeeplearning.github.io/post/benchmarking-gnns/ NTU Graph Deep Learning Lab
https://nii-yamagishilab.github.io/voicepersonae/downloads/ NII Yamagishi Lab VoicePersonae