海阔天空蓝

一个玩过n种运动的语音合成算法攻城狮

0%

本文为Google的Heiga Zen发表于Interspeech 2021的 End-to-end TTS 的代表性论文。

阅读全文 »

TTS领域近些年的研究大多重点放在多阶段的模型建模和训练,如TTS分为前端文本处理、声学模型、声码器,而VC分为Audio2Mel,Mel2mel。我本人认为,端到端的模型才是TTS / VC领域的重点,而end2end任务的难点主要在于声码器的合并,即对于高分辨率的语音采样点的降采样特征抽取和建模。近些年,一些学者和研究成员在end2end TTS 与end2end VC上发表了相关文章。因此本文加以总结和收纳,以推进在TTS和VC领域End2end的可能性。

阅读全文 »

本文为ICML2021发表的end-to-end TTS的代表性论文,且论文代码已经开源。

阅读全文 »

Awesome bloggers

TTS

https://rayeren.github.io Yi Ren (任意) FastSpeech

https://tan-xu.github.io 谭旭 微软亚洲研究院机器学习组的主管研究员 Fastspeech 二作

https://liusongxiang.github.io Songxiang Liu (刘颂湘),PhD from Helen Meng 2021

https://entn.at Ewald Enzinger,

https://jaywalnut310.github.io/#/about Jaehyeon Kim (KAIST), VITS(一作) / Glow-TTS(一作) / Hifi-GAN(二作) / FloWaveNet, KaKao

https://robin1001.github.io/ BInbin Zhang, WeNET 开发者,Xielei团队学生

http://tonywangx.github.io/research.html,https://scholar.google.com/citations?hl=en&user=uMZhUHcAAAAJ&view_op=list_works&alert_preview_top_rm=2&sortby=pubdate,https://researchmap.jp/wangxin?lang=en。Xin Wang,王鑫,NII Yamagishi Lab组 博士后

AI

https://dczha.com Daochen Zha DouZero

https://www.alanshawn.com Alan Xiang (项子越) 中山大学勤奋博主

https://kexue.fm 苏剑林 93年

http://blog.tsuai.cn 金天 神力算法开发者

https://dreamhomes.top/posts/202004170915/ 梦家 机器学习算法工程师

https://www.tyleryep.com Tyler Torchinfo作者

https://sites.google.com/a/email.wm.edu/teddy-lfwu/home Teddy Wu 京东硅谷研究院首席科学家 Graph4NLP 负责人

https://sites.google.com/view/xiaojie-guo-personal-site Xiaojie Guo 京东硅谷研究院应用科学家 Graph4NLP 第二负责人

http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/ Swami Chandrasekaran IBM CTO / Waston

https://jermainewang.github.io Minjie Wang Amazon AI Lab Shanghai DGL-GAT, MXNET作者

https://www.guofei.site/pages/about.html 郭飞 阿里巴巴 算法/安全工程师

https://www.mi1k7ea.com 安全大佬

Good resources

https://clemense.github.io. Clemens Eppner Nvidia

Acadamy’s great scholar leaders

https://dl.acm.org/profile/81350580267/publications?Role=author&pageSize=20&startPage=1 Tie-Yan Liu Microsoft

Awesome Company’s Bloggers

TTS

https://speechresearch.github.io

http://www.kecl.ntt.co.jp/people/kameoka.hirokazu/Demos/

https://google.github.io/tacotron/index.html Google Tacotron team

https://thuhcsi.github.io 清华大学人机语音交互实验室,吴致勇教授团队

http://lxie.npu-aslp.org/index.htm#Publications 西北工业大学谢磊团队

https://graphdeeplearning.github.io/post/benchmarking-gnns/ NTU Graph Deep Learning Lab

https://nii-yamagishilab.github.io/voicepersonae/downloads/ NII Yamagishi Lab VoicePersonae