海阔天空蓝

一个玩过n种运动的语音合成算法攻城狮

0%

简单的生活法则

  1. Mental Models I Find Repeatedly Useful

https://medium.com/@yegg/mental-models-i-find-repeatedly-useful-936f1cc405d

  1. THREAD: 15 of the most useful razors and rules I've found. Rules of thumb that simplify decisions.

https://twitter.com/george__mack/status/1350513143387189248

最近看完了一系列论文之后,想继续读一些优秀的A类论文,毕竟志存高远嘛。所以就这篇文章总结一下A类论文里的best papers吧,了解更多的方向,也向各位大佬们看齐。

阅读全文 »

从2018年在UoE学习PMR的时候就开始接触VAE了,记得当时为了搞懂KL散度也花了一些时间,然而在实际应用中遇到的时候还是屡战屡败,屡败屡战,看了有100次了,还是没太理解里面的抽象的数学原理,所以考古一下VAE的初创论文再深入理解一下VAE的门门道道。

阅读全文 »

本文采用WaveNet作为Autoencoders来学习到speech representations, 用作一种语音表示,文章发表于IEEE/ACM transactions on audio, speech, and language processing 2019,一作为Jan Chorowski,is an Associate Professor at Faculty of Mathematics and Computer Science at the University of Wrocław, Poland. 其他团队成员为Google成员,包括Ron J. Weiss(Google software engineer),Samy Bengio(Google Brain team leader),Aa ̈ron van den Oord(DeepMind Research scientist)

阅读全文 »

本文是采用VQ-VAE的方案来解决低资源语种语音合成的问题,作者来自于 NetEase Games AI Lab, 文章发表于Interspeech 2020。文章思路简单,清晰,可读性强,实验验证部分,在多种情境下进行控制变量的ablation studies,效果显著,对于低资源语种合成提供了新的方案,打分:🌟🌟🌟🌟

阅读全文 »

本文考古了两篇TTS的开山之作,Paper1是Google公司Heiga Zen发表于ICASSP 2013的,对于采用Deep Neural Networks进行语音合成Text-to-speech的开山之作(STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS)。自此以后,语音合成开始从基于HMM的统计参数合成模型,转向深度学习模型,论文思想虽简单,但理论和实验部分逻辑清晰,验证充分,实验结论清晰可靠,有多处可学习之处,建议精读。Paper2是Motorola公司Orhan Karaali在World Congress on Neural Networks 的Invited paper,是首次采用Neural network解决TTS任务(Speech Synthesis with Neural Networks)。(不禁感叹前人的高瞻远瞩,在90年代就在做25年后火热的事情了。)

阅读全文 »

目前玩过的23种运动如下,更多运动探索中……

  • 跳绳
  • 跳皮筋
  • 丢沙包
  • 跳房子
  • 蹦床
  • 爬健身器材
  • 花样轮滑
  • 游龙板
  • 短跑
  • 跳远
  • 游泳
  • 跆拳道
  • 太极拳
  • 健美操
  • 舞狮
  • 龙舟
  • 瑜伽
  • 攀岩
  • 滑雪
  • 滑冰
  • 射箭
  • 乒乓球
  • 滑板