海阔天空蓝

一个玩过n种运动的语音合成算法攻城狮

0%

Uniform Multilingual Multi-Speaker Acoustic Model for Statistical Parametric Speech Synthesis of Low-Resourced Languages

Paper title: Uniform Multilingual Multi-Speaker Acoustic Model for Statistical Parametric Speech Synthesis of Low-Resourced Languages ---- Google UK (Interspeech 2017)

感想

这篇Google UK的论文,采用了一个MLMS的想法来解决低资源语种合成的问题,思想感觉上与采用IPA来统一音素特征是非常相似的,论文结构清晰,实验部分翔实充分,打分:🌟🌟🌟

论文题目:用于低资源语言统计参数语音合成的统一多语言多说话者声学模型 ---- 谷歌UK

Abstract

痛点:对于低资源语种来说,获取大量的训练数据是昂贵且困难的,通常是仅仅能获取到一小部分 / 或者没有数据集。

解决方案:本文提出了一种利用长短期循环神经网络的声学模型,目的是解决小语种语言数据缺失的问题。“说话人自适应”系统目的在于在多种语言间保持说话人的相似度,而本方法的突出特征是,模型构建成功后,系统不需要再重新训练以解决集外的语种,这是由于语言和说话人-不可知的建模方法和通用的语言特征集。

实验结果:1)在12种语言上的实验结果显示,对于集外语种,系统仍能生成智能、自然的声音。2)当提供了少量训练数据的情况下,pooling the data有时能够提高整体的智能性和自然度。3)有时,构建一个zero-shot的多语种系统好于few-shot 单说话人单语种系统。

Introduction (1 page)

近期发展:近些年,统计参数语音合成的方法,从HMM转向了神经网络系统,2013年 Heiga Zen 发布了第一个采用前向DNN网络的语音合成系统(Google,ICASSP 2013),且合成效果优于HMM系统。之后的LSTM-RNN模型提升了语音合成的效果,并且最近的PCM生成模型(WaveNet)近一步提升了模型效果。

挑战:1)语音数据的获取。当从先验收集到少量数据时,说话人-自适应方法可以被采用,这时候,需要将模型在新说话人的少量数据集上进行fine-tune。但是这种方法不能用于zero-shot的情境。2)获取多说话人的广泛数据集,并且构建一个平均音色模型。但是这个方法不能应用于缺少足够语言信息的语种上。

本文课题:对于指定的低资源语种数据,有最小的语言表示信息。

解决方法:一个多语种声学模型被训练,其中目标语种的数据集未包含在训练数据集集内。

本文贡献:一个通用的MLMS(multi-lingual multi-speaker)模型被训练,并且是采用语言和说话人-不可知的方法。

Multilingual Architecture (1 page)

本文的优势:1)一个具象的输入特征空间,不需要在新语种上fine-tune;2)一个类似于单说话人的简单模型架构。

2.1 文本特征

2.1.1 典型语言表示

训练数据集是包含多种语言和口音的。首先将多语种全部转换至IPA。尽管这个转换过程有一些困难,如1)需要专家知识来做相应的转换,2)不能直接的转换。但是这个IPA还是能够为语言空间提供具象的特征。

2.1.2 系统发育语言特征

基于BCP-47标注,我们采用语言和边界识别特征来建模同语种的不同口音。+ 一个系统语言分类树

2.2 LSTM-RNN 声学模型

给定语言特征后,LSTM-RNN时长模型的作用是预测每个音素的发音时长。然后再将这个时长和语言特征一同输入到声学模型。以预测音频波形。音频波形的平滑性,是采用RNN的循环单元来建模的。

由于本文需要处理更大数量的数据集和更加多样的语言特征,所以本文的模型与baseline的区别在于ReLU的单元数量和LSTM的层数,以及声学模型输出层的循环单元的个数。

Experiments (2 page)

用于训练声学模型的数据集语料有超过800小时的语音,包含了37种不同的语言种类。这些语言属于原始的59组语言/地区对,一些语种,如英语,有不同的说话人数据集,对应不同的地域口音。对于一些口音(如EN-US)有多个说话人。一些音频是在消声室(anechoic chambers)录制的,而一些就是常规的录音室录制的(a regular recording studio)

3.1 方法论:系统细节

语音数据采用22.05KHz的数据集,LSTM-RNN模型输出的特征是音素的发音时长

3.2 模型参数和评估

实验被设计为两种情景:

  • 模型被在除去12种语言的语料上训练(其中有6种,是毫无语料的情况)。但每一种被排除的语种(除了其中2种)都有“亲戚”语种在训练数据集中。在对这些被排除在外的目标语种进行语音合成。其中的模型称为H
  • 用所有语种的数据集来训练模型。其中的模型称为I

因为声学模型可以被speaker和gender identifying特征控制,所以以下实验被设计来观察如何影响合成质量。

  • speaker和gender特征 unset (default,D),set to the highest quality female speaker (EN-US, F), highest quality male speaker (EN-GB, M), speaker of the closet language (C).
  • Setting the speaker and gender features for this speaker (S)

实验评估:100句集外话术,每个人最多听100句话。每句话有1min的评估时间。每一种语言有8个评分者。

3.3 实验结果和讨论