海阔天空蓝

一个玩过n种运动的语音合成算法攻城狮

0%

ClsVC

CLSVC: LEARNING SPEECH REPRESENTATIONS WITH TWO DIFFERENT CLASSIFICATION TASKS.

Abstract

语音转换(VC)旨在将一个说话者的声音转换成另一个说话者所说的新语音。以前的工作侧重于通过应用两个不同的编码器分别从输入语音中学习内容信息和音色信息来学习潜在表示。然而,无论是应用瓶颈网络还是矢量量化技术,都很难从语音信号中完美地分离说话者和内容信息。在本文中,我们提出了一种新颖的语音转换框架“ClsVC”来解决这个问题。它仅使用一个编码器通过划分潜在空间来获得音色和内容信息。此外,提出了一些约束以确保潜在空间的不同部分分别只包含分离的内容和音色信息。我们已经展示了设置这些约束的必要性,我们也通过实验证明,即使我们改变了潜在空间的划分比例,内容和音色信息也将始终很好地分离。在 VCTK 数据集上的实验表明,就转换后语音的自然性和相似性而言,ClsVC 是最先进的框架。

Introduction

语音转换(VC)是一个令人兴奋的话题,致力于通过保留原始话语中的内容,同时用目标说话者的声音特征替换它,将源说话者的一种话语转换为目标人的另一种话语。 到目前为止,许多方法已经成功地应用于VC。 通常,这些方法可以粗略地分为两类,即并行 VC 和非并行 VC。 具体来说,并行 VC 意味着模型训练需要并行语料库,这对于非并行 VC 来说是不必要的。 最近,越来越多的研究人员将注意力集中在非并行 VC 的解决方案上,因为我们不容易收集这么多成对的源目标语音数据集。

早期的 VC 系统,如高斯混合模型需要大量并行数据进行模型训练,生成的语音质量不够好。 随着深度学习的进步,近年来提出了多种新颖的 VC 方法。 其中,基于 GAN 的模型是最流行的方法之一,可以在没有明确近似的情况下学习目标语音的全局生成分布。 这些基于 GAN 的模型联合训练生成器和鉴别器。 来自鉴别器的对抗性损失用于鼓励生成器输出构建与真实语音无法区分的输出。 由于循环一致性训练,基于 GAN 的 VC 模型可以使用非并行语音数据集进行训练。

此外,学习离散语音表示也引起了很多关注。 矢量量化(VQ),一种极其重要的信号压缩方法,可以将连续数据量化为离散数据。 先前的研究已经证实,连续语音数据产生的量化离散数据与音素信息密切相关。 最近,VQVC被提议学习仅用重建损失来解开内容和说话者信息。 然后,VQVC+ 很快被提出通过在基于自动编码器的 VC 系统中添加 U-Net 架构来提高 VQVC 的转换性能。 为了大大提高解开内容和说话人信息的性能,引入了许多其他现有研究与 VQ 相结合,例如 VQ-Wav2Vec、VQ-VAE 和 VQ-CPC。

还有另一项研究重点是使用自动编码器学习潜在表示。 尤其是变分自动编码器(VAE)最为著名。 VAE 的网络结构包含一个编码器和一个解码器,核心思想非常明确:编码器从输入语音中学习特定的潜在空间,解码器从该潜在空间输出重构的语音。 在这个过程中,VAE 侧重于如何强制编码器学习特定的潜在空间。 到目前为止,许多基于 VAE 的模型已成功应用。 此外,AutoVC 是 Autoencoder 的另一个成功应用。 通过巧妙的实验设计,AutoVC 使用两种不同的编码器分别学习内容和说话人信息,使该模型仅靠自重构损失就可以实现分布匹配风格迁移。

不幸的是,在 VC 领域,上面提到的所有模型都有其固有的缺点。 例如,基于 GAN 的模型通常可以达到很好的转换效果,并保证生成数据和输入数据的匹配,但是公认 GAN 的训练非常不稳定。 相反,VQVC的训练简单且足够快,但是这种方法产生的音频量很差。 这可能是因为离散的语音表示不可避免地会丢失一些内容信息。 另外,虽然基于VAE的模型也有很大的转换效果,但不能保证分布匹配。 AutoVC 是一项伟大的研究,训练非常简单并且达到了最先进的结果。 然而,为了实现风格转换,它必须引入一个预先训练好的扬声器编码器。

基于这些现有的方法,我们自然想知道是否有一种新的解决方案可以像 AutoVC 和 GAN 一样实现分布匹配,像 VQVC 和 VAE 一样容易训练,可以像 VQ 一样仅通过一个编码器解开内容和说话者信息, 并且在语音转换或从语音中分离语言和音色信息方面也有更好的表现?

在本文中,我们提出了一种新颖的语音转换框架来满足上述所有要求。 具体来说,我们的模型类似于 VAE,Autoencoder 是我们模型的主要框架,应用了两种不同类型的分类任务来强制我们的模型正确分离内容和说话者信息。 这里,两个分类任务分别是指一般分类任务和对抗性分类任务。 一般分类任务的目标是尽可能准确地识别与说话人相关的特征,即说话人信息。 而后者旨在消除潜在空间中的说话人信息以获得独立于说话人的特征,即内容信息。 实验结果在 VCTK 数据集上进行。 客观和主观评估表明,所提出的方法在自然度和说话人相似度方面优于 VQVC、AutoVC、VQ-VAE 和 StarGAN-VC。

Background

在数理统计中,如果我们已经知道 \(X\)\(Y\) 的联合概率密度函数,我们就可以很容易地分别求出 \(X\)\(Y\) 的边际概率密度函数。 形式上,如果 \((x, y) ∼ p(x, y)\) 已知,我们可以通过以下公式得到 \(X\)\(Y\) 的边缘分布:

进一步地,在一些设置条件的约束下,虽然方程中联合概率密度函数的封闭形式为 \(p(x, y)\)。 (1) 通常是未知的,当每个 \(z\) 对应于唯一的 \((x, y)\) 对时,神经网络从输入样本 \(z\) 中学习 \(x\)\(y\) 的边缘分布仍然是可行的。

互信息 (MI),衡量两个不同变量之间依赖性的关键指标。 最近,许多 MI 估计器已成功应用于约束神经网络以解开输入数据的不同分量。 可以表述为

其中\(P(X)\)\(P(Y)\)分别是\(X\)\(Y\)的边际分布,\(P(X,Y)\)表示\(X\)\(Y\)的联合分布。 由于很难获得所需的分布公式\(P(X,Y)\),因此许多研究集中于提出基于样本的MI下限(或上限)以获得可计算的近似值。

最近,引入了一种新的 MI 估计器,用于从语音中学习内容和风格信息以进行语音转换。 具体来说,他们提出了一种新颖的基于 MI 的学习目标,以鼓励内容编码器输出内容嵌入并引导说话人编码器输出说话人嵌入。 受此启发,我们提出了一种新的、简单且更有效的学习潜在语音表示的框架。

梯度反转层 (GRL) 梯度反转层 (GRL) 最初是为了解决域适应问题提出的,旨在强制模型输出与域无关的域共享特征。 具体来说,GRL 通常位于编码器和域分类器之间。 在前向传播期间,GRL 充当身份变换。 在反向传播过程中,GRL 从后续层获取梯度,将其乘以 -1 并将其传递给前一层,以便编码器和域分类器具有完全相反的优化目标。

Method

首先,对于每个语音 x ,我们使用内容嵌入 Cx 来表示语言信息,并提出说话人嵌入 Sx 来表示音色和风格信息。 并且,U 表示扬声器组。 以下两个定理是我们框架的前提: