个人理解,语音转换的研究,基本都是从图像转换那里衍生过来的。而图像转换输入的是图像,那么语音转换输入的就是语音?NO,应该是语音的图像!也就是频谱图。

我们实际上输入的是sp ap mel倒谱系数,我们首先从音频文件中用库载入这些音频文件,然后提取出这些特征(提取的过程中可能包含编码、归一化、填充、分帧等),这些步骤就是预处理。我们放入生成器的东西,就是这些预处理的产物,就是这些特征序列。生成器生成的,也是特征序列,判别器判别的,也是这些特征序列。我们最终将生成的特征序列经过声码器,变成音频,这才是我们最终需要得到的东西。

语音转换到底转换的什么-LMLPHP

看看这个starGAN-VC的图,看到生成器和判别器输入的是什么了吗?不就是我们上面说的频谱图吗?不正是声学特征嘛?

甭管那么多,你可以从各种VC代码里看到,我们预处理都是围绕这三大特征展开的,预处理后的东西放入生成器,也就是把这些特征放入生成器啊!!!

cycleGAN-VC也是一样啊!!!

07-23 17:52