MetaVoice 1B - TTS 和语音克隆
MetaVoice 最新发布的 MetaVoice1B,是一款引起热烈讨论的文字转语音(TTS)模型。不过,让我们不要太着急——鉴于有时候这类模型会表现出“飞跃式”的语言表达,我们还是一步步来。
MetaVoice 是一家涉足语音到语音转换领域的初创公司,如今也进入了文字转语音的领域。 看来他们撸起袖子、构建了一个庞然大物——拥有 12 亿个参数、注入了10万小时语音数据。对于一家初创公司来说,就像是以小博大,称得上是非常有雄心壮志了。
该模型号称具有 zero-shot 克隆功能, 不熟悉这个术语的朋友可以理解为:它无需事先针对特定声音进行训练,就可以模仿这些声音。只需给它三十秒某人甜美的声音样本,无论这个人是说美式英语还是英式英语,瞧——你就拥有了一个数字模仿者。这就像是一只上了声乐课的鹦鹉。
更有趣的是,MetaVoice 承诺即将推出微调脚本,供那些自己热衷于克隆声音的玩家使用。他们声称,不久你就能调整模型的“声带”,让它可以匹配各种口音,走出英语世界的局限、进入更为广阔的语言环境。
他们的另一个亮点是成功克服了语音模型中经常出现的”幻觉”,也就是说模型会创造出一些不存在的词句。我们可不想在询问天气预报时得到虚构的词汇,对吧? 之前的 Bach 模型就颇有这种创作倾向,常常让使用者哭笑不得。
好奇背后的机制吗?模型架构的讨论就像是一场科技诗会:融合了 causal transformer 和 non-causal transformer,还有 multiband diffusion,以及负责过滤噪音的深度神经网络——简直是未来机器人的美梦。
不过实践出真知,我们不应只停留在理论上。接下来,我要在 Colab notebook 里实际试用一下这个模型。Colab 可以说是我们的数字沙盒,在里面做实验完全免费。我的发现是什么呢?有些生成的声音流畅优美,但其他的就……嗯,恐怕是赢不了任何模仿秀的大奖。
尝试调整不同的参数,比如 temperature 和 guidance scale ,这种感觉就像是在调校一件精密的乐器。精细的调整可以将笨手笨脚的 TTS 模型变成一位谈吐自如的播音员。不过,我确实也碰到了生成文本缺失的情况,在语音合成的宏伟交响中,出现这些小插曲是可以理解的。
现在是共享的时代,MetaVoice1B 是开源的,是送给技术玩家和创作者们的一份大礼。当然也有要注意的地方:这个模型还有很多地方需要向私有模型学习,比如 Google 那神乎其神的 SoundStorm,或是 OpenAI 的大师之作。MetaVoice1B 就像一位潜力无限,但尚未完成学业的天才少年。