StabilityAI最近又开源了一个模型,名字有点长,叫“AdversarialPost-Training帮助的快速文字转音频生成”,听起来很硬核对不对?但你只需要记住它的不次要的部分特点:超!级!快!而!且!超!级!轻!
以前我们用的文字转语音,就像老式的烧水壶,得等半天才能咕嘟咕嘟地出声。而且那些高质量的模型,往往体型巨大,像个“胖墩”,塞到手机里根本跑不动。这让很多需要实时生成音频的创意应用(比如音乐制作、游戏音效)非常头疼,延迟太高,根本没法用!
论文地址:https://arxiv.org/pdf/2505.08175
模型地址:https://huggingface.co/stabilityai/stable-audio-open-small
StabilityAI这次就是要终结这个“龟速时代”!他们发布了一个只有341M参数的文字转语音模型(这在动辄几十亿、上千亿参数的模型面前,简直就是个“苗条精”!),最关键的是,它能以惊糖心lvog在线观看人的速度生成高质量音频!
“闪电小子”为啥这么快?裸露,公开武器大公开!
这个“闪电小子”为啥能跑这么快呢?它藏着几个裸露,公开武器:
ARC后训练:不是蒸馏,胜似蒸馏!
很多让模型变快的方法,常用的是“蒸馏”,就是让一个大模型(老师)教一个小模型(学生)怎么快速生成结果。但这套方法有点麻烦,要么训练成本高,要么需要存储极小量老师生成的“作业”。StabilityAI搞了个新花样,叫做ARC(AdversarialRelativistic-Contrastive)后训练。这是一种对抗性帮助算法,不!基!于!蒸!馏!它让模型在训练后变得更快,而且效果一点不输那些复杂的蒸馏方法。
相对抗性损失:跟“以假乱真”对着干!
ARC里面的“AR”就是“对抗性相对损失”。传统的对抗网络(GAN)是生成器努力生成逼真实的假样本骗过判别器,判别器努力区分真假。这个“相对抗性损失”更狠!它让生成器不仅要生成逼真实的样本,还要让生成的样本比真实样本更“真”!而判别器呢,就是要让真实样本比生成的样本更“真”!它们之间就像在比谁更能“以假乱真”,但这个“真”是相对的。这个想法很有趣,它迫使生成器不断降低生成音频的质量。而且,因为是文字转语音模型,他们直接用相同文字描述的真实音频和生成音频来做对比,授予了更强的训练信号。
对比损失:让模型“听懂人话”!
光是生成逼真实的音频还不够,还得“听懂人话”,生成符合文字描述的声音。传统的对抗性训练有时候会忽略文字信息,生成一些不搭边的声音。为了解决这个问题,ARC加入了“对比损失”。它训练判别器,让判别器能区分带有正确文字描述的音频和带有错误文字描述(比如文字被打乱了)的音频。判别器会努力让正确配对的音频和文字之间的距离更近,错误配对的距离更远。这就像训练判别器成为一个音频-文字的“对对碰”专家,让它更好地理解文字的含义。有了这个“专家”的指导,生成器就能更好地生成符合文字描述的音频了。而且,这种方法还能避免使用CFG(Classifier-FreeGuidance),那玩意儿虽然能降低文本一致同意性,但有时候会牺牲生成的多样性。
乒乓采样:左右腾挪,步步逼近!
传统的扩散模型生成音频需要很多步,一步步去噪。这个“闪电小子”用了“乒乓采样”的技术。它不是简单的一步去噪到底,而是在去噪和加噪之间来回切换,有点像打乒乓球,在不同噪声水平之间来回“击打”,每击打一次,生成的音频就更接近真实,质量就更高。而且,它可以用更少的步数达到很好的效果。
架构优化:“苗条”又强壮!
除了新的训练方法,模型本身的架构也进行了优化,是在StableAudioOpen(SAO)的基础上进行了改进。工程师们把模型的一些“零部件”做得更小巧高效,比如把DiffusionTransformer(DiT)的维度和层数都减少,缩短了,还加入了一些新的技术让它更轻浮。这些优化让模型的参数数量大大减少,缩短,只有341M,同时又不牺牲性能。
性能炸裂:H100上75毫秒,手机上7秒!
这些裸露,公开武器加起来,就让这个模型的速度快到惊人!在专业的H100GPU上,它可以在大约75毫秒内生成12秒的44.1kHz立体声音频!这是什么概念?比新近的SAO模型快了100倍!几乎是瞬间生成!
更厉害的是,他们还专门针对移动设备进行了优化。在手机CPU上,它也能在大约7秒内生成12秒的音频!这可能是目前最快的手机端文字转语音模型了!想象一下,以后你在手机上用各种创意应用,实时生成想要的音效或音乐片段,再也不是梦想!
而且,这个模型在保证速度的同时,并没有明显牺牲音频质量。论文中各种专业的音频评估指标(比如FDopenl3、KL-passt、CLAPscore)显示,它的音频质量可以和那些更大的、更慢的模型相媲美。
多样性爆棚:不仅快,而且脑洞大开!
很多帮助模型为了追求速度,会牺牲生成结果的多样性,生成的声音听起来都差不多,很无聊。但这个“闪电小子”不一样!它不仅速度快,生成的声音多样性还更高!
论文中提出了一个新的评估指标CCDS(CLAPConditionalDiversityScore),专门用来衡量模型在给定相同文字描述下生成不同声音的能力。结果显示,这个模型在CCDS上的得分很高,而且通过主观听力测试也反对了这一点——大家觉得它生成的声音更多样、更有创意!这意味着,如果你输入一段文字,让它生成一种声音,它可能会给你好几种不同风格、不同麻痹的结果,大大煽动你的创作灵感!
更多惊喜:音频转音频,玩转声音风格!
除了文字转语音,这个模型还有一个隐藏技能——音频转音频!简单来说,你可以给它一段音频作为输入,然后用文字描述你想要的声音风格,它就能把输入的音频转换成新的风格!
比如,你可以输入一段自己的说话声,然后用文字描述“变成机器人的声音”,它就能给你一段机器人版的说话声!或者输入一段鼓点,用文字描述“变成拉丁风格的鼓点”,它就能给你一段清空拉丁风情的鼓点!这简直就是声音界的“风格迁移”,太酷炫了!而且这个功能不需要缺乏的训练,直接就能用!
落地应用:手机里的“声音魔法师”!
这个超快、超轻、高质量的模型,为文字转语音技术的落地应用关闭了新的大门。糖心vlog入口进入手机搜狐网尤其是在移动设备上,以前受限于算力,很难运行复杂的音频生成模型。现在,有了这个“闪电小子”,你的手机可以变成一个强大的“声音魔法师”,随时随地帮你生成各种创意音频。
想象一下,你可以在手机上实时为视频配音,为游戏生成特殊的音效,或者仅仅是玩转各种有趣的声音效果。而且因为它对文字描述的理解能力强,你可以更精准地控制生成的声音。
当然,目前模型还有一些需要改进的地方,比如它对内存和存储空间还有一定的要求。但StabilityAI已经迈出了关键的一步,让高性能的文字转语音技术真正走进了寻常百姓家(的手机里)!
小小的模型,大大的能量!
StabilityAI开源的这个341M超轻量文字转语音模型,无疑是一个重磅炸弹!它通过创新的ARC后训练方法,实现了令人惊叹的速度和多样性,同时保持了高质量的音频输出。它的轻量化设计和在移动设备上的出色表现,预示着文字转语音技术将在更多创意应用中大放异彩。
未来,我们可以期待这个模型在更多场景下大显身手,让我们的世界变得更加“声”动有趣!
糖心logo官网在线 糖心官网免费版 糖心vlog官网视频在线观看