美团LongCat AudioDiT：突破零样本TTS音色克隆上限，直接在波形潜空间扩散

AI音乐 2026-06-21 144 阅读

TTS 音色克隆语音合成美团 AudioDiT

美团LongCat-AudioDiT：TTS技术的范式转变

2026年6月，美团LongCat团队发布重磅语音技术成果：LongCat-AudioDiT，一个突破零样本（Zero-Shot）TTS（文本转语音）音色克隆上限的新架构。其核心创新是彻底抛弃梅尔谱等传统中间表示，直接在波形潜空间进行扩散模型的文本转语音，有效解决了级联误差问题，大幅提升了音色克隆的真实度与自然度。

TTS技术的传统困境

理解AudioDiT的突破，需要先了解传统TTS管道的痛点。当前主流TTS系统通常分两步走：

传统两步管道

文本 → 梅尔频谱图：声学模型（如Tacotron、FastSpeech）将文本转为梅尔频谱表示
梅尔频谱图 → 音频波形：声码器（如HiFi-GAN、WaveNet）将频谱图转为可播放的音频

这种级联设计导致的问题：

级联误差积累：第一步的偏差在第二步被放大
梅尔频谱表示局限：梅尔频谱是对声音的压缩抽象，会丢失细粒度音色信息
零样本克隆质量受限：仅凭几秒参考音频克隆音色时，细节还原度不足

AudioDiT的核心创新

端到端波形潜空间扩散

AudioDiT的关键突破是直接在波形潜空间（Waveform Latent Space）进行扩散模型操作，不再经过梅尔频谱这一中间步骤：

使用神经音频编码器将原始音频波形编码为连续潜向量
扩散模型直接在该潜空间进行去噪生成
解码器将潜向量直接还原为高质量音频波形

这种设计彻底消除了梅尔频谱的信息瓶颈，保留了原始音频中的完整音色细节。

零样本音色克隆能力

AudioDiT在零样本音色克隆上取得显著提升：

仅需3-5秒参考音频即可完成高质量音色迁移
音色还原度（Speaker Similarity）在主观评测中超越ElevenLabs、OpenVoice等商业方案
支持跨语言音色克隆（如用中文参考音克隆生成英文语音）

与主流TTS方案对比

ElevenLabs：商业领先，音质出色，但闭源，API按字符计费
OpenVoice：MIT开源，支持多语言音色克隆，但波形自然度略逊
CosyVoice（阿里）：中文音色克隆优秀，支持情感控制
AudioDiT（美团）：端到端波形潜空间扩散，级联误差最小，零样本克隆上限突破

应用场景

AudioDiT技术的潜在应用领域广泛：

有声读物与内容创作：只需少量录音，即可批量生成保持音色一致的有声内容
视频配音：基于原声克隆，实现多语言配音（口型不动的情况下翻译语言）
虚拟助手个性化：用户可将AI助手的声音定制为自己喜欢的音色
无障碍辅助：为失语症患者保存并还原其声音特征
游戏NPC配音：无需大量录制，即可为海量NPC生成个性化语音

局限性与风险

值得注意的是，高质量零样本音色克隆技术也带来深度伪造（Deepfake）音频的风险。美团团队表示已内置水印机制，可对生成音频进行追溯，同时强调该技术仅用于授权场景。

总结

美团LongCat-AudioDiT代表了TTS技术的一次重要范式转变——从梅尔频谱管道到端到端波形潜空间扩散。这一突破不仅提升了音色克隆质量，更为语音AI的端到端优化开辟了新路径。随着技术开放和社区验证，AudioDiT有望成为下一代高质量TTS的重要技术基座。

❓ 常见问题

零样本TTS音色克隆是什么意思？

零样本（Zero-Shot）音色克隆是指模型无需对目标说话人进行任何专门训练，仅凭几秒参考音频，就能生成与该说话人音色高度相似的任意语音内容。这与传统TTS需要大量目标说话人数据微调的方式有本质区别。

AudioDiT和ElevenLabs哪个音质更好？

在零样本音色克隆场景下，AudioDiT的波形潜空间扩散架构在理论上减少了信息损失，音色还原细节更丰富。ElevenLabs作为成熟商业产品工程完善度高，实际体验差异需视具体用例而定。ElevenLabs目前仍是最广泛使用的商业TTS方案。

TTS音色克隆是否存在被滥用的风险？

是的，高质量音色克隆技术存在被用于深度伪造语音（如冒充他人声音进行诈骗）的风险。美团在AudioDiT中内置了音频水印机制用于追溯，但从根本上防止滥用还需要配套的内容鉴别技术和法律法规。使用时请确保有合法授权。