Fish Audio发布S2-Pro模型，推动高保真实时语音合成新标准

Source

品玩3月11日讯，据 MarketChpost 报道，Fish Audio正式推出其旗舰级文本到语音（TTS）模型S2-Pro，标志着语音合成技术向集成化大音频模型（LAM）演进。该模型采用创新的双自回归（Dual-AR）架构，将生成过程分为40亿参数的“慢速AR”模块（负责语言结构与韵律）和4亿参数的“快速AR”模块（处理音色、气息等高频细节），实现44.1kHz高保真音频输出。

S2-Pro支持零样本语音克隆，仅需10至30秒参考音频即可复现说话人身份与情感状态，并通过内联自然语言标签（如[whisper]、[laugh]）实现细粒度情绪控制。模型基于残差矢量量化（RVQ）技术，在多层码本中高效压缩音频信息，保留非语言发声（如叹息、停顿）等细节。

在性能方面，S2-Pro在NVIDIA H200硬件上实现约100毫秒的首音频延迟（TTFA），并集成SGLang框架与RadixAttention机制，通过缓存键值状态显著降低重复语音生成的预填充开销，支持多角色对话单次推理。

该模型已在开源生态中提供，训练数据涵盖超30万小时多语种语音，为实时交互式AI应用树立新标杆。