品玩3月11日讯,据 MarketChpost 报道,Fish Audio正式推出其旗舰级文本到语音(TTS)模型S2-Pro,标志着语音合成技术向集成化大音频模型(LAM)演进。该模型采用创新的双自回归(Dual-AR)架构,将生成过程分为40亿参数的“慢速AR”模块(负责语言结构与韵律)和4亿参数的“快速AR”模块(处理音色、气息等高频细节),实现44.1kHz高保真音频输出。
S2-Pro支持零样本语音克隆,仅需10至30秒参考音频即可复现说话人身份与情感状态,并通过内联自然语言标签(如[whisper]、[laugh])实现细粒度情绪控制。模型基于残差矢量量化(RVQ)技术,在多层码本中高效压缩音频信息,保留非语言发声(如叹息、停顿)等细节。
在性能方面,S2-Pro在NVIDIA H200硬件上实现约100毫秒的首音频延迟(TTFA),并集成SGLang框架与RadixAttention机制,通过缓存键值状态显著降低重复语音生成的预填充开销,支持多角色对话单次推理。
该模型已在开源生态中提供,训练数据涵盖超30万小时多语种语音,为实时交互式AI应用树立新标杆。