微软发布轻量级实时TTS模型VibeVoice-Realtime-0.5B

Source

品玩12月8日讯，据 AI base 报道，微软近日推出VibeVoice-Realtime-0.5B，一款面向实时文本转语音（TTS）应用的轻量级模型。该模型支持流式文本输入与长语音输出，首音延迟约300毫秒，适用于代理对话、实时数据播报等场景。

VibeVoice-Realtime采用交错窗口设计，在编码新文本块的同时持续生成声学特征，实现低延迟响应。模型基于声学标记器，运行速率为7.5赫兹，在LibriSpeech测试集上零样本字错误率（WER）达2.00%。推荐与对话大语言模型（LLM）协同部署，支持固定8k上下文及约10分钟音频输出，满足典型交互式语音需求。