品玩12月8日讯,据 AI base 报道,微软近日推出VibeVoice-Realtime-0.5B,一款面向实时文本转语音(TTS)应用的轻量级模型。该模型支持流式文本输入与长语音输出,首音延迟约300毫秒,适用于代理对话、实时数据播报等场景。
VibeVoice-Realtime采用交错窗口设计,在编码新文本块的同时持续生成声学特征,实现低延迟响应。模型基于声学标记器,运行速率为7.5赫兹,在LibriSpeech测试集上零样本字错误率(WER)达2.00%。推荐与对话大语言模型(LLM)协同部署,支持固定8k上下文及约10分钟音频输出,满足典型交互式语音需求。