Google DeepMind发布Gemini 3.1 Flash TTS,重塑文本转语音交互体验

Source

品玩4月16日讯,据 SiliconAngel 报道, Google DeepMind正式推出新一代文本转语音(TTS)模型——Gemini 3.1 Flash TTS。该模型旨在突破传统语音合成的机械感,通过基于文本的指令,实现对语调、情感及语速的精细控制,提供“热情”、“惊喜”及“信息播报”等多样化风格。

该技术的一大亮点在于其“导演级”控制能力,支持美式、英式等多种区域口音,并提供播客、有声书、新闻主播等预设格式模板。用户可定义环境背景及对话指令,确保角色在多轮交互中保持一致性,且相关参数可导出为API代码,保障跨项目语音的一致性。

Gemini 3.1 Flash TTS支持超过70种语言,并在人工分析TTS排行榜中凭借1211分的高分位列第二,超越了众多同类竞品。所有生成内容均搭载SynthID水印,便于识别。目前,开发者已可通过Gemini API及Google AI Studio接入该模型,企业用户则可经由Vertex AI平台使用,普通用户亦可在Google Vids中体验其功能。