Google DeepMind发布Gemini 3.1 Flash TTS，重塑文本转语音交互体验

Source

品玩4月16日讯，据 SiliconAngel 报道， Google DeepMind正式推出新一代文本转语音（TTS）模型——Gemini 3.1 Flash TTS。该模型旨在突破传统语音合成的机械感，通过基于文本的指令，实现对语调、情感及语速的精细控制，提供“热情”、“惊喜”及“信息播报”等多样化风格。

该技术的一大亮点在于其“导演级”控制能力，支持美式、英式等多种区域口音，并提供播客、有声书、新闻主播等预设格式模板。用户可定义环境背景及对话指令，确保角色在多轮交互中保持一致性，且相关参数可导出为API代码，保障跨项目语音的一致性。

Gemini 3.1 Flash TTS支持超过70种语言，并在人工分析TTS排行榜中凭借1211分的高分位列第二，超越了众多同类竞品。所有生成内容均搭载SynthID水印，便于识别。目前，开发者已可通过Gemini API及Google AI Studio接入该模型，企业用户则可经由Vertex AI平台使用，普通用户亦可在Google Vids中体验其功能。