快人一步,尽晓币圈事
2026-04-16 08:39
查看原文ChainThink 消息,4月16日,据动察Beating监测,谷歌发布新一代文本转语音模型Gemini 3.1 Flash TTS。该模型核心卖点为开发者可精确控制AI语音的风格、语速和情绪表达,目前已通过Gemini API、Google AI Studio(开发者预览)、Vertex AI(企业预览)和Google Vids(Workspace用户)上线。
该模型的核心控制能力依托“audio tags”(音频标签),开发者可在输入文本中嵌入自然语言指令,调整AI语音的语调、节奏和口音,甚至在一句话中间切换表达风格。谷歌在Google AI Studio中提供“导演椅”式配置界面,包含场景指导、角色级调参、一键导出三层控制功能。
据第三方评测机构Artificial Analysis的TTS排行榜,Gemini 3.1 Flash TTS以1211分的Elo评分登顶,同时被列入“最具吸引力象限”。模型支持70多种语言和原生多角色对话,所有生成音频均内嵌SynthID水印用于AI内容识别。对开发者而言,该模型将TTS从“文字转语音”工具升级为可编程语音表演引擎,可实现跨产品线统一语音风格复用。
免责声明:含第三方意见,不构成财务建议






