logo

ChainThink链智库

快人一步,尽晓币圈事

谷歌发布Gemini 3.1 Flash TTS,开发者可像导演一样用自然语言指挥AI怎么说话

谷歌发布Gemini 3.1 Flash TTS,开发者可像导演一样用自然语言指挥AI怎么说话

2026-04-16 08:39

查看原文

ChainThink 消息,4月16日,据动察Beating监测,谷歌发布新一代文本转语音模型Gemini 3.1 Flash TTS。该模型核心卖点为开发者可精确控制AI语音的风格、语速和情绪表达,目前已通过Gemini API、Google AI Studio(开发者预览)、Vertex AI(企业预览)和Google Vids(Workspace用户)上线。


该模型的核心控制能力依托“audio tags”(音频标签),开发者可在输入文本中嵌入自然语言指令,调整AI语音的语调、节奏和口音,甚至在一句话中间切换表达风格。谷歌在Google AI Studio中提供“导演椅”式配置界面,包含场景指导、角色级调参、一键导出三层控制功能。


据第三方评测机构Artificial Analysis的TTS排行榜,Gemini 3.1 Flash TTS以1211分的Elo评分登顶,同时被列入“最具吸引力象限”。模型支持70多种语言和原生多角色对话,所有生成音频均内嵌SynthID水印用于AI内容识别。对开发者而言,该模型将TTS从“文字转语音”工具升级为可编程语音表演引擎,可实现跨产品线统一语音风格复用。

#AI巨头动态

免责声明:含第三方意见,不构成财务建议

推荐阅读
Claude Code团队详解百万token上下文管理:模型在压缩摘要时智力最低,rewind才是最该养成的习惯
Claude Code团队详解百万token上下文管理:模型在压缩摘要时智力最低,rewind才是最该养成的习惯
OpenClaw维护者回应负面攻击:我们不帮人拉盘,开源的中立方反遭抹黑
OpenClaw维护者回应负面攻击:我们不帮人拉盘,开源的中立方反遭抹黑
特朗普:Anthropic的威胁并非系统性的,将会被解决
特朗普:Anthropic的威胁并非系统性的,将会被解决
旧金山一台售货机由OpenClaw全权经营,自主管账进货,还给自己的机器起了名
旧金山一台售货机由OpenClaw全权经营,自主管账进货,还给自己的机器起了名
马斯克晒AI5芯片实物照,此前搁置的训练芯片Dojo也回来了
马斯克晒AI5芯片实物照,此前搁置的训练芯片Dojo也回来了
传DeepSeek-R1核心作者郭达雅已入职字节跳动
传DeepSeek-R1核心作者郭达雅已入职字节跳动
OpenAI购买未解数学难题验证器,可自动检验AI解题是否正确
OpenAI购买未解数学难题验证器,可自动检验AI解题是否正确