谷歌发布Gemini 3.1 Flash TTS，开发者可像导演一样用自然语言指挥AI怎么说话

2026-04-16 08:39

分享至

ChainThink 消息，4月16日，据动察Beating监测，谷歌发布新一代文本转语音模型Gemini 3.1 Flash TTS。该模型核心卖点为开发者可精确控制AI语音的风格、语速和情绪表达，目前已通过Gemini API、Google AI Studio（开发者预览）、Vertex AI（企业预览）和Google Vids（Workspace用户）上线。

该模型的核心控制能力依托“audio tags”（音频标签），开发者可在输入文本中嵌入自然语言指令，调整AI语音的语调、节奏和口音，甚至在一句话中间切换表达风格。谷歌在Google AI Studio中提供“导演椅”式配置界面，包含场景指导、角色级调参、一键导出三层控制功能。

据第三方评测机构Artificial Analysis的TTS排行榜，Gemini 3.1 Flash TTS以1211分的Elo评分登顶，同时被列入“最具吸引力象限”。模型支持70多种语言和原生多角色对话，所有生成音频均内嵌SynthID水印用于AI内容识别。对开发者而言，该模型将TTS从“文字转语音”工具升级为可编程语音表演引擎，可实现跨产品线统一语音风格复用。

#AI巨头动态

免责声明：含第三方意见，不构成财务建议

推荐阅读

谷歌发布音乐模型Magenta RealTime 2，Mac本地延迟低于200毫秒

5 小时前

对冲基金预测Claude最终用户规模将达5亿，企业级市场才是AI最大红利

11 小时前

微软AI负责人称Anthropic模型极为昂贵，拟靠自研模型彻底消除Token采购开支

11 小时前

Anthropic报告回应自我进化：已跑通局部闭环，但离完全自主训练仍有距离

13 小时前

Anthropic呼吁全球暂缓前沿AI研发，Serenity解读为A社竞争策略

14 小时前

OpenAI推出新一代ChatGPT记忆系统Dreaming，以优化新鲜度、连续性和相关性

22 小时前

AI投资热将Serenity捧上神坛，X平台订阅用户超越马斯克登顶

23 小时前

谷歌发布音乐模型Magenta RealTime 2，Mac本地延迟低于200毫秒

对冲基金预测Claude最终用户规模将达5亿，企业级市场才是AI最大红利

微软AI负责人称Anthropic模型极为昂贵，拟靠自研模型彻底消除Token采购开支

Anthropic报告回应自我进化：已跑通局部闭环，但离完全自主训练仍有距离

Anthropic呼吁全球暂缓前沿AI研发，Serenity解读为A社竞争策略

OpenAI推出新一代ChatGPT记忆系统Dreaming，以优化新鲜度、连续性和相关性

AI投资热将Serenity捧上神坛，X平台订阅用户超越马斯克登顶

谷歌发布Gemini 3.1 Flash TTS，开发者可像导演一样用自然语言指挥AI怎么说话

AI大事件

链上专区

暴雷危机

美股代币化

趋势解读

预测市场

AI实用指南

日报周报速览

最新热点前沿

政策监管