最强开源模型 deepseek v4终于来了！1.6万亿参数模型，MIT许可，长文本显存压到V3.2十分之一

2026-04-24 11:08

分享至

ChainThink 消息，4月24日，据官方相关信息，DeepSeek 开源 V4 系列预览版，采用 MIT 许可，模型权重已上线 Hugging Face 和 ModelScope。

该系列包含两款 MoE 模型，其中 V4-Pro 总参数达1.6万亿，每token激活490亿参数；

V4-Flash 总参数2840亿，每token激活130亿参数，两款均支持1M token上下文。

该系列架构有三项升级：混合注意力机制（压缩稀疏注意力CSA+重度压缩注意力HCA）可大幅降低长上下文开销，在1M上下文场景下，V4-Pro单token推理FLOPs仅为V3.2的27%，KV缓存显存占用仅为V3.2的10%；

流形约束超连接mHC替代传统残差连接，增强跨层信号传播稳定性；训练改用Muon优化器加速收敛。该模型预训练数据超32T token。

后训练分为两阶段，先通过SFT和GRPO强化学习分别训练各领域专家模型，再通过在线蒸馏统一合并为最终模型。

其中V4-Pro-Max自称当前最强开源模型，编码基准达顶级水平，推理和agent任务与闭源前沿模型差距显著缩小；

V4-Flash-Max在获得足够思考预算后推理表现接近Pro，但在纯知识和复杂agent任务上受限于参数规模。模型权重以FP4+FP8混合精度存储。

#AI巨头动态

免责声明：含第三方意见，不构成财务建议

推荐阅读

谷歌Chrome因后台自动下载本地AI模型Gemini Nano，引发加密社区对浏览器安全的担忧

8 分钟前

阿里未参与DeepSeek融资谈判，市场人士否认「谈崩」传闻

4 小时前

Anthropic公开防失控训练法：靠虚构小说教Claude做人，敲诈率降至0

7 小时前

大模型为什么写不出「马嘉祺」？MiniMax全词表扫描发现近5%的Token在后训练中被遗忘

7 小时前

起底Anthropic首任CFO：投资人追着送钱，他专门负责拒绝

8 小时前

DeepSeek与阿里巴巴融资谈判破裂，生态绑定与控制权分歧成焦点

13 小时前

美参议员致函扎克伯格质询Meta稳定币计划，称其透明度「令人深感不安」