最强开源模型 deepseek v4终于来了!1.6万亿参数模型,MIT许可,长文本显存压到V3.2十分之一

最强开源模型 deepseek v4终于来了!1.6万亿参数模型,MIT许可,长文本显存压到V3.2十分之一

2026-04-24 11:08查看原文

ChainThink 消息,4月24日,据官方相关信息,DeepSeek 开源 V4 系列预览版,采用 MIT 许可,模型权重已上线 Hugging Face 和 ModelScope。


该系列包含两款 MoE 模型,其中 V4-Pro 总参数达1.6万亿,每token激活490亿参数;


V4-Flash 总参数2840亿,每token激活130亿参数,两款均支持1M token上下文。


该系列架构有三项升级:混合注意力机制(压缩稀疏注意力CSA+重度压缩注意力HCA)可大幅降低长上下文开销,在1M上下文场景下,V4-Pro单token推理FLOPs仅为V3.2的27%,KV缓存显存占用仅为V3.2的10%;


流形约束超连接mHC替代传统残差连接,增强跨层信号传播稳定性;训练改用Muon优化器加速收敛。该模型预训练数据超32T token。


后训练分为两阶段,先通过SFT和GRPO强化学习分别训练各领域专家模型,再通过在线蒸馏统一合并为最终模型。


其中V4-Pro-Max自称当前最强开源模型,编码基准达顶级水平,推理和agent任务与闭源前沿模型差距显著缩小;


V4-Flash-Max在获得足够思考预算后推理表现接近Pro,但在纯知识和复杂agent任务上受限于参数规模。模型权重以FP4+FP8混合精度存储。

#AI巨头动态

免责声明:含第三方意见,不构成财务建议

推荐阅读

谷歌Chrome因后台自动下载本地AI模型Gemini Nano,引发加密社区对浏览器安全的担忧

8 分钟前
谷歌Chrome因后台自动下载本地AI模型Gemini Nano,引发加密社区对浏览器安全的担忧

阿里未参与DeepSeek融资谈判,市场人士否认「谈崩」传闻

4 小时前
阿里未参与DeepSeek融资谈判,市场人士否认「谈崩」传闻

Anthropic公开防失控训练法:靠虚构小说教Claude做人,敲诈率降至0

7 小时前
Anthropic公开防失控训练法:靠虚构小说教Claude做人,敲诈率降至0

大模型为什么写不出「马嘉祺」?MiniMax全词表扫描发现近5%的Token在后训练中被遗忘

7 小时前
大模型为什么写不出「马嘉祺」?MiniMax全词表扫描发现近5%的Token在后训练中被遗忘

起底Anthropic首任CFO:投资人追着送钱,他专门负责拒绝

8 小时前
起底Anthropic首任CFO:投资人追着送钱,他专门负责拒绝

DeepSeek与阿里巴巴融资谈判破裂,生态绑定与控制权分歧成焦点

13 小时前
DeepSeek与阿里巴巴融资谈判破裂,生态绑定与控制权分歧成焦点

美参议员致函扎克伯格质询Meta稳定币计划,称其透明度「令人深感不安」

21 小时前
美参议员致函扎克伯格质询Meta稳定币计划,称其透明度「令人深感不安」