ChainThink 消息,4月24日,据官方相关信息,DeepSeek 开源 V4 系列预览版,采用 MIT 许可,模型权重已上线 Hugging Face 和 ModelScope。
该系列包含两款 MoE 模型,其中 V4-Pro 总参数达1.6万亿,每token激活490亿参数;
V4-Flash 总参数2840亿,每token激活130亿参数,两款均支持1M token上下文。
该系列架构有三项升级:混合注意力机制(压缩稀疏注意力CSA+重度压缩注意力HCA)可大幅降低长上下文开销,在1M上下文场景下,V4-Pro单token推理FLOPs仅为V3.2的27%,KV缓存显存占用仅为V3.2的10%;
流形约束超连接mHC替代传统残差连接,增强跨层信号传播稳定性;训练改用Muon优化器加速收敛。该模型预训练数据超32T token。
后训练分为两阶段,先通过SFT和GRPO强化学习分别训练各领域专家模型,再通过在线蒸馏统一合并为最终模型。
其中V4-Pro-Max自称当前最强开源模型,编码基准达顶级水平,推理和agent任务与闭源前沿模型差距显著缩小;
V4-Flash-Max在获得足够思考预算后推理表现接近Pro,但在纯知识和复杂agent任务上受限于参数规模。模型权重以FP4+FP8混合精度存储。
免责声明:含第三方意见,不构成财务建议
谷歌Chrome因后台自动下载本地AI模型Gemini Nano,引发加密社区对浏览器安全的担忧
8 分钟前
阿里未参与DeepSeek融资谈判,市场人士否认「谈崩」传闻
4 小时前
Anthropic公开防失控训练法:靠虚构小说教Claude做人,敲诈率降至0
7 小时前
大模型为什么写不出「马嘉祺」?MiniMax全词表扫描发现近5%的Token在后训练中被遗忘
7 小时前
起底Anthropic首任CFO:投资人追着送钱,他专门负责拒绝
8 小时前
DeepSeek与阿里巴巴融资谈判破裂,生态绑定与控制权分歧成焦点
13 小时前
美参议员致函扎克伯格质询Meta稳定币计划,称其透明度「令人深感不安」
21 小时前






