DeepSeek V4，再当一次“价格屠夫”？

发布时间：2026-04-24 21:35:16 作者：玩站小弟

我要评论

03月05日讯据《每日体育报》消息，皇马已经无意再引进曼城。

（文/陈济深编辑/张广凯）

4月24日，全球翘首以盼数月的DeepSeek V4官宣上线预览版本并同步开源。

本次DeepSeek V4分两个MoE模型，全线标配100万token上下文：DeepSeek-V4-Pro总参数1.6T、激活参数49B，DeepSeek-V4-Flash总参数284B、激活参数13B。

DeepSeek在技术报告中把V4定义为一次基础设施级别的发布——核心目标不是能力跨越，而是把长上下文的成本结构打散重建，为下一阶段的test-time scaling和长程Agent任务铺路。

目前官网和官方App均已上线V4，API同步开放调用。

两款模型，三档推理强度

本次V4最大的看点是其参数的大幅增加，1.6万亿总参数、49B激活参数，相比上一代V3.2的总参数约为660B，V4-Pro的参数量是其2.4倍，但同时激活参数仅从37B增加到49B，增幅远小于总参数的增长。这意味着V4的MoE门控网络更加稀疏，单个token实际调用的算力更少，但可调用的知识储备更大。

1.6万亿参数也刷新了Kimi 2.6的1万亿参数规模，成为目前国产开源模型最大参数规模。

百万上下文则是这次V4另一个直观的体验升级。从今天开始，100万token的上下文窗口不再是Pro版的专属特权，而是DeepSeek所有官方服务的标配——V4-Flash同样支持。在此之前，行业主流上下文窗口普遍在128K到256K之间，1M级别长期是Google Gemini的独占优势。V4的更新则将这一能力打成了“基础配置”。

将1.6万亿参数和1M上下文放在一起看，才能真正理解V4这次的技术定位：用更大的参数池承载更多知识，用更稀疏的激活控制推理成本，用全系标配的百万上下文把长文本处理从高端功能变成基础设施。它不是单一维度的参数竞赛，而是一次“参数规模、激活效率、上下文长度”三者的重新平衡。

V4系列每款模型都提供三档推理强度：Non-think直出模式、Think High常规深度思考、Think Max最大深度思考。

Max模式的设计目标是榨出模型的能力上限。V4-Pro-Max在HLE测试中从Think High的34.5分提升至37.7分，Apex Shortlist从85.5分提升至90.2分，超越OpenAI、Anthropic、谷歌等海外闭源旗舰模型。

在知识与推理类基准测试中，V4-Pro-Max在Apex Shortlist（90.2%）和Codeforces（Rating 3206）两项硬核推理与编程任务中领先；Gemini-3.1-Pro-High则在SimpleQA Verified（75.6%）和MMLU-Pro（91.0）等通用知识问答中保持优势。

Agent能力方面，四款对比模型在SWE Verified上打成平手（均为80.6%），DeepSeek在Terminal Bench 2.0（67.9%）和Toolathlon（51.8%）两项工具调用与复杂指令执行测试中表现突出。

官方对V4-Pro的Agent能力给出的定位是：“使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存在一定差距。”这也意味着DeepSeek在智能体能力上位居开源模型榜首。

在技术文档中，DeepSeek表示其内部已经在实际编码工作中用V4替换了Claude。

性价比拉满的定价

考虑到DeepSeek V4两款模型均是百万上下文，其API定价，尤其是Flash版本的定价堪称价格杀手。

V4-Flash输入1元、输出2元的价格直接将百万上下文模型的门槛拉到了地板价，缓存命中后输入仅需0.2元。V4-Pro走的则是限量供应、性能优先路线，12元/24元的定价受高端算力产能约束，但即便当前的定价，也属于存在较高性价比的定价。

为了对两款模型的性价比有一个直观判断，下面分别拿V4-Flash对标国内外同级别的经济型模型，拿V4-Pro对标国内外旗舰模型。

V4-Flash在这组对比中是唯一标配1M上下文的模型，同时输入输出价格都是最低一档。与腾讯混元Hy3的1.2元/4.0元相比，Flash的输出价格仅为其一半。与MiniMax-M2.7的2.1元/8.4元相比，Flash仅为其四分之一。与Kimi K2.6相比，Flash的输出价格不到其十四分之一。字节豆包2.0 Lite虽然输入价格更低（0.6元），但上下文长度和输出价格均未公开，难以做完整的性价比评估。

V4-Pro在这组旗舰对比中的性价比优势同样明显。其输出价格24元，仅为Qwen3.6-Max上限的27%、GPT-5.4 Pro的35%、Claude Opus 4.7的14%。GLM-5.1的输出价格（21.74元）略低于V4-Pro，但其上下文为200K，而V4-Pro是1M，相差5倍。将上下文长度纳入考量后，V4-Pro在同类旗舰模型中的单位token性价比排名最高。

更值得关注的是缓存命中场景。V4-Pro缓存命中后输入仅需1元，对于高频Agent调用和代码辅助场景，实际成本将大幅低于表观定价。

而且，当前V4-Pro的价格受限于高端算力产能，是一个过渡价而非最终价。随着下半年昇腾950批量上市，Pro版本价格大幅下调后，将进一步拉大与海外闭源模型的价格差距。这也意味着DeepSeek强大的性能和极致的性价比或将再次复刻去年R1模型发布时对美国资本和AI市场带来的“DeepSeek冲击”。

优化注意力机制

对于模型能力的提升，DeepSeek在技术文档中归功于优化了注意力机制。

传统Transformer的注意力机制，每个token要和前面所有token都算一遍相似度。上下文从10万token拉到100万，计算量增长不是10倍，是100倍。这是长上下文一直难以落地的根本原因。

V4的做法是把注意力拆成两种，交替叠用。CSA压缩稀疏注意力先把每4个token的KV缓存合并成一条摘要，再让每个query只在这些摘要里挑出最相关的top-k条计算注意力，相当于既压缩了要看的内容，又只挑值得看的去算。HCA重压缩注意力则把压缩率做得更激进，每128个token合并成一条，但对剩余摘要做稠密注意力，不做稀疏挑选。两种注意力交替叠用，再加一个滑动窗口分支处理邻近token之间的细节依赖，形成一套“粗粒度加细粒度、稀疏加稠密”的组合方案。

效果直接反映在成本曲线上。在1M token上下文设置下，V4-Pro的单token推理FLOPs只有V3.2的27%，KV Cache只有10%；V4-Flash更极端，分别压到10%和7%。

把V4放到DeepSeek过去两年的技术脉络里看，逻辑是延续的。V2、V3走的是参数稀疏化——总参数很大，每token只激活一小部分专家。V4在此基础上又开了一条上下文稀疏化的路，KV压缩、top-k选择、分层压缩率协同工作。这是DeepSeek第一次把稀疏化的思路推进到Transformer的核心结构里。

除了注意力层，V4还有两处此前版本未动过的改造。一是把传统残差连接升级为mHC流形约束超连接，通过数学约束让深层网络的前向和反向传播更稳定；二是用Muon优化器替代大部分模块原本使用的AdamW，收敛更快、训练更稳。

后训练换范式：把多个专家“蒸馏”进一个模型

比架构改动更值得关注的，是后训练方法的切换。

相比V3.2用的是混合RL，一次性用强化学习优化多个目标。V4换成了“分化再统一”的两步走。

第一步，针对数学、代码、Agent、指令跟随等不同领域，每个领域单独训练一个专家模型，先用该领域的高质量数据做监督微调，再用GRPO算法做强化学习，各自在细分赛道上跑到最优。第二步，用一种名为On-Policy Distillation（在策略蒸馏）的方法，把多个领域专家合成回一个统一的学生模型——学生自己生成回答，然后对每个回答去匹配最懂这个问题的专家的输出分布，通过logit级对齐把能力吸收进来。

这套流程的工程难度在于，同时加载多个万亿参数级的教师模型做在线推理并不现实。DeepSeek的做法是把所有教师权重统一卸载到分布式存储，只缓存每个教师最后一层的hidden state，训练时按教师索引排序样本，保证任意时刻GPU显存里只驻留一个teacher head。

这种思路绕开了传统混合RL容易导致的能力互相干扰问题。V4的能力不再靠一个模型从头学起，而是先让不同专家在各自赛道跑到顶，再把它们收编进同一套权重里。

智能体能力也是V4的重点优化方向，后训练阶段被提升为与数学、代码并列的独立专家方向单独训练。V4已针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行适配，在代码任务和文档生成任务上均有提升。

技术上做了几处针对性改进。工具调用格式从JSON切换为带特殊token的XML结构，降低了转义错误。跨轮次推理痕迹在工具调用场景下完整保留，不再像V3.2那样每轮清空，让模型在长时间Agent任务中能保持连贯的推理链。训练基础设施方面，DeepSeek自建了一套名为DSec的沙箱平台，单集群可并发管理数十万个沙箱实例，专门支撑Agent强化学习的训练和评测。

华为昇腾浮出水面

这次发布中，传闻已久的DeepSeek适配国产芯片终于浮出水面。

在技术报告里，报告第3.1节明确写道：“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP（专家并行）方案。”这是DeepSeek首次在正式技术文档中将华为昇腾与英伟达并列写入硬件验证清单。

观察者网发现，昇腾 CANN 将在今天下午 4 点直播 DeepSeek V4 在昇腾平台的首发。

在定价表备注里，DeepSeek在官方发布文章中表示：“预计下半年昇腾950超节点批量上市并部署之后，Pro版本的价格也会大幅度下调。”

技术报告同时披露，V4的MoE专家权重和稀疏注意力索引器都采用FP4精度。FP4恰好是华为3月发布的昇腾950PR芯片的原生支持精度。面向训练场景的950DT计划在今年四季度推出。同一天，昇腾CANN官方宣布进行DeepSeek V4在昇腾平台的首发，寒武纪也确认已基于vLLM推理框架完成对V4-Flash和V4-Pro的Day 0适配，代码已开源。

V4当前的API定价——Pro输入12元/百万tokens（缓存命中1元）、输出24元，Flash输入1元（缓存命中0.2元）、输出2元——是一个受限于高端算力产能的阶段性定价。随着下半年昇腾950批量上市，这个价格线将被重新划定。

DeepSeek在发布文章结尾引用了《荀子·非十二子》中的一句话：“不诱于誉，不恐于诽，率道而行，端然正己。”尽管被传首次开放了融资，但DeepSeek依然保持了一个超然但坚实的发展思路。

Tag： {loop type="keywords" row='10' } {$vo.title}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

DeepSeek V4，再当一次“价格屠夫”？