• DeepSeek V4,再当一次“价格屠夫”?

      发布时间:2026-04-24 21:35:16   作者:玩站小弟   我要评论
    03月05日讯 据《每日体育报》消息,皇马已经无意再引进曼城。

    (文/陈济深 编辑/张广凯)

    4月24日,全球翘首以盼数月的DeepSeek V4官宣上线预览版本并同步开源。

    本次DeepSeek V4分两个MoE模型,全线标配100万token上下文:DeepSeek-V4-Pro总参数1.6T、激活参数49B,DeepSeek-V4-Flash总参数284B、激活参数13B。

    DeepSeek在技术报告中把V4定义为一次基础设施级别的发布——核心目标不是能力跨越,而是把长上下文的成本结构打散重建,为下一阶段的test-time scaling和长程Agent任务铺路。

    目前官网和官方App均已上线V4,API同步开放调用。

    两款模型,三档推理强度

    本次V4最大的看点是其参数的大幅增加,1.6万亿总参数、49B激活参数,相比上一代V3.2的总参数约为660B,V4-Pro的参数量是其2.4倍,但同时激活参数仅从37B增加到49B,增幅远小于总参数的增长。这意味着V4的MoE门控网络更加稀疏,单个token实际调用的算力更少,但可调用的知识储备更大。

    1.6万亿参数也刷新了Kimi 2.6的1万亿参数规模,成为目前国产开源模型最大参数规模。

    百万上下文则是这次V4另一个直观的体验升级。从今天开始,100万token的上下文窗口不再是Pro版的专属特权,而是DeepSeek所有官方服务的标配——V4-Flash同样支持。在此之前,行业主流上下文窗口普遍在128K到256K之间,1M级别长期是Google Gemini的独占优势。V4的更新则将这一能力打成了“基础配置”。

    将1.6万亿参数和1M上下文放在一起看,才能真正理解V4这次的技术定位:用更大的参数池承载更多知识,用更稀疏的激活控制推理成本,用全系标配的百万上下文把长文本处理从高端功能变成基础设施。它不是单一维度的参数竞赛,而是一次“参数规模、激活效率、上下文长度”三者的重新平衡。

    V4系列每款模型都提供三档推理强度:Non-think直出模式、Think High常规深度思考、Think Max最大深度思考。

    Max模式的设计目标是榨出模型的能力上限。V4-Pro-Max在HLE测试中从Think High的34.5分提升至37.7分,Apex Shortlist从85.5分提升至90.2分,超越OpenAI、Anthropic、谷歌等海外闭源旗舰模型。

    在知识与推理类基准测试中,V4-Pro-Max在Apex Shortlist(90.2%)和Codeforces(Rating 3206)两项硬核推理与编程任务中领先;Gemini-3.1-Pro-High则在SimpleQA Verified(75.6%)和MMLU-Pro(91.0)等通用知识问答中保持优势。

    Agent能力方面,四款对比模型在SWE Verified上打成平手(均为80.6%),DeepSeek在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)两项工具调用与复杂指令执行测试中表现突出。

    官方对V4-Pro的Agent能力给出的定位是:“使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。”这也意味着DeepSeek在智能体能力上位居开源模型榜首。

    在技术文档中,DeepSeek表示其内部已经在实际编码工作中用V4替换了Claude。

    性价比拉满的定价

    考虑到DeepSeek V4两款模型均是百万上下文,其API定价,尤其是Flash版本的定价堪称价格杀手。

    V4-Flash输入1元、输出2元的价格直接将百万上下文模型的门槛拉到了地板价,缓存命中后输入仅需0.2元。V4-Pro走的则是限量供应、性能优先路线,12元/24元的定价受高端算力产能约束,但即便当前的定价,也属于存在较高性价比的定价。

    为了对两款模型的性价比有一个直观判断,下面分别拿V4-Flash对标国内外同级别的经济型模型,拿V4-Pro对标国内外旗舰模型。

    V4-Flash在这组对比中是唯一标配1M上下文的模型,同时输入输出价格都是最低一档。与腾讯混元Hy3的1.2元/4.0元相比,Flash的输出价格仅为其一半。与MiniMax-M2.7的2.1元/8.4元相比,Flash仅为其四分之一。与Kimi K2.6相比,Flash的输出价格不到其十四分之一。字节豆包2.0 Lite虽然输入价格更低(0.6元),但上下文长度和输出价格均未公开,难以做完整的性价比评估。

    V4-Pro在这组旗舰对比中的性价比优势同样明显。其输出价格24元,仅为Qwen3.6-Max上限的27%、GPT-5.4 Pro的35%、Claude Opus 4.7的14%。GLM-5.1的输出价格(21.74元)略低于V4-Pro,但其上下文为200K,而V4-Pro是1M,相差5倍。将上下文长度纳入考量后,V4-Pro在同类旗舰模型中的单位token性价比排名最高。

    更值得关注的是缓存命中场景。V4-Pro缓存命中后输入仅需1元,对于高频Agent调用和代码辅助场景,实际成本将大幅低于表观定价。

    而且,当前V4-Pro的价格受限于高端算力产能,是一个过渡价而非最终价。随着下半年昇腾950批量上市,Pro版本价格大幅下调后,将进一步拉大与海外闭源模型的价格差距。这也意味着DeepSeek强大的性能和极致的性价比或将再次复刻去年R1模型发布时对美国资本和AI市场带来的“DeepSeek冲击”。

    优化注意力机制

    对于模型能力的提升,DeepSeek在技术文档中归功于优化了注意力机制。

    传统Transformer的注意力机制,每个token要和前面所有token都算一遍相似度。上下文从10万token拉到100万,计算量增长不是10倍,是100倍。这是长上下文一直难以落地的根本原因。

    V4的做法是把注意力拆成两种,交替叠用。CSA压缩稀疏注意力先把每4个token的KV缓存合并成一条摘要,再让每个query只在这些摘要里挑出最相关的top-k条计算注意力,相当于既压缩了要看的内容,又只挑值得看的去算。HCA重压缩注意力则把压缩率做得更激进,每128个token合并成一条,但对剩余摘要做稠密注意力,不做稀疏挑选。两种注意力交替叠用,再加一个滑动窗口分支处理邻近token之间的细节依赖,形成一套“粗粒度加细粒度、稀疏加稠密”的组合方案。

    效果直接反映在成本曲线上。在1M token上下文设置下,V4-Pro的单token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更极端,分别压到10%和7%。

    把V4放到DeepSeek过去两年的技术脉络里看,逻辑是延续的。V2、V3走的是参数稀疏化——总参数很大,每token只激活一小部分专家。V4在此基础上又开了一条上下文稀疏化的路,KV压缩、top-k选择、分层压缩率协同工作。这是DeepSeek第一次把稀疏化的思路推进到Transformer的核心结构里。

    除了注意力层,V4还有两处此前版本未动过的改造。一是把传统残差连接升级为mHC流形约束超连接,通过数学约束让深层网络的前向和反向传播更稳定;二是用Muon优化器替代大部分模块原本使用的AdamW,收敛更快、训练更稳。

    后训练换范式:把多个专家“蒸馏”进一个模型

    比架构改动更值得关注的,是后训练方法的切换。

    相比V3.2用的是混合RL,一次性用强化学习优化多个目标。V4换成了“分化再统一”的两步走。

    第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型,先用该领域的高质量数据做监督微调,再用GRPO算法做强化学习,各自在细分赛道上跑到最优。第二步,用一种名为On-Policy Distillation(在策略蒸馏)的方法,把多个领域专家合成回一个统一的学生模型——学生自己生成回答,然后对每个回答去匹配最懂这个问题的专家的输出分布,通过logit级对齐把能力吸收进来。

    这套流程的工程难度在于,同时加载多个万亿参数级的教师模型做在线推理并不现实。DeepSeek的做法是把所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的hidden state,训练时按教师索引排序样本,保证任意时刻GPU显存里只驻留一个teacher head。

    这种思路绕开了传统混合RL容易导致的能力互相干扰问题。V4的能力不再靠一个模型从头学起,而是先让不同专家在各自赛道跑到顶,再把它们收编进同一套权重里。

    智能体能力也是V4的重点优化方向,后训练阶段被提升为与数学、代码并列的独立专家方向单独训练。V4已针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行适配,在代码任务和文档生成任务上均有提升。

    技术上做了几处针对性改进。工具调用格式从JSON切换为带特殊token的XML结构,降低了转义错误。跨轮次推理痕迹在工具调用场景下完整保留,不再像V3.2那样每轮清空,让模型在长时间Agent任务中能保持连贯的推理链。训练基础设施方面,DeepSeek自建了一套名为DSec的沙箱平台,单集群可并发管理数十万个沙箱实例,专门支撑Agent强化学习的训练和评测。

    华为昇腾浮出水面

    这次发布中,传闻已久的DeepSeek适配国产芯片终于浮出水面。

    在技术报告里,报告第3.1节明确写道:“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案。”这是DeepSeek首次在正式技术文档中将华为昇腾与英伟达并列写入硬件验证清单。

    观察者网发现,昇腾 CANN 将在今天下午 4 点直播 DeepSeek V4 在昇腾平台的首发。

    在定价表备注里,DeepSeek在官方发布文章中表示:“预计下半年昇腾950超节点批量上市并部署之后,Pro版本的价格也会大幅度下调。”

    技术报告同时披露,V4的MoE专家权重和稀疏注意力索引器都采用FP4精度。FP4恰好是华为3月发布的昇腾950PR芯片的原生支持精度。面向训练场景的950DT计划在今年四季度推出。同一天,昇腾CANN官方宣布进行DeepSeek V4在昇腾平台的首发,寒武纪也确认已基于vLLM推理框架完成对V4-Flash和V4-Pro的Day 0适配,代码已开源。

    V4当前的API定价——Pro输入12元/百万tokens(缓存命中1元)、输出24元,Flash输入1元(缓存命中0.2元)、输出2元——是一个受限于高端算力产能的阶段性定价。随着下半年昇腾950批量上市,这个价格线将被重新划定。

    DeepSeek在发布文章结尾引用了《荀子·非十二子》中的一句话:“不诱于誉,不恐于诽,率道而行,端然正己。”尽管被传首次开放了融资,但DeepSeek依然保持了一个超然但坚实的发展思路。