首页 > 科技快讯 > 全网最强万字解读：DeepSeek-V4 掀翻了谁的桌子？

全网最强万字解读：DeepSeek-V4 掀翻了谁的桌子？

晰数塔互联网快讯
2026-04-28 21:12

（来源：雷峰网）

“370倍的鸿沟，不只是限时促销。”

作者丨岑峰

GPT-5.5 “大杯版”的输出价格是 130 美元/百万 Token，而 DeepSeek-V4 只要 2.5 元人民币。在同样的智能水位下，两者的成本差了整整 370 倍。

这绝非一场互联网式的“补贴大战”或限时促销，而是一场已经持续了四年的中国特色“效率革命”。在 Agent 时代，当长程任务的一致性需求迫使 Token 消耗量呈指数级增加时，DeepSeek-V4 延续了其“用更少的资源做更多的事”的硬核传统，再一次以极致的压缩方案，将百万上下文的门槛从“奢侈品”变成了“日用品”。

但省钱从来不是免费的午餐。每一次效率的跨代领先，都在系统复杂度、生态锁定和能力边界上埋下了伏笔。为什么 OpenAI、Anthropic 始终坚守稠密模型与原生长窗？DeepSeek 与昇腾芯片的深度软硬绑定，究竟是国产替代的曙光，还是构建了新的技术孤岛？当大模型竞赛进入“系统战争”的深水区，谁能定义下一个十年的 AI 基础设施？

在Deepseek V4发布当天的GAIR Live圆桌上，雷峰网联合创始人岑峰对话三位行业专家：

从产业竞争、系统生态和技术架构三个维度，拆解DeepSeek-V4的效率账本。

四次"掀桌子"，掀的是不同的桌子

DeepSeek的"掀桌子"不是一生只有一次的事件，而是一场分阶段、分维度的系统性进攻。黎科峰将V2到V4的四次发布拆解为四个不同的战场：

黎科峰指出，V4 的真正不同在于：它不再是“从 0 到 1”的惊喜，而是在“从 1 到 100”的正面战场上，用工程能力和系统效率硬碰硬地赢了。

这种进化轨迹如同乔布斯提到的“连点成画”（connecting the dots）：分散的效率突破，最终拼出了一幅完整的、独立于 CUDA 生态之外的 AI 基础设施图景。

2%的算法暴力美学

在 DeepSeek-V4 的技术报告中，最令业界震撼的数字莫过于“2%”。在 Transformer 架构统治大模型的今天，长序列处理产生的 KV Cache 始终是显存消耗的“黑洞”。

杨泽乾指出，DeepSeek 的进化本质上是一场“存量空间的战争”。V2 引入 MLA 压缩了 90% 的缓存空间；而 V4 进一步祭出了 CSA（压缩稀疏注意力）与 HCA（混合注意力）的组合拳。这不仅是数学上的奇迹，更是工程上的大胆取舍。

杨泽乾认为，DeepSeek 将计算复杂度从传统的 O(n2) 压向了接近线性。这意味着，百万级长文本从此前的“奢侈品”变成了“日用品”。这种“极致压缩”路径，虽然在极端长度下可能存在检索性能的衰减，但它解决了“能用”和“好用”的门槛问题。

这种架构的复杂性，被嘉宾们称为“算法的暴力美学”。它反映了这样一种技术之美：在算力极度稀缺的背景下，中国工程师选择用更复杂的系统逻辑，去对冲硬件资源的匮乏。当百万级长文本不再是需要慎重使用的“昂贵资源”，Agent 的长程思考才真正具备了大规模落地的经济性基础。

效率革命的隐性代价：选择即取舍

极致的省钱往往伴随着复杂度的代价。杨泽乾直言，DeepSeek 的每一笔效率收益，都在其他地方留下了账单：

这些账单不是缺陷，而是深思熟虑后的选择。DeepSeek 这种聪明之处在于：它清楚地知道自己在放弃什么，并且成功地将这些“放弃”转化为了极具杀伤力的商业优势。

长上下文的真相：我们只走了一半的路

虽然百万上下文已成标配，但刘广抛出了一个更尖锐的判断：“现在的技术只解决了一半问题——能记住，但学不会。”

目前大厂的长文本策略各具特色：DeepSeek 走实用主义压缩路线，成本极低；Gemini 走原生架构路线，全局一致性好但扩展性受限；Claude 追求高精度检索，是法务和医疗场景的首选；OpenAI 则利用推理模型优化逻辑深度。

但这些策略本质上都是“记忆”而非“学习”。模型可以一次性吞下整本《三体》做总结，但无法在与用户的长期交互中持续更新权重、沉淀个性化的知识。人一辈子读的书可能远超百万 Token，却能将其内化为智慧。大模型的长文本技术如果不能跨越从“临时缓存”到“权重更新”的鸿沟，长上下文就依然只是一个更宽的、容易被溢出的漏斗。

这意味着，我们还在长上下文这条路上走了一半，剩下的那一半，是如何让模型在交互中真正"成长"。

MoE vs 稠密，不是技术优劣，是生存策略

一个有趣的地理发现是：国内“开源御三家”（DeepSeek、千问、Kimi）不约而同选择了 MoE 路径，而 OpenAI、Anthropic 等美国巨头仍倾向于稠密模型。黎科峰认为，这折射出的是中美两国在资源约束下的必然选择：

他用一个比喻道出了本质："家里有肉吃，为什么要去吃粗粮？"DeepSeek的MoE+FP4+昇腾绑定，不是"最优技术路线"，而是"受限环境下的最优解"。

但正是这条"粗粮路线"正在展现出惊人的竞争力。DeepSeek的API定价仅为海外大厂的1/10，让中国模型在 API 定价上展现出了颠覆性的优势。当性能接近、成本差一个量级时，商业化天平就会发生倾斜，迫使全球大模型产业重新思考成本红线。

从模型竞赛到系统战争

在圆桌的尾声，三位专家达成了共识：大模型产业正从单纯的“算力竞赛”转向全栈的“系统战争”。

黎科峰指出，对于拥有数万名员工的科技巨头，如果全员使用 AI 辅助编程或办公，Token 成本将是天文数字。“用得起”本身就是最大的竞争壁垒。DeepSeek 的护城河，并不在于它比对手聪明多少，而是在于它成功地将 AI 从“少数人玩得起的奢侈品”，变成了“成千上万家企业工具箱里的日用品”。

刘广分享的案例更令人震撼：在国产算力生态中，以前编写一个底层算子需要专家手写一两周，现在利用 Agent 辅助只需 10 分钟。这种效能提升带来的价值，正反向驱动着整个国产系统生态的进化。

DeepSeek-V4 的意义在于，它打破了 Scaling Law 只能靠“堆算力、堆参数”的增长惯性。它证明了：智能的边界不仅由芯片定义，更由工程师的想象力和工程能力定义。桌子掀翻之后，最重要的不是谁掀的，而是谁能在废墟上重建一个更便宜、更可控、更具生命力的 AI 秩序。

以下是此次圆桌讨论的精彩分享，雷峰网进行了不改原意的编辑整理：

1.从“打榜”到“落地”，DeepSeek V4技术报告解读

岑峰：各位嘉宾、朋友，大家晚上好。

昨天这个时候，我主持了一场关于Claw类产品Token焦虑的圆桌。当时我们讨论了“记忆是资产还是负债”的命题。紧接着 DeepSeek V4 便震撼发布，它通过 CSA（压缩稀疏注意力）与HCA（混合注意力）的混合架构，将 1M 上下文的 KV Cache 压低至传统方案的 2%。

换言之，当记忆规模爆炸，DeepSeek 选择了“遗忘的艺术”，并以极高的架构复杂度作为支撑。

回顾其路径，V2 将 KV Cache 压缩 90% 以上；V3 以不到 600万美元训练出 GPT-4o 级别的模型；如今 V4 更是将上下文推理成本、1M 上下文的 KV Cache大幅降低。这种极致效率的领先，正在系统复杂度、生态锁定和能力边界上埋下深远伏笔。

今天我们邀请到三位嘉宾，从效率与代价的角度进行拆解并分析：DeepSeek的极致效率意味着什么？中国开源御三家的开源 MoE 路线与西方的稠密模型路线将如何分化？下一个十年的AI基础设施如何演变？

按照惯例，我们先请三位嘉宾分享各自视角下对Deepseek技术报告的深度解读。

黎科峰：最近很热闹，GLM、Kimi、Qwen都发布了最先进的模型，在OpenSource榜单上面轮流坐庄。大家都在等 DeepSeek V4，今天它终于发布，从 Benchmark表现来看，其综合感知明显优于此前的开源模型，从股市上来看，DeepSeek概念股今天涨得非常疯。

这次发布具有“掀桌子”的意义，核心体现在四点：

第一，真开源。DeepSeek 依然坚持最开放的 MIT 协议，不设商业化限制。在其他几家大模型纷纷加码开源“枷锁”的背景下，这种坚持极为不易。

第二，V4 彻底适配了华为昇腾芯片并支持 FP4 精度。这标志着大模型从训练到推理真正实现了中国自主安全可控的闭环。

第三，价格。随着 OpenClaw 等 Agent 产品的火爆，Token 消耗量呈十倍级增长。海外闭源模型的高昂价格让开发者难以承受，而DeepSeek 将价格压到了 25 元人民币/百万 Token， Flash 版本更便宜，十倍量级。这极大促进了多 Agent 生态的落地。

最后，在关键能力上也有不俗表现， V4的亮点不仅在于降本，更在长上下文、数学及代码能力上部分反超了海外领先的闭源模型。尤其是编程能力的提升，为大模型的应用生态拓展了巨大的空间。

完全开源、低成本、接近世界领先、完整国产化软硬件生态，这四个核心点放在一起，既好又有用，而且还便宜。

刘广：DeepSeek V4 的发布正值大模型从“打榜”转向“落地”的范式拐点。当前 Agent 架构盛行，产业界最核心的关切已聚焦于长上下文的处理能力与综合推理成本。

在技术架构上，V4 展现了极致的效率优化。其最显著的突破在于实现了混合精度训练：在专家层（Expert）使用 FP4 精度，其余部分采用 FP8。这种精度的跨越不仅大幅提升了训练效能，在推理侧也通过显著压缩 KV Cache 开销，极大地降低了计算量与延迟。以往这类低精度支持高度依赖英伟达生态，但 V4 证明了国产芯片已能逐步适配混合精度量化的训练与推理。这预示着国产算力将真正具备支撑超低成本推理场景的能力。

当然，国产生态在先进算法适配上仍存挑战。DeepSeek 同步发布的 Tylan 库，以及智源支持 8 款国产芯片的 FlagOpen 平台，都在致力于打破这一瓶颈。我们关注的重点是“系统智能”——即利用 AI 能力反哺底层基础设施。

在国产芯片的算子适配中，我们已开始利用 Agent 自动化工具完成复杂算子的精度对齐与调优。这种“模型能力提升带动底层系统优化”的加速循环，将是未来的主流方向。DeepSeek V4 通过开源方案大幅压低 Token 成本，为整个国产算力生态向极致效能演进提供了关键牵引。

杨泽乾：DeepSeek V4 技术报告中最令人震撼的突破，首先在于其对注意力机制的革命性优化。长期以来，Transformer 架构 O(n^2)的计算复杂度始终是长序列处理的瓶颈。虽然业内在探索 Mamba 等新架构，但其成熟度尚不及“MoE + Transformer”组合。此次V4 通过 CSA（压缩稀疏注意力）与 HCA（重度压缩注意力）的交替式设计，将 KV Cache 极致压缩至传统方案的 2%，使计算复杂度从O(n^2) 降至接近线性。这标志着百万级长文本从此前的“高门槛消耗”转变为低成本的“日用品”。

其次是异构算力环境下的训练稳定性。针对在华为昇腾、华虹等国产算力底座上进行大规模预训练的挑战，V4 引入了 Break-off 投影与 ThinkingHorn迭代方案，实现了国产算力底座上的不停机稳定预训练。同时，针对 MoE 架构，V4 利用 Ingram 机制有效解决了“模型越大、推理越慢”的行业悖论。

当然，追求极致效率必然带来技术取舍。报告中提到了长文本的遗忘性，不会像Claude或Gemini的超长文本准确性那么强，一定长度之后存在逻辑断层和精度损失，这是对极致效率追求的取舍。

此外，为了压低成本，V4的架构变得极其复杂，这在后续的推理极致优化以及跨平台迁移上，增加了额外的工程成本。但总体而言，这些取舍并未掩盖DeepSeek V4 在国产算力约束下所展现出的卓越技术含金量。

2.掀桌子、RL 暴力涌现、OPD 工程权衡，Deepseek技术哲学的进化

岑峰：刚才三位老师从不同视角分享了 DeepSeek V4 的架构演进。杨老师最后提到的“取舍”非常关键。从 V2 到 V4，DeepSeek不断证明用更少的资源可以实现更强的性能。但正如业界所言，极致的省钱往往伴随着系统复杂度的代价。接下来的核心讨论，我们将聚焦 DeepSeek 这种效率优先的技术路线。

请教黎科峰老师：DeepSeek 的历次发布常被评价为“掀桌子”。从V2、V3、R1 到现在的 V4，您认为每一次“掀桌子”有什么不同？它们掀翻的是同一张桌子，还是开启了不同的秩序？

黎科峰：“掀桌子”这个词虽然被多次使用，但 V4 与往届确实有显著区别：

去年的 DeepSeek R1 解决的是“从 0到 1”的问题，它首次在开源界大规模实现了思维链（CoT）推理，让全球看到中国团队能以极低成本做出媲美闭源模型的效果。那是从无到有的惊喜。

而此刻的 V4 面临的竞争格局截然不同。在 V4 发布前，GPT-5.5、Gemini 1.2 Pro 及国产的 GLM、Kimi、千问等已经轮番“坐庄”，已经有四波了。V4的压力在于：如果你发布后的表现不如对手，那么“掀桌子”就无从谈起。

经过初步测试，我们发现 V4 的表现非常坚挺，尤其在编程能力上， DeepSeek 早期就主打 Coding，但在此之前，大家在严肃的工业级场景中仍倾向于使用海外闭源模型。现在V4 的 Coding能力已经达到了可以作为生产力工具直接创造 AI 产品的水平，这是其能力的重大补齐。

另一个重要意义是摆脱 CUDA 生态的限制，智源等机构一直在推动国产算力生态（如 FlagOS 联盟），但由于模型厂商对 NVIDIA生态的路径依赖，推进难度极大。DeepSeek 此次通过深度适配昇腾芯片竖起了一面旗帜，在技术框架层面开辟非 CUDA 路径，这种“掀桌子”是对算力底层壁垒的直接挑战，也是我最为看重的。

另一个加分项，Deepseek始终坚持开源初心，在友商纷纷收紧开源协议，如将 MIT 改为受限协议时，DeepSeek依然保持全值开放、无商业限制。这种价值观的稳定性在当前的产业环境下极具杀伤力。

岑峰：桌子掀翻之后重要的不是谁掀的，而是谁能够在废墟上面重新建立新的秩序。接下来想请教刘广老师一个技术问题：R1 曾凭借 30 万美元的纯强化学习（RL）涌现推理能力，震惊全球并登上《Nature》封面。但最新的 V4 技术报告显示，其后训练阶段已放弃纯RL 路径，转而采用 OPD（在线策略蒸馏）。这种路线转变是否意味着纯 RL 的泛化边界已经显现？

刘广：您这个问题问得非常好。最近强化学习的路线一直在讨论非常多，agent RL构建新的环境脚手架，基于环境结合去做强化学习训练，认为可以做真实生产环境的问题解决。DeepSeek又走了另外一条路径。

大模型是由数据、算法、算力这“三驾马车”驱动的。您刚才问的就是算法改进，但我看到它在数据上也做了很多突破，在硬件上也做了很多突破，主要突破点其实就是效率。DeepSeek一贯的风格就是把整个训练的效率达到一个非常极致的状态。

从 Scaling Law来看，DeepSeek 早在早期模型中就通过精确拟合找到了高数据效率的平衡点，从而将更多算力投入到参数规模的扩展上。此次V4 将数据规模从 14.8T 扩展到 30+T，参数规模也从 600B 增加到 1.6T。放弃纯 RL 转向 OPD，实际上是 DeepSeek 在追求极致训练效率下的必然选择。这种路径为国产生态提供了巨大的信心。

智源推出的 FlagOS也是希望通过软件层面的适配支持多元国产芯片。DeepSeek 的示范作用，能牵引更多人关注国产算力的极致效能优化。在实操中我们发现，这种FP4+FP8 的混合精度训练对转换精度非常敏感。如果要在国产算力上用 INT8 或 BF16跑这些权重，转换过程中的精度损失是当前生态面临的重要挑战。我们将开放这些经验，助力全行业解决国产芯片的适配难题。

岑峰：顺着刘老师的回答，我想进一步请教杨泽乾老师：DeepSeek 后训练哲学的转变，是否在为早期追求极致效率而产生的架构债“还债”？

杨泽乾：您这个问题问得非常专业且技术。我认为V4 采用 OPD 并非放弃强化学习，而是一种更务实的工程权衡。

R1当时出来证明的是纯强化学习方式能够涌现模型能力的上限，但中间是不可控的，CoT思维链以及算力消耗都不可控。V4的OPD方式，也就是在线策略蒸馏，采用的是分布式专家的培养模式：先针对数学、代码、agent执行这些领域去独立训练专家，用SFT和RL的方式训练，然后再将这些领域的知识蒸馏到统一的学生模型中。

这个方式并不是放弃了RL技术路线，而是把强化学习放到了专家培养的阶段，而在整体专家模型的集成阶段，选择了一种更高效、更稳定的蒸馏方式。这样比较好地解决了DeepSeek V4这种万亿级模型在多任务场景下的性能退化问题。

3. 长上下文与检索，实用主义 vs. 完美主义

岑峰：谢谢杨老师。第一轮讨论勾勒出一个清晰的脉络：DeepSeek的效率至上既是工程能力的胜利，也是特定约束下的生存策略。每一次领先确实都有代价，但每一次里程碑都看到了DeepSeek在不同层面上的尝试。这有点像乔布斯说的连点成画，从不同的点进行尝试，最后形成一幅完整的画面。

接下来我们将进入第二轮：百万上下文时代的技术路线之争。长上下文已从“炫技参数”转变为“基础设施”，DeepSeek V4等主流大模型纷纷升级至百万级（1M）上下文。请教黎科峰老师，为何长上下文会成为当前大模型竞争的焦点？

黎科峰：竞争的核心动力在于应用驱动。过去 DeepSeek 在应用层相对后觉，更关注 AGI 理想，而千问、字节、GLM 及 Minimax 等厂商早已通过APP 和开发者生态抢占滩头。

这一年的变革极快。Manus 定义了 Agent 的自主规划与工具调用模式，而 OpenClaw 则像是一个智能体版的 APP Store。这些复杂任务的处理需要长时记忆支撑。当 Agent组合多种能力处理长程任务时，拼出的 Prompt极其复杂，这对长上下文的连接能力提出了硬性要求。

DeepSeek V4的升级是补齐短板的重要一步。虽然它在应用层起步较晚，但这次发布显示其正反向通过应用需求推动模型演进。大模型不再是舞台中央的唯一主角，而是“搭台子”的基础设施，唱戏的是百花齐放的专家Agent。百万级上下文是这个“台子”最关键的基石。

岑峰：报告显示 DeepSeek 在 128K 后的检索性能有所衰减。请教杨老师，对比 Google Gemini 的原生长窗、OpenAI的o 系列推理加速及 Claude 的可控长文本，DeepSeek 这种极致压缩路径的优劣势是什么？

杨泽乾：这四家目前全球 Token 调用量前四的厂商，在长文本策略上各具特色：DeepSeek V4是实用主义，通过 CSA+HCA 极致压缩 KVCache，大幅降低显存压力。其优势是极低成本与百万级长度，适用于大规模代码重构、架构分析及超长文档总结。代价是全局高密度检索性能会有所下降，且MoE 架构在处理跨领域知识融合时，稳定性稍逊于稠密模型。

Claude的路线属于完美主义，追求最小化压缩以保持信息完整。优势是检索精度和可控性行业顶尖，处理多任务调用能力极强。代价是成本最高，且在需要全局注意力时，速度必然受限。它更适合法律、医疗等高信息密度、对严谨性要求极高的场景。

OpenAI则是全面主义，走渐进扩展+推理模型优化路线。优势在于跨模态能力强（如 GPT-4.6/5.4），通过 o系列模型专门优化复杂逻辑推理。然而，其成本极其昂贵，如刚发布的 GPT-5.5输出价格高达 130 美元/百万 Token，与 DeepSeek 形成鲜明对比。

Google Gemini属于二者的均衡折中，坚持原生架构支持长上下文，不依赖算法压缩。优势在于高密度知识检索能力强，工程结构简单，全局一致性好。缺点是硬件成本极高，架构灵活性有限，主要适应通用问答场景。

总结来说，DeepSeek 是以效率优先解决“能用、好用”的问题；Claude 追求极致精度；OpenAI 覆盖全高端场景；Gemini则在精度与成本间寻找平衡点。

岑峰：DeepSeek V4 与硬件深度绑定，请教刘广老师，这种“极致压缩+低比特量化”是否会形成硬件的技术壁垒？跨平台迁移是否会面临性能损失？

刘广：DeepSeek 的量化策略确实与硬件存在较强的协同关系，但这并非不可逾越的屏障。

智源 FlagOS 团队曾尝试进行“反量化”，将低比特权重升维至 FP16 或BF16。技术上是可行的，但坑在于量化精度对操作顺序极敏感，反量化过程中可能出现精度误差。

目前的长上下文技术其实才走了一半。虽然我们能让模型“记住”1M 甚至更长的信息，但这只是暂时的记忆。AGI 的核心能力是持续学习，即模型应随环境交互改变其权重，而不仅仅是堆砌上下文。

在生态侧，长上下文为国产芯片带来了差异化机会。例如当前流行的 PD 分离（Prefilling 与 Decoding分离）技术，有些国产芯片适合做预填充，有些适合做推理。智源也在布局异构通信等底层技术，支持在国产算力上实现长文本推理。总体来看，这种技术路线的演进正在衍生出大量新的机会。

4.MoE 的精打细算 vs. 稠密模型的扩张

岑峰：除了长上下文，大模型领域另一个显著的路线分歧在于MoE（混合专家模型）与稠密模型。

目前，国内“开源御三家”（DeepSeek、千问、Kimi）均选择了MoE 路线，而西方巨头（OpenAI、Anthropic、Google）则在主力模型上依然倾向于稠密模型。黎老师，在 Agent 时代，这两条路线将如何演化？MoE与稠密模型之间是否存在相互学习的空间？

黎科峰：中美技术选型的差异，本质上是不同资源约束下的必然结果。

对于国内团队而言，技术选型面临着“芯片封锁”与“预算受限”的双重压力。我们必须在算力供给并不充裕、硬件性能稍逊于 NVIDIA顶尖产品的环境下，通过软硬一体化优化出极致性能。这就迫使我们走向 MoE这种“精打细算”的路线。

反观美国，虽然现在也面临电力和基建的瓶颈，但其核心逻辑依然是资本驱动的大手大脚：通过堆叠更多的参数、购买更多的芯片来维持领先，形成了一套资本与算力绑定的游戏。

我认为中美的这种分化将长期存在，且各有胜场。

中国大模型会在成本维度形成“降维打击”：当国产模型的成本只有美国的 1/10，且性能差距缩减到毫厘之间时，这种成本优势是极其恐怖的。

不过，二者目标设定也有差异：中国团队的目标非常清晰——通过开源和极致性价比实现“弯道超车”。这并不是说美国企业不懂低精度训练或极致压缩，而是他们的战略目标不在于此。

最终，这两条路径会根据使用场景进行市场细分：追求极致精度、不计成本的场景属于一类；而追求高性价比、大规模普及的场景则属于另一类。DeepSeek在极度受限的条件下优化出的非 CUDA 生态路径，让我们看到了打破垄断的希望。

岑峰：我们注意到，在针对复杂编程任务的评测（如 SWE Pro）中，DeepSeek V4（55.4%）略逊于稠密模型Claude 4.5（57.3%）。这是否说明 MoE 的专家分工模式，在需要长程规划和高度统一表征的 Agent 任务中，不如稠密模型稳健？

杨泽乾：MoE 架构在处理复杂 Agent 任务时，确实面临“连贯性”的天然挑战。

以 DeepSeek V4 为例，其总参数量高达 1.6T，但单个 Token仅激活其中的 49B（约 3%）。这种动态路由机制虽然能以更小的计算量处理海量参数，但无法像稠密模型那样让每一个Token 都经过全部参数的统一处理，容易导致在长程任务中出现逻辑断层。

但 MoE 并非决定性因素。例如 Kimi K2.6 同样采用 MoE 架构，但在部分测试中却优于某些稠密模型。DeepSeek V4在特定数据集上的劣势，更多是其在效率与成本间进行极致取舍的结果。

目前，行业优化 MoE 应对长程任务的思路主要有三条：

岑峰：刘老师，如杨老师所言，MoE在Agent任务上存在"连贯性瓶颈"，而Agent正是2026年大模型最重要的落地场景，MoE路径未来还有哪些可能的演进来解决这个问题？

刘广：针对 MoE 路线的演进，我认为未来有两个极具价值的研究方向。

首先是极致的稀疏化。DeepSeek 成功的关键在于将 MoE的粒度做得极细。细粒度专家虽然带来了系统通信的挑战，但也极大提升了模型表征的灵活性。DeepSeek几乎把所有的稀疏化技术都用上了：稀疏注意力、稀疏 MoE，甚至是基于分布式表示的 N-gram。

这种稀疏化不仅能提升效率，还能帮助模型进行“感知量化训练”。如果模型足够稀疏，我们就可以通过剪枝去掉大量权重而几乎不影响性能，甚至可以实现将多个不同领域的专家蒸馏到一个统一模型中的“后训练范式”。

其次是打开 Transformer 的“黑盒”。过去我们将 Transformer视为不可拆解的整体，但现在的趋势是将其细分、拆碎。通过观测训练过程中哪些环节的值不稳定，进行针对性的架构改进（如MHC 优化），让训练变得更稳健、更高效。

这种从理论机理出发，结合极致工程实践的路径，不仅能提升训练效率，更能让我们深入理解大模型的运行机制。

5.从省钱到赚钱的未来思考

岑峰：刚才三位老师深入探讨了长上下文、MoE 与稠密模型的优劣。我们达成了一个共识：在百万上下文和 Agent时代，并没有唯一的“正确答案”。DeepSeek走的是极致性价比的压缩路线，但在记忆完整性和连贯性上仍有挑战；而海外巨头如Anthropic 走完美主义路线，OpenAI 走全面路线，Google 走原生平衡路线。

最终，技术路线的差异要回归商业本质：DeepSeek 这种“省钱”的能力，能否转化成“赚钱”的能力？大模型产业是否正从“模型竞赛”转向“系统战争”？请教黎老师，您如何看待这几种路线在商业化能力上的潜力？

黎科峰：技术领域从未有“一招鲜吃遍天”的方案，大模型最终会进入细分领域的深度竞争。例如，Claude 强在 Coding，GPT强在图像与综合推理，豆包强在多模态。DeepSeek 则聚焦文本处理，这是一种战略上的克制。

关于商业化，我认为可以从两个维度看：

首先，成本是商业化的生命线。就像汽车行业，豪华品牌固然存在，但真正统治市场的是丰田、大众这类大众化品牌。性价比永远是大规模商业化中最重要的环节。目前Claude Opus 等高端模型的开销，即使是对拥抱 AI 的企业来说也感到沉重的压力，更遑论未来数万名员工全员 AI 化后的开销。因此，Token成本持续下探是行业必然。

从技术理想主义与长期主义的维度，DeepSeek比较特殊，其创始人梁文峰现阶段表现出了极强的技术理想主义，更关注如何把东西做成世界最好，而非过早商业化。这种“厚积薄发”的策略，在国产软硬一体化优化的背景下，可能对闭源大厂产生巨大的冲击。当性能接近、成本仅为对方 1/10时，这种优势是颠覆性的。

岑峰：极致效率、通用能力与落地稳定性，往往难以兼得。对于企业客户和开发者，未来的模型选型标准会发生什么变化？哪种路线具备更长期的生命力？

杨泽乾：我认为大模型选型的判断标准，正从单一的“模型有多聪明”转向“系统效能的综合评估”。主要看三个核心指标：

DeepSeek 走的是普适化逻辑：通过 10% 的能力差距换取 10 倍以上的成本优势，将 AI能力变成成千上万中小企业和开发者工具箱里的“日用品”，从而成为像水和电的行业基础设施。而OpenAI等大厂走的是顶尖产品逻辑，为失败容忍度极低、对成本不敏感的高风险场景提供不可替代的、最可靠的解决方案。未来市场会明显分层，绝大多数商业场景将流向性价比更高的实用模型。

岑峰：刘老师，杨老师提到了系统生态的建设。未来 AI 厂商的核心竞争力，是否会从单纯的算法研发转向全栈的系统工程能力？

刘广：这确实是大势所趋。单一模型的能力存在局限，必须通过系统化（Agentic 系统）来扩展其边界。

目前许多大厂已将原有的中台能力转化为工具或 MCP（模型上下文协议）接口。此次 DeepSeek V4 的发布，结合 Claude Code等开源/闭源脚手架，将极大加速这一过程。企业只需对模型权重进行微调，即可将其接入真实业务流程，产生实际产出。

分享一个我们的实践：在国产算力生态中编写算子。以前依赖专家手工编写，周期长达一至两周。现在利用 Agent 辅助，只需 10 到 20分钟即可生成高质量算子，并在国产芯片上顺畅运行。这种方式将人力成本从数千元降低到几十元的 Token费用，这种价值的体现会反向驱动整个系统层面的进化。DeepSeek V4 第二次加速了 AI 辅助产业重塑的进程。

岑峰：今天的讨论从 V2 谈到 V4，从 MLA 架构谈到 CSA+HCA 注意力机制，从“掀翻价格桌子”谈到“重构基础设施”。DeepSeek用四年时间证明：效率本身就是核心竞争力。

正如三位老师所言，在 Agent 时代，大模型面临着对连贯性、可控性和商业可持续性的新考量。每一笔“省下的钱”背后都有复杂度的代价，但 DeepSeek最大的价值在于，它打破了 Scaling Law 只能靠堆算力和堆参数的惯性。智能的边界不仅由芯片定义，更由工程师的想象力和工程能力定义。

桌子掀翻之后，最重要的不是谁掀的，而是谁能在废墟上重建更便宜、更可控、更具生态生命力的秩序。至于未来格局如何，我们 2027年再见分晓。