首页 > 科技快讯 > 全网最强万字解读:DeepSeek-V4 掀翻了谁的桌子?

全网最强万字解读:DeepSeek-V4 掀翻了谁的桌子?

(来源:雷峰网)

“370倍的鸿沟,不只是限时促销。”

作者丨岑峰

GPT-5.5 “大杯版”的输出价格是 130 美元/百万 Token,而 DeepSeek-V4 只要 2.5 元人民币。在同样的智能水位下,两者的成本差了整整 370 倍。

这绝非一场互联网式的“补贴大战”或限时促销,而是一场已经持续了四年的中国特色“效率革命”。在 Agent 时代,当长程任务的一致性需求迫使 Token 消耗量呈指数级增加时,DeepSeek-V4 延续了其“用更少的资源做更多的事”的硬核传统,再一次以极致的压缩方案,将百万上下文的门槛从“奢侈品”变成了“日用品”。

但省钱从来不是免费的午餐。每一次效率的跨代领先,都在系统复杂度、生态锁定和能力边界上埋下了伏笔。为什么 OpenAI、Anthropic 始终坚守稠密模型与原生长窗?DeepSeek 与昇腾芯片的深度软硬绑定,究竟是国产替代的曙光,还是构建了新的技术孤岛?当大模型竞赛进入“系统战争”的深水区,谁能定义下一个十年的 AI 基础设施?

在Deepseek V4发布当天的GAIR Live圆桌上,雷峰网联合创始人岑峰对话三位行业专家:

从产业竞争、系统生态和技术架构三个维度,拆解DeepSeek-V4的效率账本。

01

四次"掀桌子",掀的是不同的桌子

DeepSeek的"掀桌子"不是一生只有一次的事件,而是一场分阶段、分维度的系统性进攻。黎科峰将V2到V4的四次发布拆解为四个不同的战场:

黎科峰指出,V4 的真正不同在于:它不再是“从 0 到 1”的惊喜,而是在“从 1 到 100”的正面战场上,用工程能力和系统效率硬碰硬地赢了。

这种进化轨迹如同乔布斯提到的“连点成画”(connecting the dots):分散的效率突破,最终拼出了一幅完整的、独立于 CUDA 生态之外的 AI 基础设施图景。

02

2%的算法暴力美学

在 DeepSeek-V4 的技术报告中,最令业界震撼的数字莫过于“2%”。在 Transformer 架构统治大模型的今天,长序列处理产生的 KV Cache 始终是显存消耗的“黑洞”。

杨泽乾指出,DeepSeek 的进化本质上是一场“存量空间的战争”。V2 引入 MLA 压缩了 90% 的缓存空间;而 V4 进一步祭出了 CSA(压缩稀疏注意力)与 HCA(混合注意力) 的组合拳。这不仅是数学上的奇迹,更是工程上的大胆取舍。

杨泽乾认为,DeepSeek 将计算复杂度从传统的 O(n2) 压向了接近线性。这意味着,百万级长文本从此前的“奢侈品”变成了“日用品”。这种“极致压缩”路径,虽然在极端长度下可能存在检索性能的衰减,但它解决了“能用”和“好用”的门槛问题。

这种架构的复杂性,被嘉宾们称为“算法的暴力美学”。它反映了这样一种技术之美:在算力极度稀缺的背景下,中国工程师选择用更复杂的系统逻辑,去对冲硬件资源的匮乏。当百万级长文本不再是需要慎重使用的“昂贵资源”,Agent 的长程思考才真正具备了大规模落地的经济性基础。

03

效率革命的隐性代价:选择即取舍

极致的省钱往往伴随着复杂度的代价。杨泽乾直言,DeepSeek 的每一笔效率收益,都在其他地方留下了账单:

这些账单不是缺陷,而是深思熟虑后的选择。DeepSeek 这种聪明之处在于:它清楚地知道自己在放弃什么,并且成功地将这些“放弃”转化为了极具杀伤力的商业优势。

04

长上下文的真相:我们只走了一半的路

虽然百万上下文已成标配,但刘广抛出了一个更尖锐的判断:“现在的技术只解决了一半问题——能记住,但学不会。”

目前大厂的长文本策略各具特色:DeepSeek 走实用主义压缩路线,成本极低;Gemini 走原生架构路线,全局一致性好但扩展性受限;Claude 追求高精度检索,是法务和医疗场景的首选;OpenAI 则利用推理模型优化逻辑深度。

但这些策略本质上都是“记忆”而非“学习”。模型可以一次性吞下整本《三体》做总结,但无法在与用户的长期交互中持续更新权重、沉淀个性化的知识。人一辈子读的书可能远超百万 Token,却能将其内化为智慧。大模型的长文本技术如果不能跨越从“临时缓存”到“权重更新”的鸿沟,长上下文就依然只是一个更宽的、容易被溢出的漏斗。

这意味着,我们还在长上下文这条路上走了一半,剩下的那一半,是如何让模型在交互中真正"成长"。

05

MoE vs 稠密,不是技术优劣,是生存策略

一个有趣的地理发现是:国内“开源御三家”(DeepSeek、千问、Kimi)不约而同选择了 MoE 路径,而 OpenAI、Anthropic 等美国巨头仍倾向于稠密模型。黎科峰认为,这折射出的是中美两国在资源约束下的必然选择:

他用一个比喻道出了本质:"家里有肉吃,为什么要去吃粗粮?"DeepSeek的MoE+FP4+昇腾绑定,不是"最优技术路线",而是"受限环境下的最优解"。

但正是这条"粗粮路线"正在展现出惊人的竞争力。DeepSeek的API定价仅为海外大厂的1/10,让中国模型在 API 定价上展现出了颠覆性的优势。当性能接近、成本差一个量级时,商业化天平就会发生倾斜,迫使全球大模型产业重新思考成本红线。

06

从模型竞赛到系统战争

在圆桌的尾声,三位专家达成了共识:大模型产业正从单纯的“算力竞赛”转向全栈的“系统战争”。

黎科峰指出,对于拥有数万名员工的科技巨头,如果全员使用 AI 辅助编程或办公,Token 成本将是天文数字。“用得起”本身就是最大的竞争壁垒。DeepSeek 的护城河,并不在于它比对手聪明多少,而是在于它成功地将 AI 从“少数人玩得起的奢侈品”,变成了“成千上万家企业工具箱里的日用品”。

刘广分享的案例更令人震撼:在国产算力生态中,以前编写一个底层算子需要专家手写一两周,现在利用 Agent 辅助只需 10 分钟。这种效能提升带来的价值,正反向驱动着整个国产系统生态的进化。

DeepSeek-V4 的意义在于,它打破了 Scaling Law 只能靠“堆算力、堆参数”的增长惯性。它证明了:智能的边界不仅由芯片定义,更由工程师的想象力和工程能力定义。桌子掀翻之后,最重要的不是谁掀的,而是谁能在废墟上重建一个更便宜、更可控、更具生命力的 AI 秩序。

以下是此次圆桌讨论的精彩分享,雷峰网进行了不改原意的编辑整理:

1.从“打榜”到“落地”,DeepSeek V4技术报告解读

岑峰:各位嘉宾、朋友,大家晚上好。

昨天这个时候,我主持了一场关于Claw类产品Token焦虑的圆桌。当时我们讨论了“记忆是资产还是负债”的命题。紧接着 DeepSeek V4 便震撼发布,它通过 CSA(压缩稀疏注意力)与HCA(混合注意力)的混合架构,将 1M 上下文的 KV Cache 压低至传统方案的 2%。

换言之,当记忆规模爆炸,DeepSeek 选择了“遗忘的艺术”,并以极高的架构复杂度作为支撑。

回顾其路径,V2 将 KV Cache 压缩 90% 以上;V3 以不到 600万美元训练出 GPT-4o 级别的模型;如今 V4 更是将上下文推理成本、1M 上下文的 KV Cache大幅降低。这种极致效率的领先,正在系统复杂度、生态锁定和能力边界上埋下深远伏笔。

今天我们邀请到三位嘉宾,从效率与代价的角度进行拆解并分析:DeepSeek的极致效率意味着什么?中国开源御三家的开源 MoE 路线与西方的稠密模型路线将如何分化?下一个十年的AI基础设施如何演变?

按照惯例,我们先请三位嘉宾分享各自视角下对Deepseek技术报告的深度解读。

黎科峰:最近很热闹,GLM、Kimi、Qwen都发布了最先进的模型,在OpenSource榜单上面轮流坐庄。大家都在等 DeepSeek V4,今天它终于发布,从 Benchmark表现来看,其综合感知明显优于此前的开源模型,从股市上来看,DeepSeek概念股今天涨得非常疯。

这次发布具有“掀桌子”的意义,核心体现在四点:

第一,真开源。DeepSeek 依然坚持最开放的 MIT 协议,不设商业化限制。在其他几家大模型纷纷加码开源“枷锁”的背景下,这种坚持极为不易。

第二,V4 彻底适配了华为昇腾芯片并支持 FP4 精度。这标志着大模型从训练到推理真正实现了中国自主安全可控的闭环。

第三,价格。随着 OpenClaw 等 Agent 产品的火爆,Token 消耗量呈十倍级增长。海外闭源模型的高昂价格让开发者难以承受,而DeepSeek 将价格压到了 25 元人民币/百万 Token, Flash 版本更便宜,十倍量级。这极大促进了多 Agent 生态的落地。

最后,在关键能力上也有不俗表现, V4的亮点不仅在于降本,更在长上下文、数学及代码能力上部分反超了海外领先的闭源模型。尤其是编程能力的提升,为大模型的应用生态拓展了巨大的空间。

完全开源、低成本、接近世界领先、完整国产化软硬件生态,这四个核心点放在一起,既好又有用,而且还便宜。

刘广:DeepSeek V4 的发布正值大模型从“打榜”转向“落地”的范式拐点。当前 Agent 架构盛行,产业界最核心的关切已聚焦于长上下文的处理能力与综合推理成本。

在技术架构上,V4 展现了极致的效率优化。其最显著的突破在于实现了混合精度训练:在专家层(Expert)使用 FP4 精度,其余部分采用 FP8。这种精度的跨越不仅大幅提升了训练效能,在推理侧也通过显著压缩 KV Cache 开销,极大地降低了计算量与延迟。以往这类低精度支持高度依赖英伟达生态,但 V4 证明了国产芯片已能逐步适配混合精度量化的训练与推理。这预示着国产算力将真正具备支撑超低成本推理场景的能力。

当然,国产生态在先进算法适配上仍存挑战。DeepSeek 同步发布的 Tylan 库,以及智源支持 8 款国产芯片的 FlagOpen 平台,都在致力于打破这一瓶颈。我们关注的重点是“系统智能”——即利用 AI 能力反哺底层基础设施。

在国产芯片的算子适配中,我们已开始利用 Agent 自动化工具完成复杂算子的精度对齐与调优。这种“模型能力提升带动底层系统优化”的加速循环,将是未来的主流方向。DeepSeek V4 通过开源方案大幅压低 Token 成本,为整个国产算力生态向极致效能演进提供了关键牵引。

杨泽乾:DeepSeek V4 技术报告中最令人震撼的突破,首先在于其对注意力机制的革命性优化。长期以来,Transformer 架构 O(n^2)的计算复杂度始终是长序列处理的瓶颈。虽然业内在探索 Mamba 等新架构,但其成熟度尚不及“MoE + Transformer”组合。此次V4 通过 CSA(压缩稀疏注意力)与 HCA(重度压缩注意力)的交替式设计,将 KV Cache 极致压缩至传统方案的 2%,使计算复杂度从O(n^2) 降至接近线性。这标志着百万级长文本从此前的“高门槛消耗”转变为低成本的“日用品”。

其次是异构算力环境下的训练稳定性。针对在华为昇腾、华虹等国产算力底座上进行大规模预训练的挑战,V4 引入了 Break-off 投影与 ThinkingHorn迭代方案,实现了国产算力底座上的不停机稳定预训练。同时,针对 MoE 架构,V4 利用 Ingram 机制有效解决了“模型越大、推理越慢”的行业悖论。

当然,追求极致效率必然带来技术取舍。报告中提到了长文本的遗忘性,不会像Claude或Gemini的超长文本准确性那么强,一定长度之后存在逻辑断层和精度损失,这是对极致效率追求的取舍。

此外,为了压低成本,V4的架构变得极其复杂,这在后续的推理极致优化以及跨平台迁移上,增加了额外的工程成本。但总体而言,这些取舍并未掩盖DeepSeek V4 在国产算力约束下所展现出的卓越技术含金量。

2.掀桌子、RL 暴力涌现、OPD 工程权衡,Deepseek技术哲学的进化

岑峰:刚才三位老师从不同视角分享了 DeepSeek V4 的架构演进。杨老师最后提到的“取舍”非常关键。从 V2 到 V4,DeepSeek不断证明用更少的资源可以实现更强的性能。但正如业界所言,极致的省钱往往伴随着系统复杂度的代价。接下来的核心讨论,我们将聚焦 DeepSeek 这种效率优先的技术路线。

请教黎科峰老师:DeepSeek 的历次发布常被评价为“掀桌子”。从V2、V3、R1 到现在的 V4,您认为每一次“掀桌子”有什么不同?它们掀翻的是同一张桌子,还是开启了不同的秩序?

黎科峰:“掀桌子”这个词虽然被多次使用,但 V4 与往届确实有显著区别:

去年的 DeepSeek R1 解决的是“从 0到 1”的问题,它首次在开源界大规模实现了思维链(CoT)推理,让全球看到中国团队能以极低成本做出媲美闭源模型的效果。那是从无到有的惊喜。

而此刻的 V4 面临的竞争格局截然不同。在 V4 发布前,GPT-5.5、Gemini 1.2 Pro 及国产的 GLM、Kimi、千问等已经轮番“坐庄”,已经有四波了。V4的压力在于:如果你发布后的表现不如对手,那么“掀桌子”就无从谈起。

经过初步测试,我们发现 V4 的表现非常坚挺,尤其在编程能力上, DeepSeek 早期就主打 Coding,但在此之前,大家在严肃的工业级场景中仍倾向于使用海外闭源模型。现在V4 的 Coding能力已经达到了可以作为生产力工具直接创造 AI 产品的水平,这是其能力的重大补齐。

另一个重要意义是摆脱 CUDA 生态的限制,智源等机构一直在推动国产算力生态(如 FlagOS 联盟),但由于模型厂商对 NVIDIA生态的路径依赖,推进难度极大。DeepSeek 此次通过深度适配昇腾芯片竖起了一面旗帜,在技术框架层面开辟非 CUDA 路径,这种“掀桌子”是对算力底层壁垒的直接挑战,也是我最为看重的。

另一个加分项,Deepseek始终坚持开源初心,在友商纷纷收紧开源协议,如将 MIT 改为受限协议时,DeepSeek依然保持全值开放、无商业限制。这种价值观的稳定性在当前的产业环境下极具杀伤力。

岑峰:桌子掀翻之后重要的不是谁掀的,而是谁能够在废墟上面重新建立新的秩序。接下来想请教刘广老师一个技术问题:R1 曾凭借 30 万美元的纯强化学习(RL)涌现推理能力,震惊全球并登上《Nature》封面。但最新的 V4 技术报告显示,其后训练阶段已放弃纯RL 路径,转而采用 OPD(在线策略蒸馏)。这种路线转变是否意味着纯 RL 的泛化边界已经显现?

刘广:您这个问题问得非常好。最近强化学习的路线一直在讨论非常多,agent RL构建新的环境脚手架,基于环境结合去做强化学习训练,认为可以做真实生产环境的问题解决。DeepSeek又走了另外一条路径。

大模型是由数据、算法、算力这“三驾马车”驱动的。您刚才问的就是算法改进,但我看到它在数据上也做了很多突破,在硬件上也做了很多突破,主要突破点其实就是效率。DeepSeek一贯的风格就是把整个训练的效率达到一个非常极致的状态。

从 Scaling Law来看,DeepSeek 早在早期模型中就通过精确拟合找到了高数据效率的平衡点,从而将更多算力投入到参数规模的扩展上。此次V4 将数据规模从 14.8T 扩展到 30+T,参数规模也从 600B 增加到 1.6T。放弃纯 RL 转向 OPD,实际上是 DeepSeek 在追求极致训练效率下的必然选择。这种路径为国产生态提供了巨大的信心。

智源推出的 FlagOS也是希望通过软件层面的适配支持多元国产芯片。DeepSeek 的示范作用,能牵引更多人关注国产算力的极致效能优化。在实操中我们发现,这种FP4+FP8 的混合精度训练对转换精度非常敏感。如果要在国产算力上用 INT8 或 BF16跑这些权重,转换过程中的精度损失是当前生态面临的重要挑战。我们将开放这些经验,助力全行业解决国产芯片的适配难题。

岑峰:顺着刘老师的回答,我想进一步请教杨泽乾老师:DeepSeek 后训练哲学的转变,是否在为早期追求极致效率而产生的架构债“还债”?

杨泽乾:您这个问题问得非常专业且技术。我认为V4 采用 OPD 并非放弃强化学习,而是一种更务实的工程权衡。

R1当时出来证明的是纯强化学习方式能够涌现模型能力的上限,但中间是不可控的,CoT思维链以及算力消耗都不可控。V4的OPD方式,也就是在线策略蒸馏,采用的是分布式专家的培养模式:先针对数学、代码、agent执行这些领域去独立训练专家,用SFT和RL的方式训练,然后再将这些领域的知识蒸馏到统一的学生模型中。

这个方式并不是放弃了RL技术路线,而是把强化学习放到了专家培养的阶段,而在整体专家模型的集成阶段,选择了一种更高效、更稳定的蒸馏方式。这样比较好地解决了DeepSeek V4这种万亿级模型在多任务场景下的性能退化问题。

3. 长上下文与检索,实用主义 vs. 完美主义

岑峰:谢谢杨老师。第一轮讨论勾勒出一个清晰的脉络:DeepSeek的效率至上既是工程能力的胜利,也是特定约束下的生存策略。每一次领先确实都有代价,但每一次里程碑都看到了DeepSeek在不同层面上的尝试。这有点像乔布斯说的连点成画,从不同的点进行尝试,最后形成一幅完整的画面。

接下来我们将进入第二轮:百万上下文时代的技术路线之争。长上下文已从“炫技参数”转变为“基础设施”,DeepSeek V4等主流大模型纷纷升级至百万级(1M)上下文。请教黎科峰老师,为何长上下文会成为当前大模型竞争的焦点?

黎科峰:竞争的核心动力在于应用驱动。过去 DeepSeek 在应用层相对后觉,更关注 AGI 理想,而千问、字节、GLM 及 Minimax 等厂商早已通过APP 和开发者生态抢占滩头。

这一年的变革极快。Manus 定义了 Agent 的自主规划与工具调用模式,而 OpenClaw 则像是一个智能体版的 APP Store。这些复杂任务的处理需要长时记忆支撑。当 Agent组合多种能力处理长程任务时,拼出的 Prompt极其复杂,这对长上下文的连接能力提出了硬性要求。

DeepSeek V4的升级是补齐短板的重要一步。虽然它在应用层起步较晚,但这次发布显示其正反向通过应用需求推动模型演进。大模型不再是舞台中央的唯一主角,而是“搭台子”的基础设施,唱戏的是百花齐放的专家Agent。百万级上下文是这个“台子”最关键的基石。

岑峰:报告显示 DeepSeek 在 128K 后的检索性能有所衰减。请教杨老师,对比 Google Gemini 的原生长窗、OpenAI的o 系列推理加速及 Claude 的可控长文本,DeepSeek 这种极致压缩路径的优劣势是什么?

杨泽乾:这四家目前全球 Token 调用量前四的厂商,在长文本策略上各具特色:DeepSeek V4是实用主义,通过 CSA+HCA 极致压缩 KVCache,大幅降低显存压力。其优势是极低成本与百万级长度,适用于大规模代码重构、架构分析及超长文档总结。代价是全局高密度检索性能会有所下降,且MoE 架构在处理跨领域知识融合时,稳定性稍逊于稠密模型。

Claude的路线属于完美主义,追求最小化压缩以保持信息完整。优势是检索精度和可控性行业顶尖,处理多任务调用能力极强。代价是成本最高,且在需要全局注意力时,速度必然受限。它更适合法律、医疗等高信息密度、对严谨性要求极高的场景。

OpenAI则是全面主义, 走渐进扩展+推理模型优化路线。优势在于跨模态能力强(如 GPT-4.6/5.4),通过 o系列模型专门优化复杂逻辑推理。然而,其成本极其昂贵,如刚发布的 GPT-5.5输出价格高达 130 美元/百万 Token,与 DeepSeek 形成鲜明对比。

Google Gemini属于二者的均衡折中,坚持原生架构支持长上下文,不依赖算法压缩。优势在于高密度知识检索能力强,工程结构简单,全局一致性好。缺点是硬件成本极高,架构灵活性有限,主要适应通用问答场景。

总结来说,DeepSeek 是以效率优先解决“能用、好用”的问题;Claude 追求极致精度;OpenAI 覆盖全高端场景;Gemini则在精度与成本间寻找平衡点。

岑峰:DeepSeek V4 与硬件深度绑定,请教刘广老师,这种“极致压缩+低比特量化”是否会形成硬件的技术壁垒?跨平台迁移是否会面临性能损失?

刘广:DeepSeek 的量化策略确实与硬件存在较强的协同关系,但这并非不可逾越的屏障。

智源 FlagOS 团队曾尝试进行“反量化”,将低比特权重升维至 FP16 或BF16。技术上是可行的,但坑在于量化精度对操作顺序极敏感,反量化过程中可能出现精度误差。

目前的长上下文技术其实才走了一半。虽然我们能让模型“记住”1M 甚至更长的信息,但这只是暂时的记忆。AGI 的核心能力是持续学习,即模型应随环境交互改变其权重,而不仅仅是堆砌上下文。

在生态侧,长上下文为国产芯片带来了差异化机会。例如当前流行的 PD 分离(Prefilling 与 Decoding分离)技术,有些国产芯片适合做预填充,有些适合做推理。智源也在布局异构通信等底层技术,支持在国产算力上实现长文本推理。总体来看,这种技术路线的演进正在衍生出大量新的机会。

4.MoE 的精打细算 vs. 稠密模型的扩张

岑峰:除了长上下文,大模型领域另一个显著的路线分歧在于MoE(混合专家模型)与稠密模型。

目前,国内“开源御三家”(DeepSeek、千问、Kimi)均选择了MoE 路线,而西方巨头(OpenAI、Anthropic、Google)则在主力模型上依然倾向于稠密模型。黎老师,在 Agent 时代,这两条路线将如何演化?MoE与稠密模型之间是否存在相互学习的空间?

黎科峰:中美技术选型的差异,本质上是不同资源约束下的必然结果。

对于国内团队而言,技术选型面临着“芯片封锁”与“预算受限”的双重压力。我们必须在算力供给并不充裕、硬件性能稍逊于 NVIDIA顶尖产品的环境下,通过软硬一体化优化出极致性能。这就迫使我们走向 MoE这种“精打细算”的路线。

反观美国,虽然现在也面临电力和基建的瓶颈,但其核心逻辑依然是资本驱动的大手大脚:通过堆叠更多的参数、购买更多的芯片来维持领先,形成了一套资本与算力绑定的游戏。

我认为中美的这种分化将长期存在,且各有胜场。

中国大模型会在成本维度形成“降维打击”: 当国产模型的成本只有美国的 1/10,且性能差距缩减到毫厘之间时,这种成本优势是极其恐怖的。

不过,二者目标设定也有差异:中国团队的目标非常清晰——通过开源和极致性价比实现“弯道超车”。这并不是说美国企业不懂低精度训练或极致压缩,而是他们的战略目标不在于此。

最终,这两条路径会根据使用场景进行市场细分:追求极致精度、不计成本的场景属于一类;而追求高性价比、大规模普及的场景则属于另一类。DeepSeek在极度受限的条件下优化出的非 CUDA 生态路径,让我们看到了打破垄断的希望。

岑峰:我们注意到,在针对复杂编程任务的评测(如 SWE Pro)中,DeepSeek V4(55.4%)略逊于稠密模型Claude 4.5(57.3%)。这是否说明 MoE 的专家分工模式,在需要长程规划和高度统一表征的 Agent 任务中,不如稠密模型稳健?

杨泽乾:MoE 架构在处理复杂 Agent 任务时,确实面临“连贯性”的天然挑战。

以 DeepSeek V4 为例,其总参数量高达 1.6T,但单个 Token仅激活其中的 49B(约 3%)。这种动态路由机制虽然能以更小的计算量处理海量参数,但无法像稠密模型那样让每一个Token 都经过全部参数的统一处理,容易导致在长程任务中出现逻辑断层。

但 MoE 并非决定性因素。例如 Kimi K2.6 同样采用 MoE 架构,但在部分测试中却优于某些稠密模型。DeepSeek V4在特定数据集上的劣势,更多是其在效率与成本间进行极致取舍的结果。

目前,行业优化 MoE 应对长程任务的思路主要有三条:

岑峰:刘老师,如杨老师所言,MoE在Agent任务上存在"连贯性瓶颈",而Agent正是2026年大模型最重要的落地场景,MoE路径未来还有哪些可能的演进来解决这个问题?

刘广:针对 MoE 路线的演进,我认为未来有两个极具价值的研究方向。

首先是极致的稀疏化。DeepSeek 成功的关键在于将 MoE的粒度做得极细。细粒度专家虽然带来了系统通信的挑战,但也极大提升了模型表征的灵活性。DeepSeek几乎把所有的稀疏化技术都用上了:稀疏注意力、稀疏 MoE,甚至是基于分布式表示的 N-gram。

这种稀疏化不仅能提升效率,还能帮助模型进行“感知量化训练”。如果模型足够稀疏,我们就可以通过剪枝去掉大量权重而几乎不影响性能,甚至可以实现将多个不同领域的专家蒸馏到一个统一模型中的“后训练范式”。

其次是打开 Transformer 的“黑盒”。过去我们将 Transformer视为不可拆解的整体,但现在的趋势是将其细分、拆碎。通过观测训练过程中哪些环节的值不稳定,进行针对性的架构改进(如MHC 优化),让训练变得更稳健、更高效。

这种从理论机理出发,结合极致工程实践的路径,不仅能提升训练效率,更能让我们深入理解大模型的运行机制。

5.从省钱到赚钱的未来思考

岑峰:刚才三位老师深入探讨了长上下文、MoE 与稠密模型的优劣。我们达成了一个共识:在百万上下文和 Agent时代,并没有唯一的“正确答案”。DeepSeek走的是极致性价比的压缩路线,但在记忆完整性和连贯性上仍有挑战;而海外巨头如Anthropic 走完美主义路线,OpenAI 走全面路线,Google 走原生平衡路线。

最终,技术路线的差异要回归商业本质:DeepSeek 这种“省钱”的能力,能否转化成“赚钱”的能力?大模型产业是否正从“模型竞赛”转向“系统战争”?请教黎老师,您如何看待这几种路线在商业化能力上的潜力?

黎科峰:技术领域从未有“一招鲜吃遍天”的方案,大模型最终会进入细分领域的深度竞争。例如,Claude 强在 Coding,GPT强在图像与综合推理,豆包强在多模态。DeepSeek 则聚焦文本处理,这是一种战略上的克制。

关于商业化,我认为可以从两个维度看:

首先,成本是商业化的生命线。就像汽车行业,豪华品牌固然存在,但真正统治市场的是丰田、大众这类大众化品牌。性价比永远是大规模商业化中最重要的环节。目前Claude Opus 等高端模型的开销,即使是对拥抱 AI 的企业来说也感到沉重的压力,更遑论未来数万名员工全员 AI 化后的开销。因此,Token成本持续下探是行业必然。

从技术理想主义与长期主义的维度,DeepSeek比较特殊,其创始人梁文峰现阶段表现出了极强的技术理想主义,更关注如何把东西做成世界最好,而非过早商业化。这种“厚积薄发”的策略,在国产软硬一体化优化的背景下,可能对闭源大厂产生巨大的冲击。当性能接近、成本仅为对方 1/10时,这种优势是颠覆性的。

岑峰:极致效率、通用能力与落地稳定性,往往难以兼得。对于企业客户和开发者,未来的模型选型标准会发生什么变化?哪种路线具备更长期的生命力?

杨泽乾:我认为大模型选型的判断标准,正从单一的“模型有多聪明”转向“系统效能的综合评估”。主要看三个核心指标:

DeepSeek 走的是普适化逻辑:通过 10% 的能力差距换取 10 倍以上的成本优势,将 AI能力变成成千上万中小企业和开发者工具箱里的“日用品”,从而成为像水和电的行业基础设施。而OpenAI等大厂走的是顶尖产品逻辑,为失败容忍度极低、对成本不敏感的高风险场景提供不可替代的、最可靠的解决方案。未来市场会明显分层,绝大多数商业场景将流向性价比更高的实用模型。

岑峰:刘老师,杨老师提到了系统生态的建设。未来 AI 厂商的核心竞争力,是否会从单纯的算法研发转向全栈的系统工程能力?

刘广:这确实是大势所趋。单一模型的能力存在局限,必须通过系统化(Agentic 系统)来扩展其边界。

目前许多大厂已将原有的中台能力转化为工具或 MCP(模型上下文协议)接口。此次 DeepSeek V4 的发布,结合 Claude Code等开源/闭源脚手架,将极大加速这一过程。企业只需对模型权重进行微调,即可将其接入真实业务流程,产生实际产出。

分享一个我们的实践:在国产算力生态中编写算子。以前依赖专家手工编写,周期长达一至两周。现在利用 Agent 辅助,只需 10 到 20分钟即可生成高质量算子,并在国产芯片上顺畅运行。这种方式将人力成本从数千元降低到几十元的 Token费用,这种价值的体现会反向驱动整个系统层面的进化。DeepSeek V4 第二次加速了 AI 辅助产业重塑的进程。

岑峰:今天的讨论从 V2 谈到 V4,从 MLA 架构谈到 CSA+HCA 注意力机制,从“掀翻价格桌子”谈到“重构基础设施”。DeepSeek用四年时间证明:效率本身就是核心竞争力。

正如三位老师所言,在 Agent 时代,大模型面临着对连贯性、可控性和商业可持续性的新考量。每一笔“省下的钱”背后都有复杂度的代价,但 DeepSeek最大的价值在于,它打破了 Scaling Law 只能靠堆算力和堆参数的惯性。智能的边界不仅由芯片定义,更由工程师的想象力和工程能力定义。

桌子掀翻之后,最重要的不是谁掀的,而是谁能在废墟上重建更便宜、更可控、更具生态生命力的秩序。至于未来格局如何,我们 2027年再见分晓。

相关推荐

渔具打折“掀桌子”,谁受益
阿里云为何又“掀桌子”了?
今天,OpenClaw能用DeepSeek-V4了!还设成了默认模型
“全网最低价”,谁说了算?
超越DeepSeek-V4!罗福莉交出小米最强开源模型,首日适配5家国产芯片
天数智芯 × KernelSwift:深度适配 DeepSeek-V4,共筑高效算力生态
外卖0佣金!京东掀桌子,但美团饿了么可能并不care?
“全网最低价”,到底谁说了算?
不容忽视的SLM金属3D打印技术新发展,是否正在掀桌子?!
产品观察 | 新款 iPad Pro到底该不该买?我们翻了一遍全网评测

网址: 全网最强万字解读:DeepSeek-V4 掀翻了谁的桌子? https://m.xishuta.cn/newsview149150.html

所属分类:行业热点