首页 > 科技快讯 > 连崩三天、核心离职、抛弃英伟达:DeepSeek V4 定档 4 月下旬!

连崩三天、核心离职、抛弃英伟达:DeepSeek V4 定档 4 月下旬!

DeepSeek V4,定档 4 月下旬。

这次不是爆料,是 DeepSeek 掌舵人梁文锋自己给出的时间。

据多家媒体报道,梁文锋近日在内部沟通中第一次明确了 V4 的发布时间,多位知情人士确认了这个消息。

梁文锋有多低调?

从 DeepSeek 爆火到今天,他公开露面的次数屈指可数。媒体采访一律婉拒,公司内部他每天「看论文、写代码、参与小组讨论」,典型的研究员作风。

严格来说,这次也不算公开发声。内部沟通里的一句话,被知情人士曝了出来。

但对 AI 圈来说,这是过去一个多月里第一次从 DeepSeek 内部听到确定的时间窗口。

V4 的爆料从 1 月起就没停过。

1 月 9 日,科技媒体 The Information 独家报道 V4 春节前后发布,主打编程能力。2 月 25 日,路透社继续跟进,V4 已经提前开放给华为适配,英伟达被挡在门外。

但春节过去了。清明也过去了。

「永远在上线的 DeepSeek」成了 AI 圈的经典梗。

根据最新的消息,DeepSeek 过去几个月一直在和华为、寒武纪合作,把原本依赖英伟达 CUDA 的底层代码全部重写到华为的 CANN 框架上。并且,DeepSeek 主动拒绝了英伟达和 AMD 的 V4 早期适配权限,这个窗口只给了国产芯片。

模型可能早就训练好了,但底层算力正在大换血。

3 月 29 到 31 日,DeepSeek 连续三天宕机,最长一次十几个小时。恢复之后,开发者普遍反馈模型变了,编码结构更清晰,SVG 生成能力提升了一档,思维链也不再废话连篇。

业内猜测,这次宕机跟 V4 的灰度部署有关。

4 月 8 日,DeepSeek 又在网页端悄悄上线了「快速模式」和「专家模式」两个入口。快速模式适合日常对话,即时响应;专家模式擅长复杂问题,目前已支持文件上传和多模态。这是 DeepSeek 走红以来第一次在产品端做模式分层。

但当前这个新版本大概率还不是 V4。

128K 就触发 token 上限,和 V4 传闻的百万上下文对不上,更像是 Lite 版。

同一时间,DeepSeek 团队也在经历动荡。

过去半年,DeepSeek 已经有四名核心成员离开。

V1 时代的大语言模型核心作者王炳宣,被腾讯挖走。OCR 系列核心魏浩然、多模态贡献者阮翀先后离开,阮翀今年 1 月加入了自动驾驶公司元戎启行。R1 核心作者郭达雅,近期正式离职,去向成谜。

郭达雅值得单独一说。

他是 95 后,中山大学博士,2023 年加入 DeepSeek,从 Coder、Math 到 V2、V3 再到 R1,几乎参与了 DeepSeek 每一个关键模型的研发。R1 里那个被业界广泛采用的 GRPO 强化学习方法,就出自他参与的 DeepSeekMath 论文。

有爆料称,「外面给的数字翻两到三倍没问题,有公司开出了八位数的总包。」

但,走的是少数。

DeepSeek 研究团队只有梁文锋和研究员两个层级,极度扁平。不打卡,没有明确的绩效考核,多数人下午六七点就下班。

主打一个「不卷」。

梁文锋的逻辑很简单。一个人每天高质量输出的时间就 6 到 8 小时,加班加出来的昏庸判断反而浪费算力。

这可能就是 DeepSeek 抗得住动荡的底层原因。

V4 模型细节还没出,但轮廓已经比较清晰。

V4 可能有三个版本。V4 Lite 对应快速模式,V4 对应专家模式,还有一个 V4 Vision 原生多模态。4 月 8 日被扒出的前端代码里,「Vision」入口已经预留了位置。

技术架构是万亿参数 MoE(混合专家),每次推理激活约 370 亿参数,和 V3 一个量级。上下文窗口 100 万 tokens。

真正的干货是 1 月的两篇论文。

1 月 1 日的 mHC(流形约束超连接),梁文锋亲自署名,解决了模型越大训练越容易崩溃的老问题,让万亿参数级别变得可行。

1 月中旬的 Engram(条件记忆),是梁文锋和北大合作的另一篇论文。这篇把模型里的「字典」从昂贵的 HBM 高速显存搬到便宜的 CPU 内存里,用到的时候查表就行。

Engram-27B 的测试版,「大海捞针」准确率从 84.2% 跳到了 97%。1000 亿参数的嵌入表存到 DRAM(普通内存)里,吞吐量只下降了不到 3%。

这意味着 V4 不光不吃更多显存,甚至可以用便宜三四倍的 DRAM 顶上。

再配合国产芯片,这条路就通了。

从 2025 年 1 月 20 日发 R1 到现在,DeepSeek 接近 15 个月没发过一个大版本。

这段时间里,跳票三次,换了芯片底座,走了四个核心作者,崩了三天服务器。

但全世界还在等。

等 4 月下旬。

(转自:AI信息Gap)

相关推荐

连崩三天、核心离职、抛弃英伟达:DeepSeek V4 定档 4 月下旬!
DeepSeek V4 抛弃英伟达!GPT-6 也要来了?
V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标
DeepSeek火爆英伟达股价不淡定了
据最新爆料:DeepSeek V4和姚顺雨的新混元模型,将同时于下月发布
DeepSeek崩溃10小时,这是好事啊,梁文锋得为V4冲击波做好准备
国产算力大涨!V4给英伟达新一轮DS冲击?
DeepSeek vs 腾讯:一场对决,看清国产 AI 的两条突围路
Deepseek R1 推理实测:4 块英伟达 GB300 能干 16 块 H100 的活
微软、Meta都说“DeepSeek不影响”,英伟达可以松口气了吗?

网址: 连崩三天、核心离职、抛弃英伟达:DeepSeek V4 定档 4 月下旬! http://m.xishuta.cn/newsview148693.html

所属分类:行业热点