首页 > 科技快讯 > “在飞行中的飞机上更换引擎”：DeepSeek V4与华为昇腾芯片的历史性对接令世界屏息

“在飞行中的飞机上更换引擎”：DeepSeek V4与华为昇腾芯片的历史性对接令世界屏息

晰数塔互联网快讯
2026-04-27 00:53

（来源：奔赴新闻）

4月24日，DeepSeek V4 的预览版本正式上线并同步开源。同日，OpenAI发布GPT-5.5。两大模型隔空对决，这是令世界瞩目的一刻。

当天GPU指数盘中直线拉升，截至午盘，海光信息大涨超9%、龙芯中科、中芯国际、通富微电、寒武纪、摩尔线程等个股纷纷跟涨。市场以最敏感的资产价格变化回应了这个时刻。

但或许更应该被记住的，不是股价的涨跌，而是这一事件的本质：全球范围内，首次有一个万亿参数级别的顶级大模型，完全跑在英伟达CUDA生态之外。底层代码全面转向华为CANN框架，DeepSeek首次在官方技术报告中把华为昇腾NPU和英伟达GPU写进了同一份硬件验证清单。

2026年4月24日，DeepSeek深度求索正式发布全新系列模型DeepSeek-V4预览版，并同步开源。图源：IC photo

这不止是一个模型的迭代，而是一场关于AI算力格局的重新洗牌。

蝴蝶效应一：

“去英伟达化”

英伟达CEO黄仁勋在V4发布前十天的一档播客中直言：如果顶尖AI模型被优先优化用于华为芯片而非英伟达平台，“对我们而言将是灾难性的”。这句话在DeepSeek V4正式上线、华为昇腾率先宣布适配之后，显得尤其意味深长。

图源：IC photo

短期来看，V4对英伟达的冲击主要体现在生态信心层面。英伟达当天紧急发文宣布V4已在Blackwell平台完成适配，但首发被华为抢去的现实已经传递了一个信号：CUDA生态不再是通往顶级模型的唯一入口。

定价逻辑的差异则更加犀利。V4的API定价只有英伟达平台同类服务的数十分之一——这个价差不能简单归因于硬件成本差异，更是模型工程优化所带来的全链路效率提升。在成本敏感的大规模推理部署场景中，“便宜50倍”这个事实，本身就是对英伟达商业模型的最大挑战。

然而，冲击也有明确的边界。在单卡绝对算力、训练效率、CUDA生态的开发者惯性上，英伟达仍然占据压倒性优势。昇腾当前最有力的区域是“推理侧”，而非训练侧。而2026年AI推理计算需求预计将达到训练需求的4至5倍，到2028年推理工作负载占比预计将达到73%。这是一个体量巨大且在加速膨胀的市场——昇腾联手DeepSeek杀入的，正是英伟达未来营收增长的战略腹地。

蝴蝶效应二：

用“性价比”另辟蹊径

完整版1.6万亿参数、百万token上下文、Agent能力开源领先。V4真正的分量，不在于跑赢了谁，而在于“怎么跑赢的”。

这次V4的定价清清楚楚地写着：Flash版输入1元/百万token、输出2元，Pro版输入12元、输出24元。同期GPT-5.4和Claude Opus 4.6的调用成本，大约是V4的50倍。这种价差已经不能用“性价比竞争”来解释了——它本质上指向一个根本性的改变：算力成本曲线的陡峭下降，正在让“价格”本身成为一种技术杠杆。

在深度求索的官方推文中有一张关于算力的表格，一行并不起眼的灰色小字才是让黄仁勋最焦虑的地方。这里梁文峰不仅是在单纯表述，下半年华为昇腾950超节点批量上市后，价格会进一步下降。其深层含义是，DeepSeek已经真切地选择了和国产算力，选择了和华为昇腾进行深度耦合。

前几代产品已经在印证这条曲线——V2训练成本降至GPT-4 Turbo的七十分之一，V3降至GPT-4的十四分之一，R1降至二十分之一，V4继续把这条线往下拉。

这意味着什么？意味着未来的算力竞争，筹码不再只掌握在英伟达手里。当一个顶级模型能够用更少的资源完成同样的任务，对“最强芯片”的路径依赖就会被打破。用DeepSeek创始人梁文锋内部透露的话说，V4从英伟达生态搬到了华为芯片上，相当于“在一架飞行中的飞机上更换引擎”。难度极高，但一旦完成，就是生态层面的根本性迁移。

蝴蝶效应三：

国产算力生态崛起

DeepSeek最终选择华为，不是技术浪漫主义的产物，而是理性权衡后的必然。

华为昇腾并非临时接招——过去数年持续迭代了从910C到950PR、再到规划中的960和970的完整路线图。昇腾910C采用中芯国际7nm工艺，FP16算力达800 TFLOPS，推理性能约为英伟达H100的60%。950PR首次支持FP8/FP4低精度格式，FP8算力达到1 PFLOPS，在推理场景下已展现出实际竞争力。

图源：小红书网友@大核桃、@嘻嘻不是王

单颗昇腾芯片与英伟达GB200之间确实存在差距，但华为没有在这条赛道上硬拼“单卡之王”，而是转向了系统工程思维：通过高速互联将大量相对单颗算力稍弱的芯片组成大规模集群，以规模弥补代差。以华为384集群与英伟达NVL72对比，单个384集群的BF16总体性能达到后者的1.7倍。这种策略用一句话概括：在一个无法单挑的时代，用群殴赢下战争。

V4的技术报告里，真正值得反复咀嚼的亮点不是参数表上那些天文数字，而是一组容易被忽略的数据：在昇腾950PR上的推理速度较初期版本提升35倍，能耗降低40%。

DeepSeek和华为在“算法效率”这件事上，有着共同的底层逻辑。DeepSeek靠的是算法设计把计算量打下来，华为靠的是系统架构把资源利用率提上去。两者的结合，实质上是“如何跑赢算力瓶颈”这一命题下的同路人。