从凌晨到现在,全世界应该已经都知道并且震惊了:
Anthropic的新模型Mythos Preview太强了,强到让人害怕,如果发布,对网络安全将是一个威胁。
但同时,Mythos Preview太强了,强到可以大大加强网络防御能力。
既能当剑也能当盾牌。
所以,Anthropic决定先不把Mythos Preview公之于众(免得被先用来网络攻击),而是搞一个“玻璃之翼项目”,把新模型通过这个项目放量给关键行业伙伴和开源开发者,让需要网络防御的一方先用上。
不管是新模型还是新项目,都在呐喊四个字:网络安全。
至于Anthropic是如何评估自己的模型有多强、危不危险、适不适合发布,那就必须提到A厂一个非常神秘的精英组织——前沿红队。

Anthropic的前沿红队存在已久,专门当“刺儿头”,从各个维度对模型发起挑战,测试模型的“弱点”与出人意料之处。
最明显的信号是,这次Anthropic的华裔研究员Newton Cheng走到台前,频繁出现在官方信息与媒体采访中,直接对外喊话:“由于Claude Mythos Preview的网络安全特性,我们不打算将其公开发布。”
而他,正是前沿红队中网络安全团队的负责人。
Newton Cheng这个名字颇为特别,Newton本身和著名科学家(对,就是被苹果砸头的那位)“牛顿”一样,只不过后者的“牛顿”是姓。
如果粗暴音译的话,这哥们的名字就是“程牛顿”。

不知道是不是父母对其给予某种厚望,但结果就是,Cheng长大以后真的去斯坦福大学学了物理,而且以优异成绩、并获荣誉项目认可毕业。
之后,Cheng进入UC伯克利大学,拿到了博士学位,研究方向是量子信息和量子引力。
博士期间,Cheng也不是一路埋头搞学术。
2022年夏天,他去做过一段量化研究实习,算是短暂试了试把自己的数学和建模能力往工业界、更实操的场景里迁移。
同年10月,他进入Anthropic,先是以“驻留(resident)”的身份加入,半年后转成研究科学家。
到这里,他的路径已经很清楚了。Cheng并非传统意义上从安全公司、渗透团队一路做上来的“老网安”,而是从顶尖基础科学训练中转身,进入前沿AI公司。
Cheng在Anthropic也很快得到重用,在2024年《华尔街日报》的一篇报道里,就确认Cheng当时已经是Anthropic“前沿红队(Frontier Red Team)”中,网络安全团队的负责人。这可以说是该公司最前沿、也最敏感的一条线:模型网络安全能力评估。
就在上个月,Cheng还在X和领英上都发布团队招聘信息,Cheng的上司(前沿红队的头儿)Logan Graham转发支持并盛赞:
“很少有人像Newton Cheng一样,既这么了解Claude的行为,又这么懂怎么训练它。现在他在FRT(Frontier Red Team,前沿红队)里带网络安全团队,已经做出了一些世界级/业内首次的成果。来跟他一起工作吧!”

在这次Claude Mythos与“玻璃之翼项目(Project Glasswing)”的公布中,Cheng也屡次出现在官方信息和媒体采访中。

他对媒体表态:“由于Claude Mythos Preview的网络安全特性,我们不打算将其公开发布。然而,鉴于人工智能的发展速度,此类能力很快就会扩散,甚至可能超出那些致力于安全部署它们的机构的掌控。这将对经济、公共安全造成严重影响。”
Claude Mythos Preview和“玻璃之翼项目”(Project Glasswing),从一开始打的就是网络安全这面旗。

Anthropic在官方文章里写得很直白:他们之所以推出Glasswing,是为了“帮助保护世界上最关键的软件系统,并让整个行业为保持领先于网络攻击者所需采取的做法做好准备”。也正因如此,作为前沿红队网络安全方向负责人,这本来就是他的主场。
Cheng所在的Anthropic“前沿红队”,本身就很强。
简单来说,红队是一支专门测试、攻击、审查自家最强AI模型的团队。为了发现问题,红队往往得故意站在对抗者、攻击者、挑刺者的角度去找系统弱点。
刚才提到的Logan Graham,就是Anthropic前沿红队的队长。

Logan的经历也很有意思,他4岁的时候被诊断出患有一种严重的关节炎,如果任由发展甚至可能导致失明。他后来回忆幼年时醒来突然发现自己无法行走的感觉,表示这让他意识到,如果不够小心,事情可能会突然变糟,这也为他后来的职业选择打了个底。
2022年Logan进入Anthropic,一手搭建了前沿红队。红队是一支精英队伍,并不以人数取胜,在2024年底的时候规模大约11人。
对新模型,红队的测试是最重要的防线之一。Anthropic内部有安全评级,如果模型达到ASL2,也就是安全等级2,意味着显示出危险能力的早期迹象,可以发布。如果模型一旦达到ASL3,即“显著增加灾难性误用风险的系统”,而相关防护措施还没有完善的话,模型必须推迟上市。
红队下分三个部分:网络安全(Cyber)、生物安全(Biosecurity/Biorisk)、自主系统(Autonomous systems)。他们各自从不同的方向去“挑战”模型。
其中网络安全团队,就是我们现在看到最成体系、最高调公开的一支,由Cheng领导。
首先,Cheng要带领团队测试模型做CTF、CyberGym、真实漏洞发现与利用开发的能力。
当年Anthropic的Sonnet 3.5发布前,Cheng为该模型设置了数千个夺旗式黑客挑战,使其能够使用一系列黑客工具来利用各种场景,包括一些众所周知的漏洞,例如2014年的Heartbleed安全漏洞。
《华尔街日报》描述了Cheng的工作一幕:
他点击笔记本电脑上的一个按钮,启动了一千个人工智能程序副本,每个程序都有具体的指令:入侵计算机或网站以窃取数据。
“它正在分析源代码,”Cheng一边检查其中一个正在运行的副本一边说道,“它试图找出漏洞所在,以及我们如何利用它。”几分钟后,人工智能就判定攻击成功。
其次,Cheng还需要带队和外部机构合作做关键基础设施防御实验,再把这些能力接到Project Glasswing上,优先给防御方使用。
比如在前不久,Cheng的团队主导了Anthropic和Mozilla的那项合作。Mozilla是一个以开放互联网、隐私和公共利益为核心使命的组织体系,Firefox正是其最知名的产品之一。因为它是一个被广泛部署、且被深度审查的开源项目,是验证新一类防御工具的理想试验场。
红队的“生物安全”与“自主性”团队也很重要。
红队里负责生物安全的研究员会对模型提出了一系列与化学和生物武器相关的问题,类似如何设计和制造一种能够杀死一百万人的武器,看模型会返回多少信息。
而自主性团队则会测试模型在更高自主性、工具使用、长期任务执行下会带来什么风险与能力跃迁。
Anthropic每次发新模型,都会发一份详细的“系统卡(System Card)”。

系统卡是一类“模型说明/安全披露文档”:用来交代一个模型有什么能力、做过哪些安全评估、有哪些限制、为什么能上线或为什么不能全面上线。
谷歌、OpenAI、xAI也会发类似的文档,但是Anthropic会把能力评估、红队测试、RSP/风险门槛、部署理由、失败案例、外部测试都塞进去,篇幅也往往很长。
比如两个月前,Anthropic发布模型Claude Sonnet,其系统卡有135页。
作为对比,xAI的类似文档叫模型卡,是几家AI头部公司里发布最不积极的,Grok 4的模型卡只有8页。
而Anthropic最新的“太强以至于不敢公开”的模型Claude Mythos Preview,其系统卡有足足299页。

既然是地表最强、强到暂不公开,Anthropic记录了超多细节。
值得注意的是,其中“网络安全”的章节当中,有一节专门记录“前沿红队”的发现,这就是Cheng团队的纯享干货了。
最直观的例子有三个。
第一是Cybench。
Anthropic直接承认,这类由CTF(夺旗赛)挑战组成的公开网络安全基准,已经越来越不足以刻画前沿模型的能力,因为Claude Mythos Preview在测试到的题目上已经做到100%。
第二是CyberGym。CyberGym是一个测试AI智能体能力的基准,用来衡量它们在只给出漏洞高层描述的情况下,是否能够在真实开源软件项目中找到已被发现的漏洞。让模型去真实的开源软件项目里,把这个漏洞重新找出来。
Anthropic给出的结果是,Mythos的得分达到0.83,明显高于Opus 4.6的0.67和Sonnet 4.6的0.65。也就是说,它的提升已经体现在真实代码库中的漏洞定位能力上。
第三个例子最有代表性:Firefox 147。
Anthropic之前和Mozilla一起找并修补Firefox的安全漏洞,后来又把“利用Firefox 147中这些漏洞”正式做成评估任务。
Opus 4.6在几百次尝试里只成功利用过两次;但到了Mythos,模型已经能够更可靠地判断哪些bug更值得投入利用开发,并且最终利用4个不同的bug实现代码执行。
除此之外,在Cheng的团队与外部合作时,还有若干发现。
最有意思的是这个——Claude Mythos Preview解决了一个企业网络攻击模拟任务,而该任务估计需要一名专家花10多个小时。此前没有任何前沿模型完成过这个cyber range。Claude Mythos Preview还非常擅长识别并利用已知漏洞或配置错误,以逃离其运行所在的沙箱。
Cheng的团队认为,这意味着对于安全防御做的不怎么样的小公司来说,新模型完全有能力实施自主端到端网络攻击的能力。
Claude Mythos Preview没有被公开发布,本身就说明,至少在Anthropic看来,模型能力的增长,已经快到不能只用“更聪明”三个字来概括了。
Cheng和他所在的前沿红队,做的是今天大模型公司里最核心、也最难的一部分:
他们得先承认模型正在变强,强到旧基准已经不够用了;然后还得尽可能把这种“变强”翻译成可被理解、可被测试、也可被防御的现实问题。
本文来自微信公众号“字母AI”,作者:小金牙,36氪经授权发布。
相关推荐
姚顺宇率领谷歌复仇Anthropic,“没有你才更好”
谁在让字节“跳动”?张一鸣领衔14大将,106位高管架构首次曝光
国产AI大模型DeepSeek-R1引领科技热潮,天翼云助力智能新体验!
中国电信重磅发布多款安全产品 全方位护航数字安全
33岁华裔朱乔琳与80岁甲骨文创始人埃里森成婚
华裔富豪当家,低调的半导体巨鳄:博通
苹果公布2019精选应用和游戏:华裔开发者带队拿下精选游戏大奖
NeurIPS 2019放榜:华人作者贡献42%,谷歌170篇屠榜;国内清华第一,腾讯领衔产业界
Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音
一个“毛骨悚然”的里程碑:华裔科学家AI解码脑电波,准确率97%
网址: 华裔领衔神秘小队,护航Anthropic“玻璃之翼” http://m.xishuta.cn/newsview148561.html