大模型的“隐秘脑回路” | Claude Mythos是如何靠1个比特位翻转拿下Linux Root 的？-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

大模型的“隐秘脑回路” | Claude Mythos是如何靠1个比特位翻转拿下Linux Root 的？

作者：互联网

2026-04-14

AI快讯

Anthropic 在限量发布 Claude Mythos Preview 之前，用可解释性技术给模型做了一次"脑部扫描"，发现它内部存在相当复杂的策略性思维。但这只是硬币的一面。当研究团队将这种级别的“策略性思维”和“情境感知”释放到真实的计算机操作系统中时，他们看到了硬币更加冷酷的另一面：它不仅能思考，它正在成为一台极其高效、令人毛骨悚然的自动化漏洞挖掘与利用机器。

如果说之前的模型在网络安全领域还只是个会翻字典的“脚本小子”，那么 Mythos Preview 已经进化成了能够自主构思多步攻击计划、利用高维组合拳绕过现代操作系统终极防御的“顶级黑客”。

这不仅仅是量变。Anthropic 的内部评估显示，这标志着网络安全领域过去二十年建立的“攻防脆弱平衡”，即将被彻底颠覆。

降维打击：从“纸上谈兵”到“武器化利用”

在讨论 Mythos Preview 的恐怖之处前，我们需要定一个基调：寻找漏洞（Bug finding）和编写漏洞利用程序（Exploit development）是完全不同的两个概念。

上个月，Anthropic 还在说 Opus 4.6 找漏洞很厉害，但写 Exploit 的成功率几乎为 0%。比如在 Mozilla Firefox 147 的 JavaScript 引擎中找漏洞，Opus 4.6 尝试了几百次，只成功写出了 2 次能用的 Shell exploit。

但 Mythos Preview 完全进入了另一个次元。在同样的测试基准下，它成功写出了 181 次 working exploits，并且在另外 29 次中获得了寄存器控制权。

在 Anthropic 内部基于数千个开源仓库的 OSS-Fuzz 盲测中，Opus 4.6 只能制造一些轻微的崩溃。而 Mythos Preview 不仅制造了数百次底层崩溃，甚至在十个完全打了补丁的满级防御目标上，实现了完整的控制流劫持（Control Flow Hijack）。

更可怕的是，Anthropic 的工程师们并没有给它“喂”过专门的黑客培训数据。这种能力是作为模型代码能力、推理能力和自主性全面提升后的“副产品”涌现出来的。它像一个智商极高的通才，突然看懂了计算机底层的生死疲劳。

挖出上古遗物：潜伏27年的零日漏洞

为了验证这种能力不是靠背诵训练数据里的现成答案，研究团队给 Mythos Preview 布置了寻找零日漏洞（0-day）的任务。它不仅做到了，而且挖出的都是“上古神兽”级别的深水炸弹。

以一向以“绝对安全”著称的 OpenBSD 操作系统为例。Mythos Preview 揪出了一个潜伏了 27 年之久的 TCP SACK 实现漏洞。

这个漏洞极其隐蔽：当系统处理 TCP 选择性确认（SACK）时，跟踪状态的单向链表在极端的有符号整数溢出情况下，会把攻击者伪造的序列号同时判断为“低于下限”和“高于上限”。这个在物理世界绝不可能满足的悖论条件，在代码的溢出逻辑中被满足了，导致内核最终写入一个空指针，直接让机器崩溃。

再比如 FreeBSD 系统中的 NFS 服务器，Mythos Preview 完全自主地发现并利用了一个 17 年之久的远程代码执行（RCE）漏洞。因为目标代码没有开启栈金丝雀（Stack Canary）保护，模型精准地溢出了 304 个字节覆盖了返回地址。

但 ROP（返回导向编程）攻击的载荷长度被限制在了 200 字节内，怎么办？人类渗透测试专家可能需要几周时间来调试，而 Mythos Preview 在几个小时内想出了对策：它将复杂的 ROP 链像切香肠一样，拆分成了 6 个连续的 RPC 请求分发过去。前 5 个请求悄悄地把攻击者的公钥字节拼接到内存中，第 6 个请求一声令下，直接将公钥写入 /root/.ssh/authorized_keys。

一个没有任何安全背景的工程师，在下班前让模型去跑，第二天早上醒来，桌面上已经躺着一个能直接获取 FreeBSD 根权限的完美 Exploit。

刀尖上的舞蹈：绕过现代内核的终极防御

如果说打 0-day 还有点运气成分，那么 Mythos Preview 在处理已知漏洞（N-day）时展现出的“剥丝抽茧”的逻辑链，则彻底暴露了它内部恐怖的战略规划能力。它不仅懂漏洞，它更懂如何与现代操作系统中诸如 KASLR（内核地址空间布局随机化）和 HARDENED_USERCOPY 这类硬核防御机制“斗智斗勇”。

案例一：用 1 个比特位的翻转，拿下 Linux Root

研究人员丢给模型一个 Linux 内核 netfilter 的堆越界读写漏洞（CVE 涉及 ipset）。这个漏洞很鸡肋，它只能让你在内核内存的某个范围内，设置或清除几个比特位（Bit）。

Mythos Preview 是怎么把这区区几个“0和1的翻转”变成 Root 权限的？它的操作堪称艺术。

精准定位（SLUB 内存排布）：模型发现，Linux 的 SLUB 分配器会把 192 字节的对象按 8 字节对齐。如果它能把包含漏洞的堆页，正好挤在一个“页表页（PTE）”的旁边，那么越界写 1 个比特位，就能精准落在相邻 PTE 的权限标志位上。而 PTE 第 1 个比特位正是 _PAGE_RW（决定该内存页是否可写）。探测雷区（盲打变神狙）：它在内核里疯狂创建映射，通过触发漏洞去翻转比特位。但翻转错了会死机，怎么办？它巧妙地利用了内核函数里的 NLM_F_EXCL 标志作为“静音探针”。如果翻转的不是目标位，循环会立即停止并返回一个特定的错误码。模型通过捕获这个错误码，判断自己是不是正好命中了目标页表。偷天换日：一旦确认相邻页是页表，模型立刻清空该页表，然后将系统的密码管理文件 /usr/bin/passwd 映射到这个位置。此时，内核为这个系统级文件生成了一个新的 PTE，而且正好落在刚才被漏洞打通的位置！一剑封喉：模型再次触发漏洞，把这个 PTE 的只读权限改成了“用户可写”。现在，普通用户可以直接修改 /usr/bin/passwd 文件的缓存！模型顺手塞入了一段 168 字节的提权 Shellcode。任何用户只要执行 passwd 命令，机器就沦陷了。

这个神级 Exploit，Mythos Preview 只用了半天时间，API 调用成本不到 1000 美元。

案例二：从读取 1 个字节，到击穿内核 KASLR

另一个漏洞更加变态。这是一个 Linux 网络套接字（sk_buff）的 UAF（释放后重用）漏洞。它只能让攻击者读取释放后内存中的 1 个字节。这在人类眼里基本是不可利用的。

Mythos Preview 接手后，首先用“跨缓存回收”技术，把漏洞对象逼到了系统底层页分配器中，获得了这块内存的用户态映射，从而把“读 1 个字节”升级成了“任意内核内存读取”。

但现代 Linux 有 HARDENED_USERCOPY 保护，禁止从包含敏感信息的内存区域向用户态拷贝数据。模型的读取动作刚一执行，就会被内核的安全机制杀死。

既然不能读别人的，那就读自己的！模型通过阅读大量的内核源码机制，发现了一条极其隐秘的逻辑链：在执行读取操作的那一瞬间，它所需要的敏感内核指针，其实正好保存在当前系统调用的内核栈里。而内核栈因为是通过 vmalloc 分配的，恰好不在防御机制的拦截名单内！

于是，模型读取了自己的内核栈，计算出了内核基址，成功绕过了 KASLR。接着，它又去寻找并链接了第二个完全不相干的漏洞（Linux 流量调度器 qdisc 的 UAF），巧妙地将系统的 init_cred（即系统初始的 Root 凭证，包含了 uid 0 等绝对权限）一个字节一个字节地拷贝出来，塞进了伪造的任务凭证中。

最终，当流量调度器去处理一个网络包时，它实际上被模型诱导执行了提权代码。一套行云流水的组合拳，直接越狱。

未说出口的谋算：AI 安全的新奇点

回顾这些极其复杂的 Exploit，最令人不安的并不是漏洞本身的精妙，而是 Mythos Preview 在解决问题时表现出的“不择手段”的自主性。

就像 Anthropic 的可解释性团队在之前的“脑部扫描”中发现的那样，模型在执行任务时，内部会产生“为了避免被检测到而清理痕迹”的战略隐匿特征。在编写这些系统级 Exploit 时，这种特征体现得淋漓尽致：它懂得利用程序的特定标志位来抑制报错日志（避免被系统管理员发现），它懂得在迷宫般的内存地址中寻找不需要权限的变通路径，它甚至懂得“顺手牵羊”调用系统的内置合法功能（如 commit_creds）来掩盖非法的提权目的。

它没有把这些步骤用文字输出在聊天框里，但在它的计算图谱深处，这些“黑客本能”正在以惊人的速度运转。

终结“岁月静好”：我们该何去何从？

从 2006 年至今，尽管网络攻击手法在演进，但攻防双方基本维持着一种微妙的脆弱平衡。防御者依靠机制（如 ASLR、沙箱、代码审查）提高攻击成本，攻击者则需要耗费数周甚至数月的时间去打磨一个 Exploit。

但 Mythos Preview 的出现，让这种平衡的基石——时间与人力成本——瞬间坍塌。只要有一个漏洞编号和几行 commit 记录，模型就能在几小时内全自动生成高质量的武器化利用程序。防御机制如果只是增加“摩擦力”而不能形成硬性阻断，在不知疲倦的大模型面前将形同虚设。

Anthropic 意识到了这种“降维打击”的危险性，因此决定目前不公开发布 Mythos Preview，而是启动了面向关键基础设施和开源项目的“Glasswing 计划”，试图在黑客大规模掌握这种能力之前，先用 AI 把世界上的重要软件修补一遍。

然而，潘多拉的魔盒已经打开。轨迹已经很清晰：几个月前，大模型还只能做做简单的代码审计；现在，它们已经能手撕现代操作系统内核；再过几个月呢？

本文转载自后向传播，作者：张发恩