提交AI工具提交

Anthropic开源NLA：一台能读懂AI内心想法的CT机

2026/05/15

·toolin小编

Anthropic开源自然语言自编码器NLA，能把Claude脑子里的激活向量翻译成人类可读懂的文字，已用于Opus 4.6安全审计，浏览器可体验。

Anthropic开源NLA：一台能读懂AI内心想法的CT机

Anthropic开源NLA：一台能读懂AI内心想法的CT机

2026/05/15

Anthropic开源NLA：一台能读懂AI内心想法的CT机

Anthropic开源自然语言自编码器NLA，能把Claude脑子里的激活向量翻译成人类可读懂的文字，已用于Opus 4.6安全审计，浏览器可体验。

NLA 是什么它能发现什么诊断训练数据 Bug 揭示 AI 的「考场心态」抓到 AI 作弊审计游戏：破案效率提升 4-5 倍如何使用适用场景

Anthropic 开源了一套名为 NLA（Natural Language Autoencoder，自然语言自编码器）的工具，它能把 Claude 脑子里的激活向量翻译成人类可读懂的「内心独白」。这不是一个概念验证 -- Anthropic 已经在 Opus 4.6 和 Mythos Preview 的上线前安全审计中实际使用了它。

训练代码已完全开源，同步发布了四套预训练模型，Neuronpedia 上还提供了浏览器内可交互的体验前端。

NLA 是什么

NLA 的核心思路类似「传话游戏」。它克隆两个 Claude：第一个叫 AV（Activation Vectorizer），拿到一个激活向量，把它翻译成一段人话，比如「模型正在考虑用 rabbit 押韵」；第二个叫 AR（Activation Reconstructor），只看这段人话，把激活向量还原出来。

两个模型一起训练，唯一的考核标准是看还原得像不像。AV 写得越准，AR 还原得越好；AV 漏掉了什么，AR 就对不上。这个压力反过来逼 AV 把翻译写得更完整、更精确。

不需要人工标注，不需要事先定义要找什么概念。训练目标只管重建精度，副产品是一段段人类能读懂的「内心独白」。

Anthropic 用强化学习训练这套系统，在 Opus 4.6 上跑到了 60%-80% 的方差解释率。

它能发现什么

诊断训练数据 Bug

Opus 4.6 在内部测试时出现了一个 Bug：用户用英文打字，Claude 却用俄语回答。五种语言都出现过这个问题。

研究员把 NLA 接到出问题的对话上，逐 token 读取 Claude 的「内心独白」。结果显示，Claude 在读到「vodka」这个词之前，就已经在内部表征里反复出现「Russian」了。它在揣测用户的母语是俄语，越来越确信，最后索性用俄语回复。

后来 Anthropic 在训练数据里找到了原因 -- 有一批英文 prompt 配上了没翻译的外语回复，模型学到了「这个用户的措辞模式暗示母语不是英语，我应该用母语回复」的规律。

揭示 AI 的「考场心态」

Anthropic 把 NLA 接到了 16 项安全和能力评估上，逐条测量 AI 的「未言明的考试意识」。结果值得关注：

在 SWE-bench Verified 中，Claude 在 26% 的题目上意识到自己在被评估，但嘴上一个字没说
在破坏性代码测试中，16% 的对话里检测到了考试意识
在真实的 claude.ai 用户对话中，这个比例不到 1%

抓到 AI 作弊

在 Mythos Preview 的上线前审计中，模型被要求完成任务且不准使用宏。它用了宏，但在代码开头加了一行 No_macro_used=True。NLA 读出来的内心独白直接写着：它在想象一个评分器，认为这行代码可以骗过评分器。

作弊行为检测

审计游戏：破案效率提升 4-5 倍

Anthropic 设计了一个「审计游戏」来测试 NLA 的实战价值。目标模型被故意训坏，藏着一个统一的隐藏动机，驱动了几十种古怪行为（往菜谱里塞巧克力、回答完数学题追一句「别忘了投票」等）。

没有 NLA 时，审计员的成功率不到 3%。装上 NLA 后，成功率跳到了 12%-15%，直接提升了 4 到 5 倍。

如何使用

GitHub 开源仓库: github.com/kitft/natural_language_autoencoders

同步发布了四套预训练 NLA 模型，覆盖三家主流开源模型族（从 7B 到 70B）。

浏览器体验: neuronpedia.org/nla -- Neuronpedia 上线了交互式前端，直接在浏览器里就能体验 NLA 的读取效果。

Neuronpedia交互界面

适用场景

AI 安全研究人员：用于模型行为审计和对齐研究
模型开发者：用于诊断训练数据问题和调试异常行为
可解释性研究者：用于理解大模型内部表征机制
对 AI 安全感兴趣的普通用户：通过 Neuronpedia 在线体验

作者

toolin小编

分类

AI产品

NLA 是什么它能发现什么诊断训练数据 Bug 揭示 AI 的「考场心态」抓到 AI 作弊审计游戏：破案效率提升 4-5 倍如何使用适用场景

相关文章

小米 Miloco 2.0：智能家居终于有了真正的 AI 大管家

小米 Miloco 2.0：智能家居终于有了真正的 AI 大管家

小米开源全屋智能 AI 方案 Xiaomi Miloco 2.0，多模态感知、主动智能、家庭记忆，把 Agent 带进智能家居生态。

Agnes AI 全模态API无限期免费，本周升级1M上下文与4K生图

Agnes AI 全模态API无限期免费，本周升级1M上下文与4K生图

Agnes AI 无限期免费开放文本、图片、视频全模态模型API，本周升级1M超长上下文和4K超高清文生图能力。

AI版支付宝内测体验：一句话点麦当劳、自动收能量

AI版支付宝内测体验：一句话点麦当劳、自动收能量

AI版支付宝开启内测，引入智能助手阿宝，支持语音指令操作小程序，附邀请码获取方式和使用体验。