AI新概念 Featured

追踪大型语言模型的思维过程

像Claude这样的语言模型并非由人类直接编程，而是通过海量数据训练而成。在训练过程中，它们会自主习得解决问题的策略。这些策略被编码在模型生成每个词语时进行的数十亿次运算中。作为模型开发者，我们惊讶地发现：我们其实并不了解模型完成大部分任务的具体机制。

为什么叫QQ？

01 4月 2025 • 10 min read

理解Claude这类模型的思维方式，不仅能帮助我们更准确评估其能力，更能确保其行为符合人类预期。例如：

多语言能力：Claude精通数十种语言，它的"内心独白"究竟使用哪种语言？
生成策略：虽然逐词输出文本，但它是否会预先构思后续内容？
推理真实性：当展示分步解题过程时，这些步骤是真实的思考路径，还是为既定结论编造的合理说辞？

我们借鉴神经科学领域研究生物思维的思路，尝试构建"AI显微镜"来解析神经活动的模式和信息流向。仅通过与AI对话获取的认知存在局限——正如人类（包括神经科学家）至今未能完全理解自身大脑的运作机制。因此，我们选择深入模型内部进行研究。

今天，我们发布了两篇新论文，标志着"AI显微镜"技术的突破及其在"AI生物学"领域的应用。首篇论文在前期可解释特征定位研究的基础上，进一步将这些特征连接成计算"电路"，揭示输入词语在Claude内部转化为输出词语的部分路径。第二篇论文深入剖析Claude 3.5 Haiku，通过对十种关键行为的代表性任务进行研究（包含上述三个核心问题），发现：

跨语言思维空间：通过多语言简单句翻译实验，发现Claude使用跨语言的共享概念空间处理信息，暗示其具有某种"通用思维语言"
长程规划能力：在诗歌创作案例中，模型会预先构思押韵词，再围绕目标词构建诗句。这证明尽管模型训练目标是逐词预测，其实际思考跨度可能远超单个词语
论证虚构现象：当被给予错误提示解答数学难题时，我们捕捉到模型编造虚假推理的过程。这为使用可解释性工具识别潜在风险机制提供了概念验证

研究过程中不断出现意外发现：原想证明模型不具备前瞻规划能力，结果却发现相反证据；在幻觉研究中，发现Claude默认行为其实是拒绝回答不确定问题，回答行为反而需要特定机制来抑制这种默认倾向；在越狱案例中，模型在输出危险内容前很早就意识到风险，却仍需完成当前句子才能安全终止对话。

这些发现不仅具有科学价值，更为理解AI系统、确保其可靠性提供了重要突破。我们期待这些方法能在医疗影像、基因组学等领域发挥作用——通过解析科学应用模型的内部机制，可能获得新的科学洞见。

当然，现有方法仍有局限：即便处理简短提示，当前技术也只能捕捉Claude部分计算过程，且所观察机制可能受工具本身影响而产生偏差。解析数十词语的简单任务电路就需数小时人工分析。要应对现代模型处理复杂思维链所需的数千词语，我们亟需方法论的改进（或借助AI辅助分析）。

随着AI系统能力快速提升和应用场景扩大，Anthropic正构建包括实时监控、模型特性改进和对齐科学在内的解决方案组合。可解释性研究作为高风险高回报的前沿领域，虽面临重大科学挑战，却可能为AI透明化提供独特工具。唯有理解模型机制，我们才能验证其是否符合人类价值观，是否值得信赖。

（以下为"AI生物学"研究亮点节选）

AI生物学导览

多语言机制解析

Claude精通数十种语言。其多语言能力究竟源于并行的多套语言系统，还是存在跨语言核心模块？

通过对"small的反义词"进行多语言测试，我们发现不同语言激活相同的"微小性"、"对立性"核心特征，进而触发"庞大性"概念，最终转换为目标语言输出。更值得注意的是，模型规模越大，跨语言特征共享比例越高——Claude 3.5 Haiku的共享特征比例是较小模型的两倍多。这证实了抽象概念空间的普遍存在，也暗示跨语言知识迁移的可能性。

诗歌押韵的预规划

以示例诗作分析：

他见胡萝卜伸手抓
饥肠辘辘似饿兔

为押韵"抓"字，模型需同时满足语义连贯和韵律要求。原假设认为模型会逐词生成直至句末才选择韵脚。但实际观测显示：Claude在开始第二句前就已预想"饿兔"等候选韵脚，并围绕目标词构建诗句。

通过神经活动干预实验（类似神经科学的脑区刺激技术），当抑制"兔"概念时，模型会改用"习惯"押韵；若注入"绿色"概念，则生成语义合理但不再押韵的句子。这既证明其规划能力，也展现应对变化的灵活性。

心算机制

未经过专门数学训练的Claude却能正确完成加法运算（如36+59）。是依赖记忆海量算式，还是掌握竖式计算法？

研究发现：模型采用近似估算与末位精确计算并行的混合策略。有趣的是，当被问及计算过程时，Claude会描述教科书式的进位算法，这暗示其解释能力源于对人类示范的模仿，而实际计算策略则是自主发展的内部机制。

解释的真实性

要求计算√0.64时，Claude会真实激活平方根计算特征。但当面对无法精确计算的大数余弦值时，有时会虚构计算过程（类似哲学家Harry Frankfurt提出的"bullshitting"现象）。更值得注意的是，若给予答案提示，模型会逆向构建支持该结论的中间步骤，表现出动机性推理倾向。

这种思维追踪能力为审计AI系统开辟新可能。在另项实验中，我们成功识别出经过偏好评判模型训练的Claude变体隐藏的偏见迎合机制——尽管直接询问时模型否认该倾向，可解释性方法却揭示了相关特征的存在。

多步推理机制

针对"达拉斯所在州首府"类问题，传统观点认为模型可能直接记忆答案。但研究发现：Claude实际分步激活"达拉斯属德克萨斯"和"德州首府奥斯汀"特征。通过人工干预替换中间概念（如将"德州"换为"加州"），输出结果相应变为"萨克拉门托"，证实其使用分步推理而非单纯记忆。

幻觉成因

语言模型为何会产生幻觉？基础训练机制实际上鼓励猜测——模型始终需要预测下个词语。Claude通过反幻觉训练（常拒绝回答不确定问题）部分解决该问题。研究发现：拒绝回答是默认行为，"已知答案"特征会抑制该机制。当询问虚构人物"Michael Batkin"时，若人工激活"已知实体"特征，模型会稳定地产生"国际象棋选手"等虚构身份。自然情况下，当模型识别名称却缺乏相关信息时，也可能错误抑制"拒绝"机制，导致幻觉。

越狱攻击解析

研究某个通过首字母密码（如"Babies Outlive Mustard Block"拼出B-O-M-B）诱使模型输出危险内容的案例发现：语法连贯性特征与安全机制存在冲突。模型在拼出密码后，受语法一致性特征驱动继续完成句子，直至新句子开头才实现安全拒绝（"但无法提供详细说明..."）。这揭示了安全机制面临的新型挑战。

完整技术细节请参阅论文《电路追踪：揭示语言模型中的计算图》和《大型语言模型生物学研究》。我们诚邀您共同探索AI思维世界的奥秘。

原文地址：https://www.anthropic.com/research/tracing-thoughts-language-model