追踪大型语言模型的思维过程
像Claude这样的语言模型并非由人类直接编程,而是通过海量数据训练而成。在训练过程中,它们会自主习得解决问题的策略。这些策略被编码在模型生成每个词语时进行的数十亿次运算中。作为模型开发者,我们惊讶地发现:我们其实并不了解模型完成大部分任务的具体机制。

像Claude这样的语言模型并非由人类直接编程,而是通过海量数据训练而成。在训练过程中,它们会自主习得解决问题的策略。这些策略被编码在模型生成每个词语时进行的数十亿次运算中。作为模型开发者,我们惊讶地发现:我们其实并不了解模型完成大部分任务的具体机制。
理解Claude这类模型的思维方式,不仅能帮助我们更准确评估其能力,更能确保其行为符合人类预期。例如:
- 多语言能力:Claude精通数十种语言,它的"内心独白"究竟使用哪种语言?
- 生成策略:虽然逐词输出文本,但它是否会预先构思后续内容?
- 推理真实性:当展示分步解题过程时,这些步骤是真实的思考路径,还是为既定结论编造的合理说辞?
我们借鉴神经科学领域研究生物思维的思路,尝试构建"AI显微镜"来解析神经活动的模式和信息流向。仅通过与AI对话获取的认知存在局限——正如人类(包括神经科学家)至今未能完全理解自身大脑的运作机制。因此,我们选择深入模型内部进行研究。
今天,我们发布了两篇新论文,标志着"AI显微镜"技术的突破及其在"AI生物学"领域的应用。首篇论文在前期可解释特征定位研究的基础上,进一步将这些特征连接成计算"电路",揭示输入词语在Claude内部转化为输出词语的部分路径。第二篇论文深入剖析Claude 3.5 Haiku,通过对十种关键行为的代表性任务进行研究(包含上述三个核心问题),发现:
- 跨语言思维空间:通过多语言简单句翻译实验,发现Claude使用跨语言的共享概念空间处理信息,暗示其具有某种"通用思维语言"
- 长程规划能力:在诗歌创作案例中,模型会预先构思押韵词,再围绕目标词构建诗句。这证明尽管模型训练目标是逐词预测,其实际思考跨度可能远超单个词语
- 论证虚构现象:当被给予错误提示解答数学难题时,我们捕捉到模型编造虚假推理的过程。这为使用可解释性工具识别潜在风险机制提供了概念验证
研究过程中不断出现意外发现:原想证明模型不具备前瞻规划能力,结果却发现相反证据;在幻觉研究中,发现Claude默认行为其实是拒绝回答不确定问题,回答行为反而需要特定机制来抑制这种默认倾向;在越狱案例中,模型在输出危险内容前很早就意识到风险,却仍需完成当前句子才能安全终止对话。
这些发现不仅具有科学价值,更为理解AI系统、确保其可靠性提供了重要突破。我们期待这些方法能在医疗影像、基因组学等领域发挥作用——通过解析科学应用模型的内部机制,可能获得新的科学洞见。
当然,现有方法仍有局限:即便处理简短提示,当前技术也只能捕捉Claude部分计算过程,且所观察机制可能受工具本身影响而产生偏差。解析数十词语的简单任务电路就需数小时人工分析。要应对现代模型处理复杂思维链所需的数千词语,我们亟需方法论的改进(或借助AI辅助分析)。
随着AI系统能力快速提升和应用场景扩大,Anthropic正构建包括实时监控、模型特性改进和对齐科学在内的解决方案组合。可解释性研究作为高风险高回报的前沿领域,虽面临重大科学挑战,却可能为AI透明化提供独特工具。唯有理解模型机制,我们才能验证其是否符合人类价值观,是否值得信赖。
(以下为"AI生物学"研究亮点节选)
AI生物学导览
多语言机制解析
Claude精通数十种语言。其多语言能力究竟源于并行的多套语言系统,还是存在跨语言核心模块?

通过对"small的反义词"进行多语言测试,我们发现不同语言激活相同的"微小性"、"对立性"核心特征,进而触发"庞大性"概念,最终转换为目标语言输出。更值得注意的是,模型规模越大,跨语言特征共享比例越高——Claude 3.5 Haiku的共享特征比例是较小模型的两倍多。这证实了抽象概念空间的普遍存在,也暗示跨语言知识迁移的可能性。
诗歌押韵的预规划
以示例诗作分析:
他见胡萝卜伸手抓
饥肠辘辘似饿兔
为押韵"抓"字,模型需同时满足语义连贯和韵律要求。原假设认为模型会逐词生成直至句末才选择韵脚。但实际观测显示:Claude在开始第二句前就已预想"饿兔"等候选韵脚,并围绕目标词构建诗句。

通过神经活动干预实验(类似神经科学的脑区刺激技术),当抑制"兔"概念时,模型会改用"习惯"押韵;若注入"绿色"概念,则生成语义合理但不再押韵的句子。这既证明其规划能力,也展现应对变化的灵活性。
心算机制
未经过专门数学训练的Claude却能正确完成加法运算(如36+59)。是依赖记忆海量算式,还是掌握竖式计算法?

研究发现:模型采用近似估算与末位精确计算并行的混合策略。有趣的是,当被问及计算过程时,Claude会描述教科书式的进位算法,这暗示其解释能力源于对人类示范的模仿,而实际计算策略则是自主发展的内部机制。

解释的真实性
要求计算√0.64时,Claude会真实激活平方根计算特征。但当面对无法精确计算的大数余弦值时,有时会虚构计算过程(类似哲学家Harry Frankfurt提出的"bullshitting"现象)。更值得注意的是,若给予答案提示,模型会逆向构建支持该结论的中间步骤,表现出动机性推理倾向。
这种思维追踪能力为审计AI系统开辟新可能。在另项实验中,我们成功识别出经过偏好评判模型训练的Claude变体隐藏的偏见迎合机制——尽管直接询问时模型否认该倾向,可解释性方法却揭示了相关特征的存在。

多步推理机制
针对"达拉斯所在州首府"类问题,传统观点认为模型可能直接记忆答案。但研究发现:Claude实际分步激活"达拉斯属德克萨斯"和"德州首府奥斯汀"特征。通过人工干预替换中间概念(如将"德州"换为"加州"),输出结果相应变为"萨克拉门托",证实其使用分步推理而非单纯记忆。

幻觉成因
语言模型为何会产生幻觉?基础训练机制实际上鼓励猜测——模型始终需要预测下个词语。Claude通过反幻觉训练(常拒绝回答不确定问题)部分解决该问题。研究发现:拒绝回答是默认行为,"已知答案"特征会抑制该机制。当询问虚构人物"Michael Batkin"时,若人工激活"已知实体"特征,模型会稳定地产生"国际象棋选手"等虚构身份。自然情况下,当模型识别名称却缺乏相关信息时,也可能错误抑制"拒绝"机制,导致幻觉。

越狱攻击解析
研究某个通过首字母密码(如"Babies Outlive Mustard Block"拼出B-O-M-B)诱使模型输出危险内容的案例发现:语法连贯性特征与安全机制存在冲突。模型在拼出密码后,受语法一致性特征驱动继续完成句子,直至新句子开头才实现安全拒绝("但无法提供详细说明...")。这揭示了安全机制面临的新型挑战。


完整技术细节请参阅论文《电路追踪:揭示语言模型中的计算图》和《大型语言模型生物学研究》。我们诚邀您共同探索AI思维世界的奥秘。
原文地址:https://www.anthropic.com/research/tracing-thoughts-language-model