Circuit Tracer 是 Anthropic 推出的开源工具,用在研究大型语言模型的内部工作机制。Circuit Tracer 基于生成归因图(attribution graphs)揭示模型在生成特定输出时内部所经历的步骤。归因图能帮助研究人员追踪模型的决策过程、可视化特征之间的关系,测试不同的假设。Circuit Tracer 支持多种流行的开源模型,如 和,基于 Neuronpedia 提供交互式可视化界面,方便用户探索和分析模型行为。

Circuit Tracer – Anthropic开源的AI模型内部决策追踪工具  第1张
(图片来源网络,侵删)
Circuit Tracer – Anthropic开源的AI模型内部决策追踪工具  第2张
(图片来源网络,侵删)