Circuit Tracer – Anthropic开源的AI模型内部决策追踪工具

baidu09_com 2025-08-28 4 0

Circuit Tracer 是 Anthropic 推出的开源工具，用在研究大型语言模型的内部工作机制。Circuit Tracer 基于生成归因图（attribution graphs）揭示模型在生成特定输出时内部所经历的步骤。归因图能帮助研究人员追踪模型的决策过程、可视化特征之间的关系，测试不同的假设。Circuit Tracer 支持多种流行的开源模型，如和，基于 Neuronpedia 提供交互式可视化界面，方便用户探索和分析模型行为。