LaTRO – 基于自我奖励提升LLMs复杂推理能力的框架

baidu09_com 2025-08-29 8 0

LaTRO（Latent Reasoning Optimization）是先进的框架，提升大型语言模型（LLMs）在复杂推理任务中的表现。基于将推理过程类比为从潜在分布中采样，用变分推断方法进行优化，LaTRO让模型自我改进，增强生成和评估推理路径的能力。这一方法无需依赖外部反馈或奖励机制，有效解锁并进一步激发预训练语言模型内在的推理潜能，推动构建更智能、更自主的问题解决系统。