LaTRO(Latent Reasoning Optimization)是先进的框架,提升大型语言模型(LLMs)在复杂推理任务中的表现。基于将推理过程类比为从潜在分布中采样,用变分推断方法进行优化,LaTRO让模型自我改进,增强生成和评估推理路径的能力。这一方法无需依赖外部反馈或奖励机制,有效解锁并进一步激发预训练语言模型内在的推理潜能,推动构建更智能、更自主的问题解决系统。

LaTRO – 基于自我奖励提升LLMs复杂推理能力的框架  第1张
(图片来源网络,侵删)
LaTRO – 基于自我奖励提升LLMs复杂推理能力的框架  第2张
(图片来源网络,侵删)