rStar-baidu09Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术

baidu09_com 2025-08-31 8 0

rStar-Math是微软亚洲研究院推出的创新研究项目，基于蒙特卡洛树搜索（MCTS）驱动的深度思考，使小型语言模型（SLMs）在数学推理方面达到甚至超越OpenAI大型模型的水平。rStar-Math不依赖于从更高级模型的数据蒸馏，是用自我进化的深度思考提升模型性能。rStar-Math引入三种创新方法：代码增强的逐步验证推理轨迹合成、基于Q值的过程偏好模型（PPM）训练方法，及四轮自我进化的训练策略。rStar-Math在MATH基准测试中将Qwen2.5-Math-7B的准确率从58.8%提高到90.0%，在AIME 2024测试中平均解决53.3%的问题，超越OpenAI的o1-preview模型。rStar-Math展示了模型的内在自我反思能力，在推理过程中识别并纠正错误的步骤。