rStar-Math是微软亚洲研究院推出的创新研究项目,基于蒙特卡洛树搜索(MCTS)驱动的深度思考,使小型语言模型(SLMs)在数学推理方面达到甚至超越OpenAI大型模型的水平。rStar-Math不依赖于从更高级模型的数据蒸馏,是用自我进化的深度思考提升模型性能。rStar-Math引入三种创新方法:代码增强的逐步验证推理轨迹合成、基于Q值的过程偏好模型(PPM)训练方法,及四轮自我进化的训练策略。rStar-Math在MATH基准测试中将Qwen2.5-Math-7B的准确率从58.8%提高到90.0%,在AIME 2024测试中平均解决53.3%的问题,超越OpenAI的o1-preview模型。rStar-Math展示了模型的内在自我反思能力,在推理过程中识别并纠正错误的步骤。


全部评论
留言在赶来的路上...
发表评论