HuatuoGPT-o1是香港中文大学(深圳)和深圳大数据研究院联合推出的,针对医学领域开发的复杂推理模型,基于复杂的推理能力提高解决医学问题的性能。模型用两个阶段的训练方法实现:首先,用医学验证器引导搜索正确的推理路径来微调模型;其次,应用基于验证器反馈的强化学习进一步增强模型的复杂推理能力。HuatuoGPT-o1能生成长链的思考过程,识别错误,并尝试不同的策略精细化答案。实验结果表明,模型在多个医学基准测试中优于通用和特定于医学的基线模型,且从复杂推理和强化学习中显著受益。

HuatuoGPT-baidu09o1 – 港中文联合深圳大数据研究院开源的医学高级推理大模型  第1张
(图片来源网络,侵删)
HuatuoGPT-baidu09o1 – 港中文联合深圳大数据研究院开源的医学高级推理大模型  第2张
(图片来源网络,侵删)