XBai o4是开源的大语言模型,基于“反射生成形式”训练,结合长CoT强化学习和过程奖励学习,在复杂推理能力上表现出色,中等模式下已超越。XBai o4基于共享PRMs和策略模型的主干网络,显著降低推理成本。模型在多个基准测试中表现优异,如AIME24、LiveCodeBench v5等。模型支持单节点和多节点训练,提供详细的安装和评估流程,为开发者提供强大的工具和灵活的使用方式。

XBai o4 – 开源的并行推理模型,高质量的推理轨迹  第1张
(图片来源网络,侵删)
XBai o4 – 开源的并行推理模型,高质量的推理轨迹  第2张
(图片来源网络,侵删)