DianJin-R1是阿里云团队与苏州大学联合推出的金融领域推理增强大模型,专为金融任务设计,融合了先进的技术和全面的数据支持。模型通过推理增强监督和强化学习提升金融推理任务的表现,核心是DianJin-R1-Data数据集,整合了CFLUE、FinQA和中国合规检查(CCC)数据集,涵盖多样化的金融推理场景。 DianJin-R1包括DianJin-R1-7B和DianJin-R1-32B两个版本,均通过监督微调(SFT)和强化学习(RL)两阶段优化,采用组相对策略优化(GRPO)方法,结合双重奖励信号以优化推理质量。在金融领域的CFLUE、FinQA、CCC等基准测试中,DianJin-R1显著优于非推理模型,在CCC数据集上,单次调用推理模型的表现超过多代理系统。


全部评论
留言在赶来的路上...
发表评论