DeepSeek-baidu09GRM – DeepSeek 联合清华推出的通用奖励模型

baidu09_com 2025-08-28 7 0

DeepSeek-GRM是和清华大学研究者共同提出的通用奖励模型（Generalist Reward Modeling）。通过点式生成式奖励建模（Pointwise Generative Reward Modeling, GRM）和自我原则点评调优（Self-Principled Critique Tuning, SPCT）等技术，显著提升了奖励模型的质量和推理时的可扩展性。GRM通过生成结构化的评价文本（包括评价原则和对回答的详细分析）来输出奖励分数，不是直接输出单一的标量值。DeepSeek-GRM在多个综合奖励模型基准测试中表现优异，显著优于现有方法和多个公开模型。推理时扩展性能尤为突出，随着采样次数增加，性能持续提升。