LalaEval是香港中文大学和货拉拉数据科学团队共同推出的面向特定领域大语言模型(LLMs)的人类评估框架,框架通过一套完整的端到端协议,涵盖领域规范、标准建立、基准数据集创建、评估规则构建以及评估结果的分析和解释。核心特点是通过争议度和评分波动分析,自动纠正人工主观错误,生成高质量的问答对。LalaEval采用了单盲测试原理,确保评分的客观性和公正性。已在物流领域成功应用。

LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架  第1张
(图片来源网络,侵删)