解释:
现在测试部分已经完成,让我们来看看结果。
通过 RAGAS 评估,代码的执行提供了明确的量化结果。
LLaMA 4 Scout:从 RAG 输出部分和单项测试中可以看出,该模型为所有问题生成了答案,即使检索到的上下文可能不充分或不相关(RAGAS 分数显示)。它提供的答案听起来与所提问题相关。
GPT-4o:始终回答“我没有问题的答案”。这与在所提供的上下文中找不到答案时的提示指令一致,表明它正确地识别出检索到的上下文对回答具体问题没有帮助。
下面是 RAGAS 数据框(gpt4_df、llama_df)显示的摘要:
通过解读 RAGAS 分数,我们可以深入了解 LLaMA 4 与 GPT-4o 在处理检索失败这一特定测试中的表现。
LLaMA 4 Scout的行为
尽管语境不佳,但 LLaMA 4 生成的答案被 RAGAS 认为高度相关(答案相关性 ~0.996)且完全忠实(忠实度 1.0)。这意味着它的答案虽然可能是基于其内部知识而非检索到的文本,但与所提供的单一(不相关)语块一致,而且听起来与问题相符。它优先考虑生成一个可信的答案。
GPT-4o 的行为
GPT-4o 严格遵守提示指令,只根据上下文作答。由于上下文毫无用处(精确度/召回率为 0.0),它正确地拒绝回答,导致答案相关性为 0.0。这凸显了 GPT-4o 与 LLaMA 4 在缺少上下文时的准确性策略上的明显差异;GPT-4o 更倾向于保持沉默,而不是因检索不准确而可能造成的不准确。GPT-4o 的平均忠实度得分较低,这反映出 RAGAS 有时会对这些拒绝进行惩罚,尽管在语境不佳的情况下,拒绝本身是忠实于指令的。它优先考虑事实基础和避免幻觉。
本实验使用 RAGAS 框架,在特定的 RAG 设置上比较了 LLaMA 4 和 GPT-4o。通过实际测试,我们清楚地展示了 LLaMA 4 Scout 和 GPT-4o 之间的不同行为,尤其是在遇到检索失败时。
LLaMA 4 Scout 显示出一种倾向,即即使在上下文不充分的情况下,也能生成听起来合理、相关的答案。这一特点可能适用于头脑风暴等风险较低的应用。相反,GPT-4o 则表现出对指令的严格遵守,拒绝在没有足够检索信息的情况下生成答案。这种保守的方法使其更适合要求高可靠性和最小幻觉的应用场景。
事实证明,RAGAS 框架非常重要,它不仅能对输出结果进行评分,还能找出检索步骤失败的根本原因(上下文精确度/召回率 = 0.0),从而解释观察到的模型响应差异。利用这种设置,您可以比较任何 LLM 在实际用例中的性能。
全部评论
留言在赶来的路上...
发表评论