LLaMA 4与GPT-4o对比：哪个更适合RAG？

baidu09_com 2025-08-30 8 0

LLaMA 4与GPT-4o对比：哪个更适合RAG？第1张

解释：

现在测试部分已经完成，让我们来看看结果。

通过 RAGAS 评估，代码的执行提供了明确的量化结果。

LLaMA 4 Scout：从 RAG 输出部分和单项测试中可以看出，该模型为所有问题生成了答案，即使检索到的上下文可能不充分或不相关（RAGAS 分数显示）。它提供的答案听起来与所提问题相关。

GPT-4o：始终回答“我没有问题的答案”。这与在所提供的上下文中找不到答案时的提示指令一致，表明它正确地识别出检索到的上下文对回答具体问题没有帮助。

下面是 RAGAS 数据框（gpt4_df、llama_df）显示的摘要：

通过解读 RAGAS 分数，我们可以深入了解 LLaMA 4 与 GPT-4o 在处理检索失败这一特定测试中的表现。

LLaMA 4 Scout的行为

尽管语境不佳，但 LLaMA 4 生成的答案被 RAGAS 认为高度相关（答案相关性 ~0.996）且完全忠实（忠实度 1.0）。这意味着它的答案虽然可能是基于其内部知识而非检索到的文本，但与所提供的单一（不相关）语块一致，而且听起来与问题相符。它优先考虑生成一个可信的答案。

GPT-4o 的行为

GPT-4o 严格遵守提示指令，只根据上下文作答。由于上下文毫无用处（精确度/召回率为 0.0），它正确地拒绝回答，导致答案相关性为 0.0。这凸显了 GPT-4o 与 LLaMA 4 在缺少上下文时的准确性策略上的明显差异；GPT-4o 更倾向于保持沉默，而不是因检索不准确而可能造成的不准确。GPT-4o 的平均忠实度得分较低，这反映出 RAGAS 有时会对这些拒绝进行惩罚，尽管在语境不佳的情况下，拒绝本身是忠实于指令的。它优先考虑事实基础和避免幻觉。

本实验使用 RAGAS 框架，在特定的 RAG 设置上比较了 LLaMA 4 和 GPT-4o。通过实际测试，我们清楚地展示了 LLaMA 4 Scout 和 GPT-4o 之间的不同行为，尤其是在遇到检索失败时。

LLaMA 4 Scout 显示出一种倾向，即即使在上下文不充分的情况下，也能生成听起来合理、相关的答案。这一特点可能适用于头脑风暴等风险较低的应用。相反，GPT-4o 则表现出对指令的严格遵守，拒绝在没有足够检索信息的情况下生成答案。这种保守的方法使其更适合要求高可靠性和最小幻觉的应用场景。

事实证明，RAGAS 框架非常重要，它不仅能对输出结果进行评分，还能找出检索步骤失败的根本原因（上下文精确度/召回率 = 0.0），从而解释观察到的模型响应差异。利用这种设置，您可以比较任何 LLM 在实际用例中的性能。

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://baidu09.com/news/12187.html