用于LLM评估的困惑度指标(Perplexity Metric)  第1张

要选择正确的度量标准,请考虑

混合方法通常效果最佳-既能提高效率,又能结合其他指标进行综合评估。

长期以来,“”一直是评估语言模型的关键指标,它提供了一个清晰的、信息论的指标来衡量模型预测文本的能力。尽管它有一些局限性,比如与人类判断的一致性较差,但当它与更新的方法(如基于参考的分数、嵌入相似性和基于 LLM 的评估)相结合时,仍然非常有用。

随着模型越来越先进,评估很可能会转向混合方法,将perplexity的效率与更多与人类匹配的指标结合起来。

底线:将困惑度视为众多信号中的一个,同时了解其优势和盲点。

对您的挑战尝试在自己的文本语料库中进行困惑度计算!以本文提供的代码为起点,尝试使用不同的 n-gram 大小、平滑技术和测试集。改变这些参数对困惑度得分有何影响?