MMMLU – OpenAI推出的多语言大规模多任务语言理解数据集

baidu09_com 2025-08-29 9 0

MMMLU（多语言大规模多任务语言理解）是OpenAI推出的一个开源数据集，为评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在广受欢迎的大规模多任务语言理解（MMLU）基准的基础上，数据集包含57个不同学科领域的任务，从基础数学到复杂的法律和物理问题，覆盖广泛的主题和难度级别。MMMLU的关键特点是支持多种语言，包括但不限于阿拉伯语、德语、斯瓦希里语、孟加拉语和约鲁巴语等14种语言，能评估模型在资源丰富和资源匮乏的语言上的表现。通过专业翻译人员进行翻译，MMMLU能确保数据集的准确性和可靠性，对于评估AI模型在跨语言任务中的能力至关重要。