PARIKSHA: 多语言多文化数据下人类与大型语言模型评估者一致性的大规模研究

论文背景

在人工智能领域,大型语言模型(LLM)的发展极大地推动了自然语言处理技术的进步。然而,评估这些模型的有效性尤其是在多语言环境中,一直是一个复杂且挑战性的问题。主要困难包括缺乏具有足够语言多样性的基准测试、流行基准数据污染模型预训练数据以及翻译基准测试缺乏地方文化细节。这篇论文通过在多语言、多文化的环境中研究人类评估者与 LLM 之间的一致性来解决这些问题。

主要贡献

  • 广泛的评估范围:研究涵盖了 10 种印度语言,对 30 个模型进行了评估,包括了 90,000 次人类评估和 30,000 次基于 LLM 的评估。
  • 评估方法:建立了两种评估模式的排行榜,包括成对比较和直接评估。
  • 一致性分析:分析了人类和 LLM 在成对比较设置中的一致性较高,但在直接评估中一致性下降,特别是对于孟加拉语和奥迪亚语。
  • 偏见检查:在人类和 LLM 评估中检查了多种偏见,并发现基于 GPT 的评估者存在自我偏见的证据。

技术细节

数据集和语言选择

研究选择了 10 种印度语言进行评估,这些语言在文化和语言结构上具有多样性。这种多样性是必要的,因为它能帮助研究者理解不同语言背景下的模型表现。

模型选择

包括 GPT-4o 和 Llama-3 70B 在内的 30 个模型被选中进行评估。这些模型被认为在处理多语言任务上具有潜力。

评估方法

  • 成对比较:在这种设置中,评估者需要比较两个模型生成的答案并选择较好的一个。
  • 直接评估:评估者直接对模型生成的答案进行评分。

实验结果

  • 模型表现:GPT-4o 和 Llama-3 70B 在大多数印度语言的评估中表现最佳。
  • 评估者一致性:人类与 LLM 在成对比较中的一致性较好,但在直接评估中一致性降低。
  • 语言差异:特别是对于孟加拉语和奥迪亚语,直接评估中的一致性显著下降。

创新点

  • 多语言多文化评估:这是少数几个在多文化和多语言背景下研究 LLM 评估一致性的工作之一。
  • 大规模人类与 LLM 评估:通过大规模的人类和 LLM 评估对比,提供了有关这些模型在现实世界多语言应用中的表现的重要见解。

实际应用

这项研究的成果可以帮助开发更为精准和公正的多语言 LLM 评估方法,对于多语言国家或地区的政府、企业在实施语言技术解决方案时,提供了宝贵的参考和指导。此外,通过识别和调整评估中的偏见,可以推动创建更加公平和包容的人工智能系统。


通过这项研究,我们不仅对 LLMs 在多语言环境下的表现有了更深入的了解,而且对于如何评估这些模型也提供了新的视角和方法。这对于全球化的 AI 应用发展具有重要意义。