论文解读:Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study
论文背景
在人工智能领域,大型语言模型(LLMs)如 GPT-4 等已被广泛应用于各种任务,其中包括使用 LLMs 作为评估工具来评估其他 LLM 的性能。这种自我评估方法能够为模型的进一步改进提供重要反馈。然而,这种评估方式可能会受到模型内在偏见的影响,从而影响评估结果的准确性和可靠性。
主要贡献
本文针对 LLMs 作为评估者时可能出现的偏见问题,提出并研究了两种多示例上下文学习(In-Context Learning, ICL)提示模板,旨在帮助评估者减轻潜在偏见:
- 多示例带参考(Many-Shot with Reference, MSwR)
- 多示例不带参考(Many-Shot without Reference, MSoR)
这两种方法的主要区别在于 MSwR 会利用上下文中包含的模型生成的评估理由作为参考,而 MSoR 则不包括这些参考。
技术细节
上下文学习 (ICL) 的设计
在 MSwR 和 MSoR 两种提示模板中,作者设计了具体的实验来探索增加上下文示例数量对评估结果一致性和质量的影响。在 MSwR 中,每个上下文示例都包括由模型自动生成的评估理由,这些理由作为参考信息帮助模型更好地理解和评估新的输入。在 MSoR 中,虽然也使用了多个示例,但不包括生成的评估理由。
实验设置
实验中使用的模型是 GPT-4o,作者比较了在零示例(zero-shot)、少示例(few-shot)以及多示例(many-shot)三种不同设置下,模型作为评估者的性能表现。实验中主要评估指标包括评估结果的一致性和质量。
实验结果
实验结果显示,在多示例设置下,GPT-4o 的表现优于零示例和少示例设置。特别是当使用 MSwR 作为提示模板时,结果表现出比使用 MSoR 更高的评估一致性和质量。
创新点
本文的创新之处在于提出并测试了两种不同的多示例 ICL 提示模板,这在以往的研究中较少被探讨。通过引入带有参考的多示例提示(MSwR),本文首次展示了引用模型生成的评估理由可以显著提高 LLMs 作为评估者时的性能。
实际应用
这项研究的实际应用前景广阔。在自动化评估系统,如教育领域的自动作文评分、代码质量评估等方面,使用经过优化的 LLMs 进行评估不仅可以提高评估的准确性和可靠性,还可以在处理大量数据时显著提升效率。此外,这种方法也为 AI 系统的自我监督和自我改进提供了新的可能性。
结论
本文通过对两种多示例 ICL 提示模板的研究,为使用 LLMs 作为评估工具提供了新的视角和方法。实验结果验证了在多示例设置下,特别是使用带有参考的提示模板时,可以有效提高评估的一致性和质量。这项研究不仅扩展了我们对 LLMs 能力的理解,也为其在实际应用中的优化提供了有价值的指导。