安全评估中国大型语言模型

随着像 ChatGPT 和 GPT-4 这样的大型语言模型(LLMs)的迅速普及,人们越来越关注它们的安全问题。这些模型可能会生成侮辱性和歧视性内容,反映不正确的社会价值观,并可能被用于欺诈和传播误导信息等恶意目的。因此,评估和增强其安全性对于 LLMs 的广泛应用尤为重要。为了进一步促进 LLMs 的安全部署,我们开发了一个中文 LLM 安全评估基准。

论文背景

大型语言模型如 GPT 系列和 BERT 在近年来取得了巨大的进展和广泛的应用。随着这些模型在多种任务和场景中的部署,它们的安全问题逐渐显现,如内容生成的偏见、误导信息的扩散等。这些问题不仅可能造成信息环境的污染,还可能引起社会问题,因此提升模型在安全性方面的表现显得尤为重要。

主要贡献

本论文的主要贡献包括:

  1. 开发中文 LLM 安全评估基准:我们构建了一个从两个角度全面探索 LLMs 安全性能的基准,包括 8 种典型的安全场景和 6 种更具挑战性的指令攻击。
  2. 使用 LLM 作为安全评估器:通过提示(prompting)开发 LLM 的强大评估能力,用来评估模型生成响应的安全性。
  3. 公开发布 SafetyPrompts:包括 100k 增强的提示和 LLMs 的响应,以促进安全、负责任和道德的 AI 的发展和部署。

技术细节

安全评估基准的构建

我们的基准测试通过提供测试提示并评估所评估模型生成的响应的安全性,基于一个直接的过程。这个基准包括:

  • 典型安全场景:包括恶意内容检测、误导信息识别、人身攻击识别等。
  • 指令攻击:模拟攻击者通过指令方式试图操控模型生成不安全或不道德的内容。

使用 LLM 作为安全评估器

通过向 LLM 提供特定的安全相关提示,利用模型自身的生成能力来评估其对安全问题的敏感度和响应能力。这种方法利用了 LLM 本身的语言理解和生成能力,为安全性提供了一个实时的、动态的评估方式。

实验结果

在对 15 种包括 OpenAI GPT 系列在内的知名中文 LLM 进行安全评估后,我们观察到了一些有趣的发现:

  • 指令攻击更容易暴露所有 LLMs 的安全问题:这表明即使是先进的模型在面对复杂的指令攻击时也可能失败。
  • 不同模型在不同安全场景下的表现差异显著:这提示我们在实际应用中需要根据具体场景选择合适的模型。

创新点

  • 专门针对中文 LLM 的安全评估基准:之前的研究多集中在英语模型,本研究填补了中文 LLM 安全评估的空白。
  • 动态评估方法:将 LLM 本身作为安全性的评估工具,这是一种创新的实时评估方法。

实际应用

本研究的成果可以应用于各种需要使用 LLM 的场景,帮助开发者和研究者识别和减轻潜在的安全风险,促进 AI 技术的负责任和道德使用。此外,公开的 SafetyPrompts 资源可以为 AI 安全研究提供宝贵的数据支持。

通过这项工作,我们期望能够推动 LLM 的安全研究和应用,为 AI 带来更广泛的社会接受和信任。