大型语言模型评估的演变态势

主要观点:近年来,LLM 能力超越评估基准,经典 LLM 评估集缩小,近期对这一小部分基准的可靠性产生担忧。没有可靠基准,评估模型像盲目飞行,ML 研究者和从业者依赖直觉评估“氛围”。
关键信息

  • 热门基准的饱和时间大幅缩短,如 MNIST 和 Switchboard 需 20 多年,GLUE 和 SQuAD 2.0 只需 1 - 2 年。
  • 多数流行基准易被模型记忆,如 Aquila2 和 Qwen 模型重复 MATH 和 GSM8k 数据,GPT 模型在预训练数据截止前的编码问题上表现更好。
  • 为减轻记忆,可采取加密评估数据集、扫描新发布数据集、防止数据泄露到闭源 API 等措施。
  • 模型存在过拟合风险,如通过创建合成数据,可能反映测试数据中的用例,导致对特定评估的过度优化,长期会产生意想不到的偏差和盲点。
  • 替代公共基准的“氛围”评估基准是 Chatbot Arena,虽不完美但能提供无污染的聊天用户交互评估。
    重要细节
  • 介绍了一些经典的 ML 基准数据集如 MNIST、CIFAR - 100、ImageNet 等及其历史。
  • 以 Phi 和 Mistral 模型为例说明过拟合在 GSM8k 数据集上的表现及对模型性能的影响。
  • 提及未来评估 LLM 需具备知识、基础设施和领域专业知识,基准创建者应减轻污染风险等。
阅读 14
0 条评论