在生产环境中使用大型语言模型的挑战:约束、幻觉和护栏

大型语言模型(LLMs)在 Chat-GPT 发布后日益流行,预训练基础模型可实现快速原型设计,公司欲使用该技术,但脱离原型模式后其概率性本质和缺乏内置约束常导致挑战。

以新闻文章分类为例讨论所遇挑战:

  • 挑战 1:输出中的约束遵循

    • 问题:类别生成不受控,会将文章分到大量类别,如体育和娱乐类文章都被分入不同类别,导致类别列表冗长。
    • 初始解决方案:使用预定义标签和“其他”类别,通过提示工程引导模型输出,但大规模应用时会出现结果不遵循提示的间歇性问题,且“其他”类别会因模糊性、模型不确定性和边缘情况而膨胀。
    • 改进方法:实施两级验证系统,结合确定性和概率性后处理,用查找表验证输出是否遵循约束,若不遵循则重新发送请求,可减少对提示工程的依赖并提高准确性。
  • 挑战 2:输出基于事实的基础

    • 问题:模型缺乏内在真实知识,会编造答案而非承认不知,如在科学文章分类中会误标推测内容。
    • 解决方案:通过检索增强生成(RAG),将用户提示与相关外部信息结合形成新的扩展提示给模型,用向量搜索找到相关数据提供给模型,以减少幻觉,如先检索相关上下文,再让模型交叉参考分类与检索到的数据。
  • 挑战 3:过滤不良内容

    • 问题:即使“安全”的 LLM 也可能生成有害或泄露敏感数据的内容,模型内置控制各有不同,需要外部护栏。
    • 解决方案:设置分层护栏,包括输入消毒(匿名化或清除敏感数据)、输出消毒(清除有毒短语或敏感信息)和审计跟踪(记录所有输入输出用于合规审查),多数超大规模提供商提供数据消毒服务。

还可让模型自我评估,通过提供输入让模型为每个标签提供推理并评分,以此来丢弃得分低于预定义值的标签并重新运行分析,也可用于 A/B 测试。

生产级 LLM 系统的最佳实践包括多层验证(结合提示工程、后处理和结果评分)、特定领域基础(用 RAG 提高事实准确性)、护栏和持续监控(跟踪如“其他”类别率、结果质量得分和护栏服务等指标)。

结论:开发者可通过实施后处理验证、RAG 和监控来管理约束、幻觉和安全,将 LLM 从原型推进到生产。

阅读 3
0 条评论