精炼你的大型语言模型并超越其性能：spaCy的创建者在慕尼黑InfoQ开发者峰会上的演讲

Ines Montani 在 InfoQ Dev Summit Munich 的演讲总结

Ines Montani 在 InfoQ Dev Summit Munich 的演讲中，延续了她今年早些时候在 QCon London 的演讲内容，为观众提供了在实际应用中使用最新先进模型的实用解决方案，并将其知识提炼为更小、更快的组件，以便在内部运行和维护。

主要观点

黑箱模型的局限性
Montani 强调，使用隐藏在 API 背后的黑箱模型无法满足好软件的属性：模块化、透明、可解释、数据隐私、可靠且经济实惠。
生成式 AI 的应用场景
生成式 AI 在需要解释人类语言的情况下非常有用，例如评估客户在论坛上对产品的评论。Montani 指出，我们不需要基础模型的全部能力，只需理解上下文即可。这可以通过迁移学习来提炼任务特定信息实现。
从原型到生产系统的关键步骤
- 标准化输入和输出：原型和目标生产系统必须具有相同的数据类型。
- 从评估开始：类似于软件开发中的测试，通过已知答案的响应来评估系统的准确性。
- 评估实用性而不仅仅是准确性：除了准确性，还需要检查模型的实用性。
- 迭代处理数据：类似编码实践，尝试不同方法和工具，直到找到最适合的。
- 考虑自然语言的结构和模糊性：人类语言提取不能像标准数据那样处理。
自然语言处理原型的起点
一个好的起点是使用大型语言模型（LLM），通过工具解析输出，提供包含结构化数据的对象。Montani 提到，他们为此构建了 spaCy LLM。在生产中，可以使用提炼的任务特定组件替换 LLM，从而使系统更加模块化、透明且可能更快。
超越 LLM 输出质量的方法
通过“人在循环中”来纠正 LLM 的错误。定义基线后，修复提示并通过注释工具创建特定任务的数据集。通过多次处理数据，每次只关注一个方面，降低认知负荷，提高速度。
提炼过程与代码重构的类比
提炼过程可以类比为代码重构，包括将问题分解为更小的部分、降低复杂性、将业务逻辑与系统特定性分离。在此阶段，可以重新评估所使用的依赖项和技术，确保最适合任务的方法。
案例研究总结
Montani 提供了多个领域的案例研究，展示了爆炸 AI 如何帮助客户。最终模型通常比初始 LLM 提供的基线更小且更准确。通过迭代模型，可以在长期内获得更好的结果，并降低运营成本。

重要细节

工具和框架：Montani 提到的工具包括 spaCy LLM，用于解析 LLM 输出并提供结构化数据。
迭代和优化：强调了在处理数据和模型时的迭代方法，以确保最终系统的优化。
人机协作：通过“人在循环中”的方法，可以显著提高模型的准确性和实用性。

结论

Montani 的演讲强调了在实际应用中使用生成式 AI 时，通过提炼模型和迭代优化，可以实现更高效、更可靠的系统。她的建议和案例研究为开发人员提供了实用的指导，帮助他们在自然语言处理项目中取得成功。