Anthropic推出Citations API功能
Anthropic于周四宣布推出Citations API功能,旨在帮助Claude模型通过直接链接到源文档来避免“幻觉”(即模型生成不准确或无依据的信息)。该功能允许开发者将文档添加到Claude的上下文窗口中,使模型能够自动引用其生成答案时所依据的具体段落。
功能实现方式
Anthropic表示,启用Citations后,API会处理用户提供的源文档(如PDF和纯文本文件),将其分块成句子。这些分块的句子与用户提供的上下文一起传递给模型,以响应用户的查询。
潜在应用场景
Citations功能有多种潜在应用,包括:
- 总结带有源链接关键点的案例文件
- 在财务文档中回答问题并追踪引用
- 支持系统引用特定产品文档
内部测试结果
Anthropic在内部测试中发现,Citations功能相较于用户在提示中自定义的引用实现,召回准确率提高了15%。尽管15%的提升看似不大,但该功能因其直接集成了检索增强生成(RAG)技术,仍引起了AI研究人员如Simon Willison的兴趣。
RAG技术的核心
Willison在其博客中解释了引用功能的重要性。他指出,RAG模式的核心是:根据用户的问题检索相关文档片段,并将这些文本片段提供给大语言模型(LLM)以生成答案。尽管这种方法通常有效,但模型仍可能基于其训练数据中的其他信息生成答案,甚至完全虚构错误细节。
技术背景
Anthropic的Alex Albert在X上表示,Claude在底层训练中已经具备引用源文档的能力,Citations功能则是将这一能力开放给开发者。用户可以通过API传递citations: {enabled:true}
参数来启用该功能。
早期采用者的反馈
Citations功能已通过Anthropic API和Google Cloud的Vertex AI平台发布,应用于Claude 3.5 Sonnet和Claude 3.5 Haiku模型。Thomson Reuters和金融科技公司Endex等早期采用者已开始使用该功能。
- Thomson Reuters计划利用Citations功能来“最小化幻觉风险,并增强对AI生成内容的信任”。
- Endex的CEO Tarun Amasa表示,Citations功能将其源文档的虚构率从10%降至零,同时将每个响应的引用数量增加了20%。
技术风险
尽管Citations功能表现出色,但依赖任何大语言模型准确传递参考信息仍存在风险,直到该技术在更广泛的应用中得到深入研究和验证。
定价信息
Anthropic将按照其标准的基于token的定价模式收费,但响应中的引用文本不计入输出token成本。根据Anthropic的标准API定价,引用100页文档的成本约为:
- Claude 3.5 Sonnet:$0.30
- Claude 3.5 Haiku:$0.08
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。