主要观点:Cleanlab 的新可信语言模型(TLM)克服了企业采用大型语言模型(LLM)的最大障碍——幻觉和可靠性问题,通过为每个 LLM 响应添加信任分数,帮助自动捕获虚假输出,可用于新的用例。
关键信息:
- Gartner 调查显示 55%组织在试验生成式 AI,仅 10%已投入生产,LLM 生产化的主要障碍是幻觉。
- TLM 为 LLM 输出提供信任分数,可作为 LLM 的替代品或现有输出的信任层,能提高准确性和节省成本。
- TLM 解锁了 LLM 的新生产用例,如客户服务聊天机器人、自动标注等,还可解释响应为何不可信。
- 经过严格基准测试,TLM 比现有方法校准的信任度分数更好,能利用这些分数产生更准确的响应,减少 LLM 错误。
- TLM 可用于各种 LLM 模型,如 GPT-4、GPT-4o、GPT-3.5 等,不同版本在不同数据集上表现各异。
重要细节: - 如 Air Canada 聊天机器人因幻觉产生错误政策被罚款,纽约市“MyCity”聊天机器人也会幻觉错误答案。
- TLM 自动标注数据时,高信任度分数的文档标签正确,低分数的需复查。
- 基准测试中 TLM 在多个数据集上的准确性高于 GPT-4,能更可靠地检测不良 LLM 响应,提高 AUROC 和置信差距。
- TLM 内部会多次调用底层 LLM 进行自我反思等操作,适用于高风险需要可靠性的 AI 应用。
- 附录中提供了更多 GPT 系列和 Claude 系列模型的基准测试结果及相关细节。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。