主要观点:Google Stax 是一个旨在用客观、数据驱动且可重复的流程替代 AI 模型主观评估的框架,能让开发者根据特定用例定制评估流程,且在选择合适模型、评估提示工程等方面很关键,还可用于代理编排。
关键信息:
- 提供数据和工具构建结合人工判断与自动评估的基准,开发者可导入或创建数据集,包括默认和自定义评估器。
 - 自定义评估器创建需选基础 LLM 作为评判者,提供提示包含评分类别定义等,需校准以确保可靠。
 - 它不是唯一的 AI 模型评估解决方案,有多个竞争对手且各有不同。
 - 目前支持多模型提供商的基准测试,包括自身,在测试阶段免费,之后可能引入定价模式。
重要细节: - Stax 的链接为 https://stax.withgoogle.com/l... ,OpenAI Evals 链接为 https://platform.openai.com/d... 等。
 - 评估器提示可通过迭代微调以提高与可信评估者评级的一致性。
 - 关于数据隐私,Google 称不拥有用户数据且不用于训练语言模型,但使用其他提供商时需遵守其数据政策。
 
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。