谷歌 Stax 旨在让开发者能够访问 AI 模型评估。

发布于 2025-09-29

主要观点：Google Stax 是一个旨在用客观、数据驱动且可重复的流程替代 AI 模型主观评估的框架，能让开发者根据特定用例定制评估流程，且在选择合适模型、评估提示工程等方面很关键，还可用于代理编排。
关键信息：

提供数据和工具构建结合人工判断与自动评估的基准，开发者可导入或创建数据集，包括默认和自定义评估器。
自定义评估器创建需选基础 LLM 作为评判者，提供提示包含评分类别定义等，需校准以确保可靠。
它不是唯一的 AI 模型评估解决方案，有多个竞争对手且各有不同。
目前支持多模型提供商的基准测试，包括自身，在测试阶段免费，之后可能引入定价模式。
重要细节：
Stax 的链接为 https://stax.withgoogle.com/l... ，OpenAI Evals 链接为 https://platform.openai.com/d... 等。
评估器提示可通过迭代微调以提高与可信评估者评级的一致性。
关于数据隐私，Google 称不拥有用户数据且不用于训练语言模型，但使用其他提供商时需遵守其数据政策。

阅读 129