红杉中国推出了全新的 AI 基准测试工具 xbench

总结

红杉中国推出了全新的AI基准测试工具xbench，旨在通过动态更新和专业对齐的评估体系，更科学地反映AI的能力和效用价值。xbench采用双轨评估体系，分别关注AI的理论能力上限与实际落地效用，并推出了多个垂直领域的评估集，助力AI技术的突破和产品化。

关键点

红杉中国推出xbench工具及相关论文，旨在解决现有AI基准测试难以真实反映AI能力的问题。
xbench采用双轨评估体系，分别评估AI的能力上限和实际效用价值，并动态对齐现实应用需求。
xbench通过长青评估机制动态更新测试内容，跟踪AI模型能力演进，捕捉关键技术突破。
首期发布两个核心评估集：xbench-ScienceQA和xbench-DeepSearch，并对相关领域产品进行综合排名。
xbench引入垂直领域智能体评测方法论，构建招聘和营销领域的垂类评估框架。
xbench在内部使用两年后正式公开，旨在推动AI社区共同完善评估体系。
文章探讨了模型能力与实际效用的关系，以及如何在动态题库下追踪AI能力的前后变化。
提出面向真实世界的动态评估方法，包括AGI Tracking和Profession Aligned评估，分别关注能力边界和商业效用。
Profession Aligned评估聚焦于特定业务场景，设计任务与环境以考察AI的实际交付能力。
通过IRT方法追踪AI能力的持续增长，解决动态题库下能力变化难以比较的问题。
xbench分析了AI技术市场匹配（TMF）及其对人力资源和商业价值的影响，提出AI与人类协作及专业化Agent的三阶段发展路径。
提出长青评估体系，通过动态更新的评估集捕捉AI能力的持续进步，与行业专家共建专业领域评估任务。
鼓励基础模型开发者、垂类Agent开发者、行业专家及研究者参与xbench的共建与合作。