摘要
xbench评测集由红杉中国正式开源,旨在通过动态评估机制量化AI系统在真实场景中的效用价值,并避免传统静态评测集的过拟合问题。开源的两个评测集分别是xbench-ScienceQA和xbench-DeepSearch,分别聚焦于AI模型的学科知识推理能力和AI Agent的深度搜索能力,评测集采用严格的题目构建与验证机制,并持续更新以保持长期有效性。
关键点
- 红杉中国开源xbench评测集,吸引AI人才共创,推动AI社群发展。
- xbench-ScienceQA评测集专注于博士研究生水平的学科知识和推理能力,题目来源可靠且难度高,平均正确率仅为32%。
- xbench-ScienceQA采用LLM难度检验、同行检验等方式确保题目公正性与区分度,并定期更新以避免评估集污染。
- xbench-DeepSearch评测集针对AI Agent设计,考察其“规划→搜索→推理分析→总结”的端到端能力。
- xbench-DeepSearch弥补了中文语境下深度搜索评测的不足,题目由专家人工验证,确保新颖性和正确性。
- 两个评测集均定期更新,并维护闭源黑盒版本以避免刷榜行为影响公正性。
- xbench-ScienceQA和xbench-DeepSearch分别设计了科学问答和深度搜索能力测试题目,题目构建严格,难度分布多样。
- 例题分析展示了两种评测集的题目特点及模型的表现,强调了模型推理深度和搜索广度能力的考察。
- 欢迎AI研究者、Agent开发者参与xbench评测集的建设与测试,通过反馈意见与提交产品共同探索AI发展前沿。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。