Hugging Face发布Open LLM Leaderboard v2
Hugging Face最近发布了Open LLM Leaderboard v2,这是其广受欢迎的大型语言模型(LLM)基准测试平台的升级版本。该平台旨在为参考模型提供标准化评估设置,确保结果的可重复性和可比性。
Open LLM Leaderboard的用途
Open LLM Leaderboard在AI社区中具有多重用途:
- 识别先进的开源模型:通过提供可重复的评分,帮助研究人员和从业者区分市场宣传与实际进展。
- 评估工作成果:团队可以通过公开比较现有最佳模型,评估其预训练或微调方法的有效性。
- 获得公众认可:为LLM开发中的进步提供了一个展示平台。
平台的影响力
自一年前推出以来,Open LLM Leaderboard已成为机器学习社区中广泛使用的资源。根据Hugging Face的数据,过去10个月内,该平台访问量超过200万次,每月约有30万社区成员积极参与。
Open LLM Leaderboard v2的改进
Open LLM Leaderboard v2解决了原始版本的局限性,并紧跟开源LLM领域的快速发展。Hugging Face的Leaderboard维护者Alina Lozovskaia在接受InfoQ采访时解释了此次更新的动机及其对AI社区的影响。
评分标准的变化
标准化评分:新版本使用标准化评分,其中随机性能为0分,最高性能为100分,然后进行平均。这种标准化方法根据模型性能超过随机程度调整每个基准在最终评分中的权重,使较难的基准(即模型表现接近随机的基准)在最终评分中占比更大,确保了评分的公平性和平衡性。
数据污染的应对措施
数据污染问题:一些模型在训练中意外使用了TruthfulQA或GSM8K的数据,导致基准数据污染。Hugging Face正在探索新兴技术来检测潜在的污染,如分析模型输出与未污染参考的相似性。此外,团队也在内部测试特定于Leaderboard的污染检测假设,并期待与社区分享进展。
长上下文任务的趋势
MuSR基准的影响:MuSR基准倾向于支持上下文窗口大小为10k或更高的模型。Lozovskaia指出,LLM开发中延长上下文长度的趋势越来越重要,尤其是在商业应用中。然而,通用LLM开发仍需要在长上下文能力与其他优先事项(如效率、任务多样性和短上下文任务性能)之间取得平衡。
进一步探索
对于对大型语言模型及其应用感兴趣的人,InfoQ提供了由Loubna Ben Allal在QCon London上发表的“Large Language Models for Code”演讲。此外,InfoQ的2024年AI、ML和数据工程趋势报告提供了该领域最新发展的全面概述。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。