让 LLM 来评判 | 选择 LLM 评估模型

1 月 14 日
阅读 2 分钟
341
这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示
封面图

让 LLM 来评判 | 基础概念

1 月 11 日
阅读 2 分钟
238
这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示
封面图

自动评估基准 | 一些评估测试集

1 月 8 日
阅读 10 分钟
362
大部分数据集有些 “过时”,因为它们是在 LLM 出现之前构建的,当时是为了评估语言文本的某个特定属性 (如翻译、摘要),但是可能已经不适合现在的 LLM 评估方法了 (现在的评估方法倾向于通用、整体性)。 (如果你有空余时间可以对下列数据集添加出版日期,会对本文非常有帮助!) (这部分后续也会更新包含大语言模型的评估)
封面图

自动评估基准 | 技巧与提示

1 月 1 日
阅读 2 分钟
328
测试集中加入 哨兵字符串 (canary string) (如BigBench),这是一种特殊的字符组合,使得模型创建者可以在训练集中查找,来表明该数据中是否包含评估。
封面图

基于开放模型的推理时计算缩放

1 月 1 日
阅读 10 分钟
301
过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难题进...
封面图

自动评估基准 | 设计你的自动评估任务

2024-12-26
阅读 3 分钟
391
做评估时,你可以选择现有的数据集 (参考 一些评估数据集 页面) 作为测试集,也可以设计自己的数据集。有一点非常重要,请注意:评估的结果与评估的数据集质量高度相关 。
封面图

自动评估基准 | 基础概念

2024-12-26
阅读 2 分钟
315
自动化基准测试通常按照以下方式工作:你希望了解你的模型在某些方面的表现。这些“某些方面”可以是一个明确定义的具体任务,例如“我的模型在垃圾邮件分类中的表现如何?”,也可以是一个更抽象和通用的能力,例如“我的模型的数学能力有多强?”。
封面图

人工评估 | 技巧与提示

2024-12-19
阅读 2 分钟
411
技巧与提示这是 人工评估 系列文章的第三篇《技巧与提示》,全系列包括:基础概念人工标注员技巧与提示建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议。任务设计简单至上:标注任务避免不必要的复杂。将标注员的认知负担降低到最低有助于确保他们保持专注...
封面图

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

2024-12-18
阅读 6 分钟
502
我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。
封面图

Hugging Face 机器人技术新突破

2024-12-18
阅读 1 分钟
367
这次我们的 LeRobot 团队联合 @therobotstudio 和 @NepYope 打造了全新腱驱动(Tendon-driven)技术,以快、更准、更灵活的超凡表现,让机器人手部控制进入全新时代!

人工评估 | 人工标注员

2024-12-13
阅读 1 分钟
400
人工标注员这是 人工评估 系列文章的第二篇《人工标注员》,全系列包括:基础概念人工标注员技巧与提示推荐阅读 这篇综述 的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质量,并且具备实施条件,那么请继续阅读吧! 无论项目规模多大,一旦定义了具体的评估任务和打分细则,请注意:选择合适...
封面图

人工评估 | 基础概念

2024-12-12
阅读 2 分钟
379
如果你手头 没有现成的数据集,但还是想测试一些模型的能力,可以采用人工评估:提供一个任务说明和打分指南 (例如:尝试与模型交互,迫使模型输出不当语言,即包含冒犯性、歧视性、暴力等。如果模型输出了不当语言,则得分为 0,反之为 1。),以及可供交互的测试模型,然后就可以让标注员人工操作并评分,同时列出评分...
封面图

开源开发者指南:欧盟《人工智能法案》解读

2024-12-05
阅读 5 分钟
269
欧盟《人工智能法案》 (EU AI Act) 是全球首部全面的人工智能立法,现已正式生效,它将影响我们开发和使用人工智能的方式——包括在开源社区中的实践。如果您是一位开源开发者,正在适应这一新环境,可能会想知道这对您的项目意味着什么。本指南重点解读了该法规的关键要点,特别是针对开源开发者,提供了对这一法规的清晰...
封面图

设计位置编码

2024-12-03
阅读 9 分钟
310
本文将带你一步步探究 Transformer 模型中先进的位置编码技术。我们将通过迭代改进编码位置的方法,最终得出 旋转位置编码 (Rotary Postional Encoding, RoPE),这也是最新发布的 LLama 3.2 和大多数现代 transformer 模型所采用的方法。本文旨在尽量减少所需的数学知识,但理解一些基本的线性代数、三角学和自注意力机...
封面图

介绍 GGUF-my-LoRA

2024-11-25
阅读 2 分钟
253
什么是 LoRA?LoRA(Low-Rank Adaptation,低秩适配)是一种用于高效微调大型语言模型的机器学习技术。可以将 LoRA 想象成给一个大型通用模型添加一小组专门的指令。与重新训练整个模型(既昂贵又耗时)不同,LoRA 允许你高效地为模型添加新功能。例如,可以快速将一个标准聊天机器人适配用于客户服务、法律咨询或医疗保...
封面图

Halo 正式开源: 使用可穿戴设备进行开源健康追踪

2024-11-22
阅读 16 分钟
236
在飞速发展的可穿戴技术领域,我们正处于一个十字路口。市场上充斥着各式时尚、功能丰富的设备,声称能够彻底改变我们对健康和健身的方式。然而,在这些光鲜的外观和营销宣传背后,隐藏着一个令人担忧的现实:大多数这些设备是封闭系统,其内部运行被专有代码和封闭硬件所掩盖。作为消费者,我们对这些设备如何收集、处...
封面图

通用辅助生成: 使用任意辅助模型加速解码

2024-11-19
阅读 4 分钟
188
太长不看版: 许多 LLM (如 gemma-2-9b 、 Mixtral-8x22B-Instruct-v0.1 等) 苦于缺乏对应小模型,而无法适用 辅助生成 方案。本文,我们将介绍由英特尔研究院和 Hugging Face 合作开发的 通用辅助生成 技术。有了这项技术,LLM 可与 任意 SLM 搭配组成辅助生成方案。从而,我们可以用辅助生成技术加速 任意 解码器模型或...
封面图

欢迎 Stable Diffusion 3.5 Large 加入 🧨 Diffusers

2024-11-07
阅读 6 分钟
354
作为 Stable Diffusion 3 的改进版本,Stable Diffusion 3.5 如今已在 Hugging Face Hub 中可用,并可以直接使用 🧨 Diffusers 中的代码运行。
封面图

SynthID Text 现已发布|在 AI 生成文本中应用不可见水印的新技术

2024-11-07
阅读 3 分钟
199
今天,Google DeepMind 和 Hugging Face 很共同宣布,在 Transformers v4.46.0 版本中,我们正式推出了 SynthID Text 技术。这项技术能够通过使用 logits 处理器 为生成任务添加水印,并利用 分类器 检测这些水印。
封面图

为数据集而生的 SQL 控制台

2024-10-30
阅读 3 分钟
257
随着数据集的使用量急剧增加,Hugging Face 社区已经变成了众多数据集默认存放的仓库。每月,海量数据集被上传到社区,这些数据集亟需有效的查询、过滤和发现。
封面图

Hugging Face 与 TruffleHog 合作,实现风险预警

2024-10-30
阅读 4 分钟
266
我们非常高兴地宣布与 Truffle Security 建立合作伙伴关系并在我们的平台集成 TruffleHog 强大的风险信息扫描功能。这些特性是 我们持续致力于提升安全性 的重要举措之一。
封面图

顶点着色网格转换为 UV 映射的纹理化网格

2024-10-23
阅读 5 分钟
349
顶点着色是一种将颜色信息直接应用于网格顶点的简便方法。这种方式常用于生成式 3D 模型的构建,例如 InstantMesh。然而,大多数应用程序更偏好使用 UV 映射的纹理化网格。
封面图

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

2024-10-21
阅读 5 分钟
477
在端侧部署 Transformer 模型需要仔细考虑性能和兼容性。Python 虽然功能强大,但对于部署来说有时并不算理想,特别是在由 C++ 主导的环境中。这篇博客将指导您如何使用 Optimum-Intel 和 OpenVINO™ GenAI 来优化和部署 Hugging Face Transformers 模型,确保在最小依赖性的情况下进行高效的 AI 推理。
封面图

Hugging Face 与 Wiz Research 合作提高人工智能安全性

2024-10-21
阅读 3 分钟
243
Wiz 研究人员 与 Hugging Face 就我们平台的安全性进行合作并分享了他们的发现。 Wiz 是一家云安全公司,帮助客户以安全的方式构建和维护软件。 随着这项研究的发布,我们将借此机会重点介绍一些相关的 Hugging Face 安全改进。
封面图

更快的辅助生成: 动态推测

2024-10-21
阅读 5 分钟
354
⭐ 在这篇博客文章中,我们将探讨 动态推测解码 ——这是由英特尔实验室和 Hugging Face 开发的一种新方法,可以加速文本生成高达 2.7 倍,具体取决于任务。从 Transformers🤗 发布的版本 4.45.0 开始,这种方法是辅助生成的默认模式⭐
封面图

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

2024-10-15
阅读 12 分钟
369
Llama 3.2 来了!今天,我们欢迎 Llama 系列的下一个版本加入 Hugging Face。这次,我们很高兴与 Meta 合作发布多模态和小型模型。在 Hub 上提供了十个开源模型 (5 个多模态模型和 5 个仅文本模型)。
封面图

揭秘 FineVideo 数据集构建的背后的秘密

2024-10-13
阅读 10 分钟
445
开放视频数据集稀缺,因此减缓了开源视频 AI 的发展。为此,我们构建了 FineVideo,这是一个包含 43,000 个视频的数据集,总时长为 3,400 小时,并带有丰富的描述、叙事细节、场景分割和问答对。
封面图

Gradio 5 稳定版正式发布

2024-10-10
阅读 2 分钟
266
有了 Gradio 5,开发者可以构建 生产级的机器学习 Web 应用,这些应用不仅性能优越、可扩展、设计精美、易于访问,而且还遵循了最佳的 Web 安全实践。更重要的是,只需几行 Python 代码即可实现。
封面图

将 LLMs 精调至 1.58 比特: 使极端量化变简单

2024-09-29
阅读 20 分钟
301
随着大语言模型 (LLMs) 规模和复杂性的增长,寻找减少它们的计算和能耗的方法已成为一个关键挑战。一种流行的解决方案是量化,其中参数的精度从标准的 16 位浮点 (FP16) 或 32 位浮点 (FP32) 降低到 8 位或 4 位等低位格式。虽然这种方法显著减少了内存使用量并加快了计算速度,但往往以准确性为代价。过度降低精度可能...
封面图

HuggingChat macOS 版现已发布

2024-09-26
阅读 1 分钟
277
强大的模型支持: 用户可以一键访问多个顶尖的开源大语言模型,包括 Qwen 2.5 72B、Command R+、Phi 3.5、Mistral 12B 等等;
封面图