将 LLMs 精调至 1.58 比特: 使极端量化变简单

9 月 29 日
阅读 20 分钟
57
随着大语言模型 (LLMs) 规模和复杂性的增长,寻找减少它们的计算和能耗的方法已成为一个关键挑战。一种流行的解决方案是量化,其中参数的精度从标准的 16 位浮点 (FP16) 或 32 位浮点 (FP32) 降低到 8 位或 4 位等低位格式。虽然这种方法显著减少了内存使用量并加快了计算速度,但往往以准确性为代价。过度降低精度可能...
封面图

HuggingChat macOS 版现已发布

9 月 26 日
阅读 1 分钟
85
强大的模型支持: 用户可以一键访问多个顶尖的开源大语言模型,包括 Qwen 2.5 72B、Command R+、Phi 3.5、Mistral 12B 等等;
封面图

对 LLM 工具使用进行统一

9 月 26 日
阅读 7 分钟
57
我们为 LLM 确立了一个跨模型的 统一工具调用 API。有了它,你就可以在不同的模型上使用相同的代码,在 Mistral、Cohere、NousResearch 或 Llama 等模型间自由切换,而无需或很少需要根据模型更改工具调用相关的代码。此外,我们还在 transformers 中新增了一些实用接口以使工具调用更丝滑,我们还为此配备了 完整的文档...
封面图

Accelerate 1.0.0

9 月 24 日
阅读 3 分钟
12
在三年半以前、项目发起之初时,Accelerate 的目标还只是制作一个简单框架,通过一个低层的抽象来简化多 GPU 或 TPU 训练,以此替代原生的 PyTorch 训练流程:
封面图

Hugging Face 论文平台 Daily Papers 功能全解析

9 月 24 日
阅读 3 分钟
25
在快速发展的研究领域,保持对最新进展的关注至关重要。为了帮助开发者和研究人员跟踪 AI 领域的前沿动态,Hugging Face 推出了 Daily Papers 页面。自发布以来,Daily Papers 已展示了由 AK 和社区研究人员精心挑选的高质量研究。在过去一年里,已有超过 3700 篇论文被发布,页面订阅用户也增长至超过 1.2 万!
封面图

通过打包 Flash Attention 来提升 Hugging Face 训练效率

9 月 12 日
阅读 5 分钟
120
现在,在 Hugging Face 中,使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容,这要归功于一个 最近的 PR 以及新的 DataCollatorWithFlattening。
封面图

Falcon Mamba: 首个高效的无注意力机制 7B 模型

9 月 5 日
阅读 5 分钟
146
Falcon Mamba 是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中 这里 使用它进行研究或应用。
封面图

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗?

9 月 5 日
阅读 5 分钟
69
在开发 Docmatix 时,我们发现经其微调的 Florence-2 在 DocVQA 任务上表现出色,但在基准测试中得分仍比较低。为了提高基准测试得分,我们必须在 DocVQA 数据集上进一步对模型进行微调,以学习该基准测试的语法风格。有意思的是,人类评估者认为经额外微调后,模型的表现似乎反而不如仅在 Docmatix 上微调那么好,因此...
封面图

正式收购 huggingface.com 域名

9 月 5 日
阅读 1 分钟
72
我们花了一笔巨款收购了 .com 域名,恭喜我们,也恭喜过去的这位域名持有者 🫴 接住了这泼天的富贵 🤗

一次失败的实验 - 无限注意力,我们为什么坚持实验

8 月 30 日
阅读 11 分钟
105
总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知,ring attention、YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。
封面图

Docmatix - 超大文档视觉问答数据集

8 月 30 日
阅读 3 分钟
110
本文,我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集,比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时,消融实验显示 DocVQA 任务的性能提高了 20%。
封面图

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

8 月 30 日
阅读 6 分钟
107
过去的几个月,我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image,T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同,这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 的性质,这些主干网络表现出了良好的可扩展性,模型参数量可从 0.6...
封面图

ggml 简介

8 月 29 日
阅读 11 分钟
165
ggml 是一个用 C 和 C++ 编写、专注于 Transformer 架构模型推理的机器学习库。该项目完全开源,处于活跃的开发阶段,开发社区也在不断壮大。ggml 和 PyTorch、TensorFlow 等机器学习库比较相似,但由于目前处于开发的早期阶段,一些底层设计仍在不断改进中。
封面图

TGI 多-LoRA: 部署一次,搞定 30 个模型的推理服务

8 月 12 日
阅读 8 分钟
148
你是否已厌倦管理多个 AI 模型所带来的复杂性和高成本? 那么, 如果你可以部署一次就搞定 30 个模型推理服务会如何? 在当今的 ML 世界中,哪些希望充分发挥其数据的价值的组织可能最终会进入一个“微调的世界”。在这个世界,各个组织会构建大量模型,其中每个模型都针对特定任务进行了高度特化。但是,如何处理为每个细...
封面图

XetHub 加入 Hugging Face!

8 月 9 日
阅读 2 分钟
300
XetHub 是一家位于西雅图的公司,由 Yucheng Low、Ajit Banerjee 和 Rajat Arya 创立,他们之前在 Apple 工作,构建和扩展了 Apple 的内部机器学习基础设施。XetHub 的使命是为 AI 开发提供软件工程的最佳实践。XetHub 开发了技术,能够使 Git 扩展到 TB 级别的存储库,并使团队能够探索、理解和共同处理大型不断变化的...
封面图

NuminaMath 是如何荣膺首届 AIMO 进步奖的?

8 月 9 日
阅读 8 分钟
307
今年,Numina 和 Hugging Face 合作角逐 AI 数学奥林匹克 (AI Math Olympiad,AIMO) 的首届进步奖。此次比赛旨在对开放 LLM 进行微调,以使其能解决高中难度的国际数学奥林匹克训练题。我们很高兴向大家报告: 我们的模型 - NuminaMath 7B TIR - 在比赛中脱颖而出,成功解决了私有测试集 50 道题中的 29 道🥳!
封面图

SmolLM: 一个超快速、超高性能的小模型集合

8 月 3 日
阅读 7 分钟
213
本文将介绍 SmolLM。它集合了一系列最尖端的 135M、360M、1.7B 参数量的小模型,这些模型均在一个全新的高质量数据集上训练。本文将介绍数据整理、模型评测、使用方法等相关过程。
封面图

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

8 月 3 日
阅读 8 分钟
420
在发布 Gemma 2 一个月后,Google 扩展了其 Gemma 模型系列,新增了以下几款:Gemma 2 2B - 这是 Gemma 2 的 2.6B 参数版本,是设备端使用的理想选择。ShieldGemma - 一系列安全分类器,基于 Gemma 2 训练,用于开发者过滤其应用程序的输入和输出。Gemma Scope - 一个全面的、开放的稀疏自动编码器套件,适用于 Gemma 2 ...
封面图

在 Hub 上使用 Presidio 进行自动 PII 检测实验

7 月 31 日
阅读 2 分钟
123
我们在 Hugging Face Hub 上托管的机器学习 (ML) 数据集中发现了一个引人关注的现象: 包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。
封面图

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

7 月 26 日
阅读 17 分钟
164
Llama 3.1 发布了!今天我们迎来了 Llama 家族的新成员 Llama 3.1 进入 Hugging Face 平台。我们很高兴与 Meta 合作,确保在 Hugging Face 生态系统中实现最佳集成。Hub 上现有八个开源权重模型 (3 个基础模型和 5 个微调模型)。
封面图

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

7 月 25 日
阅读 2 分钟
114
蛋白质语言模型 (Protein Language Models, PLM) 已成为蛋白质结构与功能预测及设计的有力工具。在 2023 年国际机器学习会议 (ICML) 上,MILA 和英特尔实验室联合发布了 ProtST 模型,该模型是个可基于文本提示设计蛋白质的多模态模型。此后,ProtST 在研究界广受好评,不到一年的时间就积累了 40 多次引用,彰显了该工...
封面图

为视觉语言多模态模型进行偏好优化

7 月 16 日
阅读 12 分钟
178
训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项,通常可以简化这一过程,并产出更准确的结果。通过对候选回答的对比和排序,而不是...
封面图

微调 Florence-2 - 微软的尖端视觉语言模型

7 月 15 日
阅读 6 分钟
119
Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力,因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。
封面图

GAIA: 一个严苛的智能体基准

7 月 9 日
阅读 5 分钟
108
经过一些实验,我们对 Transformers 智能体构建智能体系统的性能印象深刻,因此我们想看看它有多好!我们使用一个 用库构建的代码智能体 在 GAIA 基准上进行测试,这可以说是最困难、最全面的智能体基准测试……最终我们取得了第一名的成绩!
封面图

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

7 月 4 日
阅读 1 分钟
168
Hugging Face 全球政策负责人艾琳-索莱曼 ( Irene Solaiman )将参加7月5日在上海举办的WAIC-前沿人工智能安全和治理论坛,并在现场进行主旨演讲和参加圆桌讨论。具体时间信息如下:
封面图

Cosmopedia: 如何为预训练构建大规模合成数据集

7 月 3 日
阅读 8 分钟
277
本文概述了我们在生成含数十亿词元的合成数据集以复现 Phi-1.5 过程中所遇到的挑战及其解决方案,由此最终创建了 Cosmopedia 合成数据集。合成数据已成为机器学习社区的 C 位话题,其题中之义是用人工 (如使用大语言模型 (LLM)) 生成的数据模拟真实数据。

OpenBMB × Hugging Face × THUNLP,联袂献上经典大模型课

7 月 3 日
阅读 1 分钟
137
这个夏天,THUNLP 携手 Hugging Face 和 OpenBMB,推出 大模型公开课第二季。在大模型公开课第二季中,将有全球知名开源社区 OpenBMB X Hugging Face 梦幻联动;MiniCPM、ChatDev、Ultra对齐 等明星开源项目作者亲自授课,带领同学从深度学习开始快速了解大模型的相关理论并进行实践。
封面图

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

7 月 1 日
阅读 7 分钟
218
HumanEval 是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准,因为它使得对紧凑的函数级代码片段的评估变得容易。然而,关于其在评估 LLM 编程能力方面的有效性越来越多的担忧,主要问题是HumanEval 中的任务太简单,可能不能代表真实世界的编程任务。相比于 HumanEval 中的算法导向任务,真实世界的软件开...
封面图

Google 发布最新开放大语言模型 Gemma 2,现已登陆 Hugging Face Hub

6 月 28 日
阅读 5 分钟
218
Google 发布了最新的开放大语言模型 Gemma 2,我们非常高兴与 Google 合作,确保其在 Hugging Face 生态系统中的最佳集成。你可以在 Hub 上找到 4 个开源模型(2 个基础模型和 2 个微调模型)。发布的功能和集成包括:
封面图

Hugging Face Accelerate 两个后端的故事:FSDP 与 DeepSpeed

6 月 27 日
阅读 4 分钟
172
社区中有两个流行的 零冗余优化器(Zero Redundancy Optimizer,ZeRO) 算法实现,一个来自 DeepSpeed,另一个来自 PyTorch。Hugging Face Accelerate 对这两者都进行了集成并通过接口暴露出来,以供最终用户在训练/微调模型时自主选择其中之一。本文重点介绍了 Accelerate 对外暴露的这两个后端之间的差异。为了让用户...
封面图