通用辅助生成: 使用任意辅助模型加速解码

11 月 19 日
阅读 4 分钟
18
太长不看版: 许多 LLM (如 gemma-2-9b 、 Mixtral-8x22B-Instruct-v0.1 等) 苦于缺乏对应小模型,而无法适用 辅助生成 方案。本文,我们将介绍由英特尔研究院和 Hugging Face 合作开发的 通用辅助生成 技术。有了这项技术,LLM 可与 任意 SLM 搭配组成辅助生成方案。从而,我们可以用辅助生成技术加速 任意 解码器模型或...
封面图

欢迎 Stable Diffusion 3.5 Large 加入 🧨 Diffusers

11 月 7 日
阅读 6 分钟
182
作为 Stable Diffusion 3 的改进版本,Stable Diffusion 3.5 如今已在 Hugging Face Hub 中可用,并可以直接使用 🧨 Diffusers 中的代码运行。
封面图

SynthID Text 现已发布|在 AI 生成文本中应用不可见水印的新技术

11 月 7 日
阅读 3 分钟
73
今天,Google DeepMind 和 Hugging Face 很共同宣布,在 Transformers v4.46.0 版本中,我们正式推出了 SynthID Text 技术。这项技术能够通过使用 logits 处理器 为生成任务添加水印,并利用 分类器 检测这些水印。
封面图

为数据集而生的 SQL 控制台

10 月 30 日
阅读 3 分钟
129
随着数据集的使用量急剧增加,Hugging Face 社区已经变成了众多数据集默认存放的仓库。每月,海量数据集被上传到社区,这些数据集亟需有效的查询、过滤和发现。
封面图

Hugging Face 与 TruffleHog 合作,实现风险预警

10 月 30 日
阅读 4 分钟
154
我们非常高兴地宣布与 Truffle Security 建立合作伙伴关系并在我们的平台集成 TruffleHog 强大的风险信息扫描功能。这些特性是 我们持续致力于提升安全性 的重要举措之一。
封面图

顶点着色网格转换为 UV 映射的纹理化网格

10 月 23 日
阅读 5 分钟
171
顶点着色是一种将颜色信息直接应用于网格顶点的简便方法。这种方式常用于生成式 3D 模型的构建,例如 InstantMesh。然而,大多数应用程序更偏好使用 UV 映射的纹理化网格。
封面图

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

10 月 21 日
阅读 5 分钟
246
在端侧部署 Transformer 模型需要仔细考虑性能和兼容性。Python 虽然功能强大,但对于部署来说有时并不算理想,特别是在由 C++ 主导的环境中。这篇博客将指导您如何使用 Optimum-Intel 和 OpenVINO™ GenAI 来优化和部署 Hugging Face Transformers 模型,确保在最小依赖性的情况下进行高效的 AI 推理。
封面图

Hugging Face 与 Wiz Research 合作提高人工智能安全性

10 月 21 日
阅读 3 分钟
132
Wiz 研究人员 与 Hugging Face 就我们平台的安全性进行合作并分享了他们的发现。 Wiz 是一家云安全公司,帮助客户以安全的方式构建和维护软件。 随着这项研究的发布,我们将借此机会重点介绍一些相关的 Hugging Face 安全改进。
封面图

更快的辅助生成: 动态推测

10 月 21 日
阅读 5 分钟
154
⭐ 在这篇博客文章中,我们将探讨 动态推测解码 ——这是由英特尔实验室和 Hugging Face 开发的一种新方法,可以加速文本生成高达 2.7 倍,具体取决于任务。从 Transformers🤗 发布的版本 4.45.0 开始,这种方法是辅助生成的默认模式⭐
封面图

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

10 月 15 日
阅读 12 分钟
229
Llama 3.2 来了!今天,我们欢迎 Llama 系列的下一个版本加入 Hugging Face。这次,我们很高兴与 Meta 合作发布多模态和小型模型。在 Hub 上提供了十个开源模型 (5 个多模态模型和 5 个仅文本模型)。
封面图

揭秘 FineVideo 数据集构建的背后的秘密

10 月 13 日
阅读 10 分钟
265
开放视频数据集稀缺,因此减缓了开源视频 AI 的发展。为此,我们构建了 FineVideo,这是一个包含 43,000 个视频的数据集,总时长为 3,400 小时,并带有丰富的描述、叙事细节、场景分割和问答对。
封面图

Gradio 5 稳定版正式发布

10 月 10 日
阅读 2 分钟
127
有了 Gradio 5,开发者可以构建 生产级的机器学习 Web 应用,这些应用不仅性能优越、可扩展、设计精美、易于访问,而且还遵循了最佳的 Web 安全实践。更重要的是,只需几行 Python 代码即可实现。
封面图

将 LLMs 精调至 1.58 比特: 使极端量化变简单

9 月 29 日
阅读 20 分钟
164
随着大语言模型 (LLMs) 规模和复杂性的增长,寻找减少它们的计算和能耗的方法已成为一个关键挑战。一种流行的解决方案是量化,其中参数的精度从标准的 16 位浮点 (FP16) 或 32 位浮点 (FP32) 降低到 8 位或 4 位等低位格式。虽然这种方法显著减少了内存使用量并加快了计算速度,但往往以准确性为代价。过度降低精度可能...
封面图

HuggingChat macOS 版现已发布

9 月 26 日
阅读 1 分钟
160
强大的模型支持: 用户可以一键访问多个顶尖的开源大语言模型,包括 Qwen 2.5 72B、Command R+、Phi 3.5、Mistral 12B 等等;
封面图

对 LLM 工具使用进行统一

9 月 26 日
阅读 7 分钟
143
我们为 LLM 确立了一个跨模型的 统一工具调用 API。有了它,你就可以在不同的模型上使用相同的代码,在 Mistral、Cohere、NousResearch 或 Llama 等模型间自由切换,而无需或很少需要根据模型更改工具调用相关的代码。此外,我们还在 transformers 中新增了一些实用接口以使工具调用更丝滑,我们还为此配备了 完整的文档...
封面图

Accelerate 1.0.0

9 月 24 日
阅读 3 分钟
175
在三年半以前、项目发起之初时,Accelerate 的目标还只是制作一个简单框架,通过一个低层的抽象来简化多 GPU 或 TPU 训练,以此替代原生的 PyTorch 训练流程:
封面图

Hugging Face 论文平台 Daily Papers 功能全解析

9 月 24 日
阅读 3 分钟
106
在快速发展的研究领域,保持对最新进展的关注至关重要。为了帮助开发者和研究人员跟踪 AI 领域的前沿动态,Hugging Face 推出了 Daily Papers 页面。自发布以来,Daily Papers 已展示了由 AK 和社区研究人员精心挑选的高质量研究。在过去一年里,已有超过 3700 篇论文被发布,页面订阅用户也增长至超过 1.2 万!
封面图

通过打包 Flash Attention 来提升 Hugging Face 训练效率

9 月 12 日
阅读 5 分钟
244
现在,在 Hugging Face 中,使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容,这要归功于一个 最近的 PR 以及新的 DataCollatorWithFlattening。
封面图

Falcon Mamba: 首个高效的无注意力机制 7B 模型

9 月 5 日
阅读 5 分钟
262
Falcon Mamba 是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中 这里 使用它进行研究或应用。
封面图

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗?

9 月 5 日
阅读 5 分钟
183
在开发 Docmatix 时,我们发现经其微调的 Florence-2 在 DocVQA 任务上表现出色,但在基准测试中得分仍比较低。为了提高基准测试得分,我们必须在 DocVQA 数据集上进一步对模型进行微调,以学习该基准测试的语法风格。有意思的是,人类评估者认为经额外微调后,模型的表现似乎反而不如仅在 Docmatix 上微调那么好,因此...
封面图

正式收购 huggingface.com 域名

9 月 5 日
阅读 1 分钟
150
我们花了一笔巨款收购了 .com 域名,恭喜我们,也恭喜过去的这位域名持有者 🫴 接住了这泼天的富贵 🤗

一次失败的实验 - 无限注意力,我们为什么坚持实验

8 月 30 日
阅读 11 分钟
179
总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知,ring attention、YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。
封面图

Docmatix - 超大文档视觉问答数据集

8 月 30 日
阅读 3 分钟
178
本文,我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集,比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时,消融实验显示 DocVQA 任务的性能提高了 20%。
封面图

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

8 月 30 日
阅读 6 分钟
187
过去的几个月,我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image,T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同,这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 的性质,这些主干网络表现出了良好的可扩展性,模型参数量可从 0.6...
封面图

ggml 简介

8 月 29 日
阅读 11 分钟
267
ggml 是一个用 C 和 C++ 编写、专注于 Transformer 架构模型推理的机器学习库。该项目完全开源,处于活跃的开发阶段,开发社区也在不断壮大。ggml 和 PyTorch、TensorFlow 等机器学习库比较相似,但由于目前处于开发的早期阶段,一些底层设计仍在不断改进中。
封面图

TGI 多-LoRA: 部署一次,搞定 30 个模型的推理服务

8 月 12 日
阅读 8 分钟
296
你是否已厌倦管理多个 AI 模型所带来的复杂性和高成本? 那么, 如果你可以部署一次就搞定 30 个模型推理服务会如何? 在当今的 ML 世界中,哪些希望充分发挥其数据的价值的组织可能最终会进入一个“微调的世界”。在这个世界,各个组织会构建大量模型,其中每个模型都针对特定任务进行了高度特化。但是,如何处理为每个细...
封面图

XetHub 加入 Hugging Face!

8 月 9 日
阅读 2 分钟
388
XetHub 是一家位于西雅图的公司,由 Yucheng Low、Ajit Banerjee 和 Rajat Arya 创立,他们之前在 Apple 工作,构建和扩展了 Apple 的内部机器学习基础设施。XetHub 的使命是为 AI 开发提供软件工程的最佳实践。XetHub 开发了技术,能够使 Git 扩展到 TB 级别的存储库,并使团队能够探索、理解和共同处理大型不断变化的...
封面图

NuminaMath 是如何荣膺首届 AIMO 进步奖的?

8 月 9 日
阅读 8 分钟
374
今年,Numina 和 Hugging Face 合作角逐 AI 数学奥林匹克 (AI Math Olympiad,AIMO) 的首届进步奖。此次比赛旨在对开放 LLM 进行微调,以使其能解决高中难度的国际数学奥林匹克训练题。我们很高兴向大家报告: 我们的模型 - NuminaMath 7B TIR - 在比赛中脱颖而出,成功解决了私有测试集 50 道题中的 29 道🥳!
封面图

SmolLM: 一个超快速、超高性能的小模型集合

8 月 3 日
阅读 7 分钟
327
本文将介绍 SmolLM。它集合了一系列最尖端的 135M、360M、1.7B 参数量的小模型,这些模型均在一个全新的高质量数据集上训练。本文将介绍数据整理、模型评测、使用方法等相关过程。
封面图

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

8 月 3 日
阅读 8 分钟
625
在发布 Gemma 2 一个月后,Google 扩展了其 Gemma 模型系列,新增了以下几款:Gemma 2 2B - 这是 Gemma 2 的 2.6B 参数版本,是设备端使用的理想选择。ShieldGemma - 一系列安全分类器,基于 Gemma 2 训练,用于开发者过滤其应用程序的输入和输出。Gemma Scope - 一个全面的、开放的稀疏自动编码器套件,适用于 Gemma 2 ...
封面图