开放 LLM 排行榜: 深入研究 DROP

2024-01-15
阅读 4 分钟
1.1k
最近,开放 LLM 排行榜 迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP,它们都使用了 EleutherAI Harness 的原始实现。一眼望去,我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)!我们对此进行了深入调查以一探究竟,请随我们一起踏上发现之旅吧!
封面图

【Hugging Face CEO 4大新年预测】2024年将是人工智能丰收年

2024-01-12
阅读 1 分钟
624
[链接]来自CEO的新年祝福 ❤️附加了他对于2024年人工智能界的四大预测 👀你觉得2024年人工智能和机器学习界会是什么样的呢?欢迎留言👏

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

2024-01-10
阅读 10 分钟
1.2k
Open AI 推出的 Whisper 是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜,被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据集的 58 种语言中也展现出了强大的多语言性能,在 42 种语言上的单词错误率 (WER) 低于 30%。
封面图

非工程师指南: 训练 LLaMA 2 聊天机器人

2024-01-06
阅读 5 分钟
1.1k
本教程将向你展示在不编写一行代码的情况下,如何构建自己的开源 ChatGPT,这样人人都能构建自己的聊天模型。我们将以 LLaMA 2 基础模型为例,在开源指令数据集上针对聊天场景对其进行微调,并将微调后的模型部署到一个可分享的聊天应用中。全程只需点击鼠标,即可轻松通往荣耀之路!😀
封面图

Huggy Lingo: 利用机器学习改进 Hugging Face Hub 上的语言元数据

2024-01-04
阅读 4 分钟
1.1k
Hugging Face Hub 已成为社区共享机器学习模型、数据集以及应用的存储库。随着 Hub 上的数据集越来越多,元数据,作为一种能帮助用户找到所需数据集的工具,变得越来越重要。
封面图

欢迎 Mixtral - 当前 Hugging Face 上最先进的 MoE 模型

2024-01-04
阅读 8 分钟
1.2k
最近,Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b,该模型把开放模型的性能带到了一个新高度,并在许多基准测试上表现优于 GPT-3.5。我们很高兴能够在 Hugging Face 生态系统中全面集成 Mixtral 以对其提供全方位的支持 🔥!
封面图

Hugging Face 年度回顾:2023,开源大模型之年

2023-12-29
阅读 11 分钟
1.8k
在 2023 年,大型语言模型(Large Language Models,简称 LLMs)受到了公众的广泛关注,许多人对这些模型的本质及其功能有了基本的了解。是否开源的议题同样引起了广泛的讨论。在 Hugging Face,我们对开源模型抱有极大热情。开源模型的优势在于,它们不仅促进了研究的可复制性,还鼓励社区参与到人工智能模型的开发中来...
封面图

Reformer 模型 - 突破语言建模的极限

2023-12-27
阅读 32 分钟
860
最近,人们对长序列建模的兴趣激增,仅今年一年,就涌现出了大量的工作,如 Beltagy 等人的工作 (2020) 、Roy 等人的工作 (2020) 、Tay 等人的工作 以及 Wang 等人的工作 等等。长序列建模背后的动机是,N​​LP 中的许多任务 (例如 摘要、问答 ) 要求模型处理更长的序列,这些序列长度超出了 BERT 等模型的处理能力。在需...
封面图

混合专家模型 (MoE) 详解

2023-12-26
阅读 12 分钟
1.4k
随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨 MoEs 的核心组件、训练方法,以及在推理过程中需要考量的各种因素。
封面图

​3D 高斯点染简介

2023-12-26
阅读 3 分钟
1.4k
3D 高斯点染技术由 3D Gaussian Splatting for Real-Time Radiance Field Rendering 一文首次提出。作为一种栅格化技术,3D 高斯点染可用于实时且逼真地渲染从一小组图像中学到的场景。本文将详细介绍其工作原理并讨论其对图形学的未来会带来什么影响。
封面图

Google Colab 环境现已无需手动登录 HF 账号

2023-12-22
阅读 1 分钟
981
前段时间我们介绍了一些 HF 核心库在 Google Colab 环境中的内置,包括可以使用 hf:// 资源标识符来调用 Hub 上的数据集等等,详情可以回顾文章:Google Colab 现已支持直接使用 🤗 transformers 库。
封面图

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

2023-12-20
阅读 15 分钟
4.9k
自然语言处理 (NLP) 领域的进展日新月异,你方唱罢我登场。因此,在实际场景中,针对特定的任务,我们经常需要对不同的语言模型进行比较,以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2-7B。我们用它们来解决一个常见问题 —— 对灾难相关的推文进行分类。值得注意的是,Mistral 和 Llama 2...
封面图

3D 高斯喷溅 🤗 为什么图形永远不会相同

2023-12-16
阅读 1 分钟
744
高斯喷溅 (Gaussian Splatting) 技术是一种翻天覆地的渲染手段,能够以 144 帧每秒的速度渲染出高质量的场景,这和传统的图形处理流程截然不同
封面图

使用 PyTorch FSDP 微调 Llama 2 70B

2023-12-12
阅读 9 分钟
1.1k
通过本文,你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中,我们主要会用到 Hugging Face Transformers、Accelerate 和 TRL 库。我们还将展示如何在 SLURM 中使用 Accelerate。
封面图

使用 PyTorch 完全分片数据并行技术加速大模型训练

2023-12-04
阅读 9 分钟
1.2k
随着机器学习 (ML) 模型的规模、大小和参数量的不断增加,ML 从业者发现在自己的硬件上训练甚至加载如此大的模型变得越来越难。 一方面,人们发现大模型与较小的模型相比,学习速度更快 (数据和计算效率更高) 且会有显著的提升 [1]; 另一方面,在大多数硬件上训练此类模型变得令人望而却步。
封面图

Google Colab 现已支持直接使用 🤗 transformers 库

2023-12-01
阅读 1 分钟
1k
Google Colab,全称 Colaboratory,是 Google Research 团队开发的一款产品。在 Colab 中,任何人都可以通过浏览器编写和执行任意 Python 代码。它尤其适合机器学习、数据分析和教育目的。从技术上来说,Colab 是一种托管式 Jupyter 笔记本服务。用户无需设置,就可以直接使用,同时还能获得 GPU 等计算资源的免费使用权...
封面图

Gradio-Lite: 完全在浏览器里运行的无服务器 Gradio

2023-12-01
阅读 5 分钟
976
Gradio 是一个经常用于创建交互式机器学习应用的 Python 库。在以前按照传统方法,如果想对外分享 Gradio 应用,就需要依赖服务器设备和相关资源,而这对于自己部署的开发人员来说并不友好。
封面图

【AI 安全探索】AI 流行的时代,我们应该担心什么?

2023-11-28
阅读 1 分钟
565
[链接]是未来危机,还是眼下的问题?🌍Sasha Luccioni 是 Hugging Face 团队的道德和可持续人工智能研究员,被邀请做了 TED 演讲 📢演讲主题也是最近在 AI 伦理道德方面的热门话题:人工智能流行的时代,我们到底应该担心什么?希望本视频可以带你更好地了解人工智能模型、数据集和系统对社会和环境的影响 ❤️
封面图

深入理解 BigBird 的块稀疏注意力

2023-11-24
阅读 12 分钟
965
基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,$O(n^2)$ 的时间和内存复杂度 (其中 $n$ 是序列长度) 使得在长序列 ($n > 512$) 上应用它们变得非常昂贵,因而大大限制了其应用。最近的几篇论文,如 Longformer 、Performer 、Reformer 、簇状注意力 都试图通过对完整注意力矩阵进行近似来解决这...
封面图

使用 LCM LoRA 4 步完成 SDXL 推理

2023-11-20
阅读 8 分钟
1.6k
LCM 模型 通过将原始模型蒸馏为另一个需要更少步数 (4 到 8 步,而不是原来的 25 到 50 步) 的版本以减少用 Stable Diffusion (或 SDXL) 生成图像所需的步数。蒸馏是一种训练过程,其主要思想是尝试用一个新模型来复制源模型的输出。蒸馏后的模型要么尺寸更小 (如 DistilBERT 或最近发布的 Distil-Whisper),要么需要运...
封面图

使用 PPO 算法进行 RLHF 的 N 步实现细节

2023-11-16
阅读 24 分钟
1.3k
当下,RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究,这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库,其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” 的特性,但 OpenAI 的原始代码库评估和基准测试非常完善,使其成为研究 RLHF 实现工程细...
封面图

个人编程助手: 训练你自己的编码助手

2023-11-15
阅读 12 分钟
798
在编程和软件开发这个不断演变的领域中,对效率和生产力的追求催生了许多卓越的创新。其中一个显著的创新就是代码生成模型的出现,如 Codex、StarCoder 和 Code Llama。这些模型在生成类似人类编写的代码片段方面表现出惊人能力,显示出了作为编程助手的巨大潜力。
封面图

Transformers 中原生支持的量化方案概述

2023-11-13
阅读 6 分钟
935
本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述,以助于读者进行方案选择。目前,量化模型有两个主要的用途:在较小的设备上进行大模型推理对量化模型进行适配器微调到目前为止,transformers 已经集成并 原生 支持了 bitsandbytes 和 auto-gptq 这两个量化库。请注意,🤗 optimum 还支持更多的量...
封面图

Hugging Face 在法国联合启动人工智能创业项目!

2023-11-10
阅读 1 分钟
860
[链接]Hugging Face、Meta、Scaleway 与法国创业孵化基地 STATION F 合作的人工智能创业项目正式启动 📢🔥 申请截止日期为 12 月 1 日本项目旨在利用开源人工智能的力量来扶持初创公司并推动人工智能创业生态的创新🌪如果你是:👾 一家愿意开发开源模型的人工智能初创企业🇫🇷 已在法国注册,并准备在 2024 年上半年搬迁至 STA...
封面图

开源模型 Zephyr-7B 发布——跨越三大洲的合作

2023-11-09
阅读 1 分钟
877
✨ 就在几个月前,巴黎的一个新团队发布了他们首个模型: Mistral 7B,这个模型体积小巧但性能强劲,在基准测试中的表现超过了所有同类模型。而且这是个开源模型,这意味着大家都可以在此基础上进行开发。
封面图

用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

2023-11-07
阅读 8 分钟
2.6k
众所周知,LLM 规模庞大,如果在也能消费类硬件中运行或训练它们将是其亲民化的巨大进步。我们之前撰写的 LLM.int8 博文 展示了我们是如何将 LLM.int8 论文 中的技术通过 bitsandbytes 库集成到 transformers 中的。在此基础上,我们不断努力以不断降低大模型的准入门槛。在此过程中,我们决定再次与 bitsandbytes 联手...
封面图

HF Hub 现已加入存储区域功能

2023-11-06
阅读 1 分钟
743
我们在 企业版 Hub 服务 方案中推出了 存储区域(Storage Regions) 功能。通过此功能,用户能够自主决定其组织的模型和数据集的存储地点,这带来两大显著优势,接下来的内容会进行简要介绍:法规和数据合规,此外还能增强数字主权性能提升(下载和上传速度更快,减少延迟)目前,我们支持以下几个存储区域:美国 🇺🇸欧盟...
封面图

发布会回放|Gradio 4.0 正式发布!

2023-11-02
阅读 1 分钟
1k
Gradio 的目标是使机器学习模型的演示更容易定制和访问,以满足不同用户的需求。在 4.0 正式版的发布活动上,Hugging Face 的 Gradio 团队介绍了自己为了提高机器学习模型的可访问性所做的工作,以及如何创建自定义组件。
封面图

实战|如何低成本训练一个可以超越 70B Llama2 的模型 Zephyr-7B

2023-10-28
阅读 2 分钟
767
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」。快来看看有哪些近期更新吧! 🎉
封面图

长程 Transformer 模型

2023-10-26
阅读 8 分钟
974
本文由 Teven Le Scao、Patrick Von Platen、Suraj Patil、Yacine Jernite 和 Victor Sanh 共同撰写。