使用 🤗 Optimum Intel 在英特尔至强上加速 StarCoder: Q8/Q4 及投机解码

2 月 20 日
阅读 5 分钟
539
近来,随着 BigCode 的 StarCoder 以及 Meta AI 的 Code Llama 等诸多先进模型的发布,代码生成模型变得炙手可热。同时,业界也涌现出了大量的致力于优化大语言模型 (LLM) 的运行速度及易用性的工作。我们很高兴能够分享我们在英特尔至强 CPU 上优化 LLM 的最新结果,本文我们主要关注 StarCoder 这一流行的代码生成 LLM。
封面图

LLaMA 2 - 你所需要的一切资源

2 月 19 日
阅读 3 分钟
459
LLaMA 2 是一个由 Meta 开发的大型语言模型,是 LLaMA 1 的继任者。LLaMA 2 可通过 AWS、Hugging Face 等提供商获取,并免费用于研究和商业用途。LLaMA 2 预训练模型在 2 万亿个标记上进行训练,相比 LLaMA 1 的上下文长度增加了一倍。它的微调模型则在超过 100 万个人工标注数据下完成。
封面图

听说有 Hugging Face 陪伴的春节,是这样的…

2 月 9 日
阅读 1 分钟
462
过去的一年我们持续看到 AI 技术的腾飞和发展,以及诸多机构为开源 AI 作出巨大的贡献。非常感谢将模型、数据集和应用 Demo 发布在 Hugging Face 上的团队,新的一年,我们也会持续发掘和介绍更多国内开发者 / 研究机构发布在 Hugging Face 上的作品。也欢迎大家主动联系我们 (ง •̀_•́)ง
封面图

扩展说明: 指令微调 Llama 2

2 月 8 日
阅读 8 分钟
584
这篇博客是一篇来自 Meta AI,关于指令微调 Llama 2 的扩展说明。旨在聚焦构建指令数据集,有了它,我们则可以使用自己的指令来微调 Llama 2 基础模型。
封面图

句子嵌入: 交叉编码和重排序

2 月 6 日
阅读 26 分钟
452
这个系列目的是揭开嵌入的神秘面纱,并展示如何在你的项目中使用它们。第一篇博客 介绍了如何使用和扩展开源嵌入模型,选择现有的模型,当前的评价方法,以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编码的区别。进一步我们将了解 检索和重排序 的理论。我们会构建一个工具,它可以来回答...
封面图

全世界 LoRA 训练脚本,联合起来!

2 月 5 日
阅读 13 分钟
518
我们把 Replicate 在 SDXL Cog 训练器中使用的枢轴微调 (Pivotal Tuning) 技术与 Kohya 训练器中使用的 Prodigy 优化器相结合,再加上一堆其他优化,一起对 SDXL 进行 Dreambooth LoRA 微调,取得了非常好的效果。你可以在 diffusers 上找到 我们使用的训练脚本🧨,或是直接 在 Colab 上 试着运行一下。
封面图

随机 Transformer

1 月 29 日
阅读 28 分钟
395
在这篇博客中,我们将通过一个端到端的示例来讲解 Transformer 模型中的数学原理。我们的目标是对模型的工作原理有一个良好的理解。为了使内容易于理解,我们会进行大量简化。我们将减少模型的维度,以便我们可以手动推理模型的计算过程。例如,我们将使用 4 维的嵌入向量代替原始的 512 维嵌入向量。这样做可以更容易手...
封面图

最新 Hugging Face 强化学习课程(中文版)来啦!

1 月 22 日
阅读 2 分钟
476
人工智能中最引人入胜的话题莫过于深度强化学习 (Deep Reinforcement Learning) 了,我们在 2022 年 12 月 5 日开启了《深度强化学习课程 v2.0》的课程学习,有来自全球众多学员们的参加。课程已经完成更新,并且发布在 Hugging Face 官网 [链接]
封面图

SetFitABSA: 基于 SetFit 的少样本、方面级情感分析

1 月 19 日
阅读 7 分钟
359
方面级情感分析 (Aspect-Based Sentiment Analysis,ABSA) 是一种检测文本中特定方面的情感的任务。例如,在“这款手机的屏幕很棒,但电池太小”一句中,分别有“屏幕”和“电池”两个方面,它们的情感极性分别是正面和负面。
封面图

给科研人的 ML 开源发布工具包

1 月 17 日
阅读 8 分钟
379
其实除了发表论文之外,你还可以通过发布研究的其他部分,如代码、数据集、模型等,来增加研究的可见度和采用率。这将使更多人能够使用你的研究,并推动研究成果的应用。我们整理了这份文件,让你可以更好的了解和实践开源。希望这份文件对你有所帮助!
封面图

开放 LLM 排行榜: 深入研究 DROP

1 月 15 日
阅读 4 分钟
374
最近,开放 LLM 排行榜 迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP,它们都使用了 EleutherAI Harness 的原始实现。一眼望去,我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)!我们对此进行了深入调查以一探究竟,请随我们一起踏上发现之旅吧!
封面图

【Hugging Face CEO 4大新年预测】2024年将是人工智能丰收年

1 月 12 日
阅读 1 分钟
253
[链接]来自CEO的新年祝福 ❤️附加了他对于2024年人工智能界的四大预测 👀你觉得2024年人工智能和机器学习界会是什么样的呢?欢迎留言👏

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

1 月 10 日
阅读 10 分钟
450
Open AI 推出的 Whisper 是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜,被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据集的 58 种语言中也展现出了强大的多语言性能,在 42 种语言上的单词错误率 (WER) 低于 30%。
封面图

非工程师指南: 训练 LLaMA 2 聊天机器人

1 月 6 日
阅读 5 分钟
270
本教程将向你展示在不编写一行代码的情况下,如何构建自己的开源 ChatGPT,这样人人都能构建自己的聊天模型。我们将以 LLaMA 2 基础模型为例,在开源指令数据集上针对聊天场景对其进行微调,并将微调后的模型部署到一个可分享的聊天应用中。全程只需点击鼠标,即可轻松通往荣耀之路!😀
封面图

Huggy Lingo: 利用机器学习改进 Hugging Face Hub 上的语言元数据

1 月 4 日
阅读 4 分钟
601
Hugging Face Hub 已成为社区共享机器学习模型、数据集以及应用的存储库。随着 Hub 上的数据集越来越多,元数据,作为一种能帮助用户找到所需数据集的工具,变得越来越重要。
封面图

欢迎 Mixtral - 当前 Hugging Face 上最先进的 MoE 模型

1 月 4 日
阅读 8 分钟
650
最近,Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b,该模型把开放模型的性能带到了一个新高度,并在许多基准测试上表现优于 GPT-3.5。我们很高兴能够在 Hugging Face 生态系统中全面集成 Mixtral 以对其提供全方位的支持 🔥!
封面图

Hugging Face 年度回顾:2023,开源大模型之年

2023-12-29
阅读 11 分钟
860
在 2023 年,大型语言模型(Large Language Models,简称 LLMs)受到了公众的广泛关注,许多人对这些模型的本质及其功能有了基本的了解。是否开源的议题同样引起了广泛的讨论。在 Hugging Face,我们对开源模型抱有极大热情。开源模型的优势在于,它们不仅促进了研究的可复制性,还鼓励社区参与到人工智能模型的开发中来...
封面图

Reformer 模型 - 突破语言建模的极限

2023-12-27
阅读 32 分钟
251
最近,人们对长序列建模的兴趣激增,仅今年一年,就涌现出了大量的工作,如 Beltagy 等人的工作 (2020) 、Roy 等人的工作 (2020) 、Tay 等人的工作 以及 Wang 等人的工作 等等。长序列建模背后的动机是,N​​LP 中的许多任务 (例如 摘要、问答 ) 要求模型处理更长的序列,这些序列长度超出了 BERT 等模型的处理能力。在需...
封面图

混合专家模型 (MoE) 详解

2023-12-26
阅读 12 分钟
470
随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨 MoEs 的核心组件、训练方法,以及在推理过程中需要考量的各种因素。
封面图

​3D 高斯点染简介

2023-12-26
阅读 3 分钟
495
3D 高斯点染技术由 3D Gaussian Splatting for Real-Time Radiance Field Rendering 一文首次提出。作为一种栅格化技术,3D 高斯点染可用于实时且逼真地渲染从一小组图像中学到的场景。本文将详细介绍其工作原理并讨论其对图形学的未来会带来什么影响。
封面图

Google Colab 环境现已无需手动登录 HF 账号

2023-12-22
阅读 1 分钟
373
前段时间我们介绍了一些 HF 核心库在 Google Colab 环境中的内置,包括可以使用 hf:// 资源标识符来调用 Hub 上的数据集等等,详情可以回顾文章:Google Colab 现已支持直接使用 🤗 transformers 库。
封面图

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

2023-12-20
阅读 15 分钟
707
自然语言处理 (NLP) 领域的进展日新月异,你方唱罢我登场。因此,在实际场景中,针对特定的任务,我们经常需要对不同的语言模型进行比较,以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2-7B。我们用它们来解决一个常见问题 —— 对灾难相关的推文进行分类。值得注意的是,Mistral 和 Llama 2...
封面图

3D 高斯喷溅 🤗 为什么图形永远不会相同

2023-12-16
阅读 1 分钟
257
高斯喷溅 (Gaussian Splatting) 技术是一种翻天覆地的渲染手段,能够以 144 帧每秒的速度渲染出高质量的场景,这和传统的图形处理流程截然不同
封面图

使用 PyTorch FSDP 微调 Llama 2 70B

2023-12-12
阅读 9 分钟
490
通过本文,你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中,我们主要会用到 Hugging Face Transformers、Accelerate 和 TRL 库。我们还将展示如何在 SLURM 中使用 Accelerate。
封面图

使用 PyTorch 完全分片数据并行技术加速大模型训练

2023-12-04
阅读 9 分钟
484
随着机器学习 (ML) 模型的规模、大小和参数量的不断增加,ML 从业者发现在自己的硬件上训练甚至加载如此大的模型变得越来越难。 一方面,人们发现大模型与较小的模型相比,学习速度更快 (数据和计算效率更高) 且会有显著的提升 [1]; 另一方面,在大多数硬件上训练此类模型变得令人望而却步。
封面图

Google Colab 现已支持直接使用 🤗 transformers 库

2023-12-01
阅读 1 分钟
300
Google Colab,全称 Colaboratory,是 Google Research 团队开发的一款产品。在 Colab 中,任何人都可以通过浏览器编写和执行任意 Python 代码。它尤其适合机器学习、数据分析和教育目的。从技术上来说,Colab 是一种托管式 Jupyter 笔记本服务。用户无需设置,就可以直接使用,同时还能获得 GPU 等计算资源的免费使用权...
封面图

Gradio-Lite: 完全在浏览器里运行的无服务器 Gradio

2023-12-01
阅读 5 分钟
385
Gradio 是一个经常用于创建交互式机器学习应用的 Python 库。在以前按照传统方法,如果想对外分享 Gradio 应用,就需要依赖服务器设备和相关资源,而这对于自己部署的开发人员来说并不友好。
封面图

【AI 安全探索】AI 流行的时代,我们应该担心什么?

2023-11-28
阅读 1 分钟
194
[链接]是未来危机,还是眼下的问题?🌍Sasha Luccioni 是 Hugging Face 团队的道德和可持续人工智能研究员,被邀请做了 TED 演讲 📢演讲主题也是最近在 AI 伦理道德方面的热门话题:人工智能流行的时代,我们到底应该担心什么?希望本视频可以带你更好地了解人工智能模型、数据集和系统对社会和环境的影响 ❤️
封面图

深入理解 BigBird 的块稀疏注意力

2023-11-24
阅读 12 分钟
357
基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,$O(n^2)$ 的时间和内存复杂度 (其中 $n$ 是序列长度) 使得在长序列 ($n > 512$) 上应用它们变得非常昂贵,因而大大限制了其应用。最近的几篇论文,如 Longformer 、Performer 、Reformer 、簇状注意力 都试图通过对完整注意力矩阵进行近似来解决这...
封面图

使用 LCM LoRA 4 步完成 SDXL 推理

2023-11-20
阅读 8 分钟
773
LCM 模型 通过将原始模型蒸馏为另一个需要更少步数 (4 到 8 步,而不是原来的 25 到 50 步) 的版本以减少用 Stable Diffusion (或 SDXL) 生成图像所需的步数。蒸馏是一种训练过程,其主要思想是尝试用一个新模型来复制源模型的输出。蒸馏后的模型要么尺寸更小 (如 DistilBERT 或最近发布的 Distil-Whisper),要么需要运...
封面图