Hugging Face - SegmentFault 思否

开源代码生成模型 StarCoder 2 全新上线！

2024-03-05

阅读 2 分钟

941

BigCode 正式推出 StarCoder2 —— 一系列新一代的开放源代码大语言模型 (LLMs)。这些模型全部基于一个全新、大规模且高品质的代码数据集 The Stack v2 进行训练。我们不仅公开了所有的模型和数据集，还包括了数据处理和训练代码的详细信息，详情请参阅相关论文。

封面图

Hugging Face 表情包来啦！

2024-03-05

阅读 1 分钟

747

作为梦想成为第一家以表情符号上市的公司，以及在社交平台发文 emoji 不离手的 Hugging Face，正式为中国社区成员们带来了一套软萌的 Hugging Face 表情包。还等什么，快来下载跟朋友们聊起来吧！

封面图

人工智能水印技术入门：工具与技巧

2024-02-28

阅读 4 分钟

1.1k

近几个月来，我们看到了多起关于“深度伪造 (deepfakes)”或人工智能生成内容的新闻报道：从泰勒·斯威夫特的图片、汤姆·汉克斯的视频到美国总统乔·拜登的录音。这些深度伪造内容被用于各种目的，如销售产品、未经授权操纵人物形象、钓鱼获取私人信息，甚至制作误导选民的虚假资料，它们在社交媒体平台的迅速传播，使其...

封面图

使用 Hugging Face 微调 Gemma 模型

2024-02-25

阅读 5 分钟

1k

我们最近宣布了，来自 Google Deepmind 开放权重的语言模型 Gemma现已通过 Hugging Face 面向更广泛的开源社区开放。该模型提供了两个规模的版本：20 亿和 70 亿参数，包括预训练版本和经过指令调优的版本。它在 Hugging Face 平台上提供支持，可在 Vertex Model Garden 和 Google Kubernetes Engine 中轻松部署和微调。

封面图

小红书 x Hugging Face 邀请你一起晒「创意新春照」

2024-02-24

阅读 4 分钟

636

为了迎接龙年春节的到来，我们的InstantID全新推出「Spring Festival」新春风格！并与著名开源模型社区 Hugging Face 联手，在小红书 APP 上，特别策划「你的新春照我包了」有奖互动。只需上传一张照片，30 秒内轻松定制你的专属新春照。

封面图

欢迎 Gemma: Google 最新推出开源大语言模型

2024-02-22

阅读 7 分钟

1.1k

今天，Google 发布了一系列最新的开放式大型语言模型 —— Gemma！Google 正在加强其对开源人工智能的支持，我们也非常有幸能够帮助全力支持这次发布，并与 Hugging Face 生态完美集成。

封面图

开源大语言模型作为 LangChain 智能体

2024-02-22

阅读 6 分钟

906

开源大型语言模型 (LLMs) 现已达到一种性能水平，使它们适合作为推动智能体工作流的推理引擎: Mixtral 甚至在我们的基准测试中超过了 GPT-3.5，并且通过微调，其性能可以轻易的得到进一步增强。

封面图

使用 🤗 Optimum Intel 在英特尔至强上加速 StarCoder: Q8/Q4 及投机解码

2024-02-20

阅读 5 分钟

906

近来，随着 BigCode 的 StarCoder 以及 Meta AI 的 Code Llama 等诸多先进模型的发布，代码生成模型变得炙手可热。同时，业界也涌现出了大量的致力于优化大语言模型 (LLM) 的运行速度及易用性的工作。我们很高兴能够分享我们在英特尔至强 CPU 上优化 LLM 的最新结果，本文我们主要关注 StarCoder 这一流行的代码生成 LLM。

封面图

LLaMA 2 - 你所需要的一切资源

2024-02-19

阅读 3 分钟

725

LLaMA 2 是一个由 Meta 开发的大型语言模型，是 LLaMA 1 的继任者。LLaMA 2 可通过 AWS、Hugging Face 等提供商获取，并免费用于研究和商业用途。LLaMA 2 预训练模型在 2 万亿个标记上进行训练，相比 LLaMA 1 的上下文长度增加了一倍。它的微调模型则在超过 100 万个人工标注数据下完成。

封面图

听说有 Hugging Face 陪伴的春节，是这样的…

2024-02-09

阅读 1 分钟

615

过去的一年我们持续看到 AI 技术的腾飞和发展，以及诸多机构为开源 AI 作出巨大的贡献。非常感谢将模型、数据集和应用 Demo 发布在 Hugging Face 上的团队，新的一年，我们也会持续发掘和介绍更多国内开发者 / 研究机构发布在 Hugging Face 上的作品。也欢迎大家主动联系我们 (ง •̀_•́)ง

封面图

扩展说明: 指令微调 Llama 2

2024-02-08

阅读 8 分钟

903

这篇博客是一篇来自 Meta AI，关于指令微调 Llama 2 的扩展说明。旨在聚焦构建指令数据集，有了它，我们则可以使用自己的指令来微调 Llama 2 基础模型。

封面图

句子嵌入: 交叉编码和重排序

2024-02-06

阅读 26 分钟

733

这个系列目的是揭开嵌入的神秘面纱，并展示如何在你的项目中使用它们。第一篇博客介绍了如何使用和扩展开源嵌入模型，选择现有的模型，当前的评价方法，以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编码的区别。进一步我们将了解检索和重排序的理论。我们会构建一个工具，它可以来回答...

封面图

全世界 LoRA 训练脚本，联合起来!

2024-02-05

阅读 13 分钟

857

我们把 Replicate 在 SDXL Cog 训练器中使用的枢轴微调 (Pivotal Tuning) 技术与 Kohya 训练器中使用的 Prodigy 优化器相结合，再加上一堆其他优化，一起对 SDXL 进行 Dreambooth LoRA 微调，取得了非常好的效果。你可以在 diffusers 上找到我们使用的训练脚本🧨，或是直接在 Colab 上试着运行一下。

封面图

随机 Transformer

2024-01-29

阅读 28 分钟

687

在这篇博客中，我们将通过一个端到端的示例来讲解 Transformer 模型中的数学原理。我们的目标是对模型的工作原理有一个良好的理解。为了使内容易于理解，我们会进行大量简化。我们将减少模型的维度，以便我们可以手动推理模型的计算过程。例如，我们将使用 4 维的嵌入向量代替原始的 512 维嵌入向量。这样做可以更容易手...

封面图

最新 Hugging Face 强化学习课程（中文版）来啦！

2024-01-22

阅读 2 分钟

783

人工智能中最引人入胜的话题莫过于深度强化学习 (Deep Reinforcement Learning) 了，我们在 2022 年 12 月 5 日开启了《深度强化学习课程 v2.0》的课程学习，有来自全球众多学员们的参加。课程已经完成更新，并且发布在 Hugging Face 官网 [链接]

封面图

SetFitABSA: 基于 SetFit 的少样本、方面级情感分析

2024-01-19

阅读 7 分钟

630

方面级情感分析 (Aspect-Based Sentiment Analysis，ABSA) 是一种检测文本中特定方面的情感的任务。例如，在“这款手机的屏幕很棒，但电池太小”一句中，分别有“屏幕”和“电池”两个方面，它们的情感极性分别是正面和负面。

封面图

给科研人的 ML 开源发布工具包

2024-01-17

阅读 8 分钟

938

其实除了发表论文之外，你还可以通过发布研究的其他部分，如代码、数据集、模型等，来增加研究的可见度和采用率。这将使更多人能够使用你的研究，并推动研究成果的应用。我们整理了这份文件，让你可以更好的了解和实践开源。希望这份文件对你有所帮助！

封面图

开放 LLM 排行榜: 深入研究 DROP

2024-01-15

阅读 4 分钟

789

最近，开放 LLM 排行榜迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP，它们都使用了 EleutherAI Harness 的原始实现。一眼望去，我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)！我们对此进行了深入调查以一探究竟，请随我们一起踏上发现之旅吧！

封面图

【Hugging Face CEO 4大新年预测】2024年将是人工智能丰收年

2024-01-12

阅读 1 分钟

445

[链接]来自CEO的新年祝福 ❤️附加了他对于2024年人工智能界的四大预测 👀你觉得2024年人工智能和机器学习界会是什么样的呢？欢迎留言👏

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

2024-01-10

阅读 10 分钟

817

Open AI 推出的 Whisper 是一个通用语音转录模型，在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜，被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据集的 58 种语言中也展现出了强大的多语言性能，在 42 种语言上的单词错误率 (WER) 低于 30％。

封面图

非工程师指南: 训练 LLaMA 2 聊天机器人

2024-01-06

阅读 5 分钟

512

本教程将向你展示在不编写一行代码的情况下，如何构建自己的开源 ChatGPT，这样人人都能构建自己的聊天模型。我们将以 LLaMA 2 基础模型为例，在开源指令数据集上针对聊天场景对其进行微调，并将微调后的模型部署到一个可分享的聊天应用中。全程只需点击鼠标，即可轻松通往荣耀之路！😀

封面图

Huggy Lingo: 利用机器学习改进 Hugging Face Hub 上的语言元数据

2024-01-04

阅读 4 分钟

881

Hugging Face Hub 已成为社区共享机器学习模型、数据集以及应用的存储库。随着 Hub 上的数据集越来越多，元数据，作为一种能帮助用户找到所需数据集的工具，变得越来越重要。

封面图

欢迎 Mixtral - 当前 Hugging Face 上最先进的 MoE 模型

2024-01-04

阅读 8 分钟

943

最近，Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b，该模型把开放模型的性能带到了一个新高度，并在许多基准测试上表现优于 GPT-3.5。我们很高兴能够在 Hugging Face 生态系统中全面集成 Mixtral 以对其提供全方位的支持 🔥！

封面图

Hugging Face 年度回顾：2023，开源大模型之年

2023-12-29

阅读 11 分钟

1.4k

在 2023 年，大型语言模型（Large Language Models，简称 LLMs）受到了公众的广泛关注，许多人对这些模型的本质及其功能有了基本的了解。是否开源的议题同样引起了广泛的讨论。在 Hugging Face，我们对开源模型抱有极大热情。开源模型的优势在于，它们不仅促进了研究的可复制性，还鼓励社区参与到人工智能模型的开发中来...

封面图

Reformer 模型 - 突破语言建模的极限

2023-12-27

阅读 32 分钟

559

最近，人们对长序列建模的兴趣激增，仅今年一年，就涌现出了大量的工作，如 Beltagy 等人的工作 (2020) 、Roy 等人的工作 (2020) 、Tay 等人的工作以及 Wang 等人的工作等等。长序列建模背后的动机是，NLP 中的许多任务 (例如摘要、问答 ) 要求模型处理更长的序列，这些序列长度超出了 BERT 等模型的处理能力。在需...

封面图

混合专家模型 (MoE) 详解

2023-12-26

阅读 12 分钟

983

随着 Mixtral 8x7B (announcement, model card) 的推出，一种称为混合专家模型 (Mixed Expert Models，简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探讨 MoEs 的核心组件、训练方法，以及在推理过程中需要考量的各种因素。

封面图

3D 高斯点染简介

2023-12-26

阅读 3 分钟

908

3D 高斯点染技术由 3D Gaussian Splatting for Real-Time Radiance Field Rendering 一文首次提出。作为一种栅格化技术，3D 高斯点染可用于实时且逼真地渲染从一小组图像中学到的场景。本文将详细介绍其工作原理并讨论其对图形学的未来会带来什么影响。

封面图

Google Colab 环境现已无需手动登录 HF 账号

2023-12-22

阅读 1 分钟

674

前段时间我们介绍了一些 HF 核心库在 Google Colab 环境中的内置，包括可以使用 hf:// 资源标识符来调用 Hub 上的数据集等等，详情可以回顾文章：Google Colab 现已支持直接使用 🤗 transformers 库。

封面图

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

2023-12-20

阅读 15 分钟

3.1k

自然语言处理 (NLP) 领域的进展日新月异，你方唱罢我登场。因此，在实际场景中，针对特定的任务，我们经常需要对不同的语言模型进行比较，以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2-7B。我们用它们来解决一个常见问题 —— 对灾难相关的推文进行分类。值得注意的是，Mistral 和 Llama 2...

封面图

3D 高斯喷溅 🤗 为什么图形永远不会相同

2023-12-16

阅读 1 分钟

492

高斯喷溅 (Gaussian Splatting) 技术是一种翻天覆地的渲染手段，能够以 144 帧每秒的速度渲染出高质量的场景，这和传统的图形处理流程截然不同

封面图

5

5