Hugging Face - SegmentFault 思否

大模型评估排障指南 | 关于可复现性

5 月 13 日

阅读 3 分钟

212

这是大模型评估排障指南系列文章的第三篇，敬请关注系列文章:关于推理关于\( \LaTeX \)公式解析关于可复现性假设你读了一篇最近的新模型技术报告，然后心血来潮想要在本机复现他们的结果，却发现根本没法复现，这是为什么？让我们来探讨一下原因。代码库不同要想复现论文或报告的评估得分并精确到小数点，首先要确保使...

封面图

大模型评估排障指南 | 关于 LaTeX 公式解析

5 月 8 日

阅读 3 分钟

331

这是大模型评估排障指南系列文章的第二篇，敬请关注系列文章:关于推理关于 \( \LaTeX \) 公式解析关于可复现性解析 LaTeX 很难。这个问题在评估输出为\( \LaTeX \) 的模型时经常会遇到，例如 Hugging Face 的数学评估基准。这个基准使用 \( \LaTeX \) 来表示数学领域的计算和符号。评估难点在于对模型输出与标准答案...

封面图

设计即合规: 开放AI生态中的用户数据治理实践

5 月 1 日

阅读 6 分钟

520

Hugging Face Hub 已成为 AI 协作的核心平台，托管了数万个模型、数据集以及交互式应用程序 (Space)。在开放生态系统中，用户知情同意的管理方式与那些更 "数据饥渴" 的科技公司的封闭产品截然不同。本文将通过分析 Hugging Face Hub 平台，探讨由官方主导项目与社区自主贡献中的用户同意实践模式。与传统的科技平台不...

封面图

大模型评估排障指南 | 关于推理

4 月 25 日

阅读 2 分钟

407

这是大模型评估排障指南系列文章的第一篇，敬请关注系列文章:关于推理关于 $\LaTeX$ 公式解析关于可复现性模型运行非常慢怎么办？调整 batch size如果你想要评估结果完全可复现 (在特定的输入 prompt 和硬件条件下)，你可以把 batch size 可以设为 1。但如果增大 batch size (硬件条件允许的话) 将会加快推理速度。数...

封面图

让 LLM 来评判 | 技巧与提示

4 月 9 日

阅读 1 分钟

363

缺乏内部一致性：同一 prompt 输入评估模型执行多次得到的结果可能不一样 (如果温度参数不设为 0)。缓解措施：遵循 “自我一致性 (self-consistency)” 设置 prompt，输入模型执行多次并保留多数结果

封面图

Open R1 项目进展第三期

4 月 7 日

阅读 7 分钟

456

CodeForces-CoTs 数据集: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本，同时包含 C++ 和 Python 双语言解题方案

封面图

Open R1 项目进展第二期

4 月 1 日

阅读 5 分钟

427

除此之外，我们还聊聊社区里一些让人兴奋的进展，比如怎么整理出小而精的高质量数据集来微调模型，以及如何在训练和推理时控制推理模型的“思考步数”。

封面图

Open R1 项目进展第一期

3 月 29 日

阅读 6 分钟

486

DeepSeek R1 发布已经两周了，而我们启动 open-r1 项目——试图补齐它缺失的训练流程和合成数据——也才过了一周。这篇文章简单聊聊:Open-R1 在模仿 DeepSeek-R1 流程和数据方面的进展我们对 DeepSeek-R1 的认识和相关讨论DeepSeek-R1 发布后社区搞出来的有趣项目这既是项目的最新动态，也是一些关于 DeepSeek-R1 的有趣资料...

封面图

为什么 AI 模型离科学革命还差得很远？

3 月 27 日

阅读 3 分钟

394

这个“压缩的 21 世纪”概念来自 Dario 的文章《Machine of Loving Grace》，强烈推荐大家读一读。这是一篇值得深思的好文章。文章的核心观点是，在未来一两年内，我们将拥有一个“装在数据中心里的爱因斯坦之国”，所有 21 世纪的科学发现将在短短 5 到 10 年内被一股脑地完成，从而压缩了整个世纪的科技进程。

封面图

常见的 AI 模型格式

3 月 27 日

阅读 5 分钟

581

过去两年，开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布，并被用于实际应用中。然而，开发者在使用这些模型时面临的一个挑战是模型格式的多样性。

封面图

SmolVLM2: 让视频理解能力触手可及

3 月 24 日

阅读 6 分钟

487

SmolVLM2 标志着视频理解技术的根本性转变——从依赖海量计算资源的巨型模型，转向可在任何设备运行的轻量级模型。我们的目标很简单: 让视频理解技术从手机到服务器都能轻松部署。

封面图

在 Hugging Face Spaces 上使用 Gradio 免费运行 ComfyUI 工作流

3 月 24 日

阅读 18 分钟

414

在本教程中，我将逐步指导如何将一个复杂的 ComfyUI 工作流转换为一个简单的 Gradio 应用程序，并讲解如何将其部署在 Hugging Face Spaces 的 ZeroGPU 无服务器架构上，这样可以让它以无服务器的方式免费部署和运行。在本教程中，我们将使用 [Nathan Shipley 的 Flux[dev] Redux + Flux[dev] Depth ComfyUI 工作流]([链...

封面图

在 Hugging Face 上部署语音转语音模型

3 月 12 日

阅读 7 分钟

653

S2S (语音到语音) 是 Hugging Face 社区内存在的一个令人兴奋的新项目，它结合了多种先进的模型，创造出几乎天衣无缝的体验: 你输入语音，系统会用合成的声音进行回复。

封面图

LayerSkip: 使用自推测解码加速大模型推理

3 月 11 日

阅读 8 分钟

425

自推测解码是一种新颖的文本生成方法，它结合了推测解码 (Speculative Decoding) 的优势和大语言模型 (LLM) 的提前退出 (Early Exit) 机制。该方法出自论文 LayerSkip: Enabling Early-Exit Inference and Self-Speculative Decoding。它通过使用同一个模型的早期层来生成候选词元 (token)，并使用后期层进行验证，从...

封面图

从文件到块: 提高 Hugging Face 存储效率

3 月 4 日

阅读 3 分钟

1k

Hugging Face 在 Git LFS 仓库中存储了超过 30 PB 的模型、数据集和 Spaces。由于 Git 在文件级别进行存储和版本控制，任何文件的修改都需要重新上传整个文件。这在 Hub 上会产生高昂的成本，因为平均每个 Parquet 和 CSV 文件大小在 200-300 MB 之间，Safetensor 文件约 1 GB，而 GGUF 文件甚至可能超过 8 GB。设想一...

封面图

让 LLM 来评判 | 设计你自己的评估 prompt

2 月 27 日

阅读 2 分钟

550

这是让 LLM 来评判系列文章的第三篇，敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示

封面图

AI 艺术工具通讯

2 月 22 日

阅读 4 分钟

704

过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的 AI 工具从未像现在这般触手可及，然而这仅仅是冰山一角。让我们共同回顾 2024 年 AI 艺术领域的关键突破与创新工具，并展望 2025 年的发展趋势 (剧透预警 👀: 我们将启动月度资讯精选的订阅👇)。

封面图

让 LLM 来评判 | 奖励模型相关内容

2 月 14 日

阅读 2 分钟

507

这是让 LLM 来评判系列文章的第五篇，敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示

封面图

上海站 | 2025 Seeed x LeRobot 具身智能黑客松报名开启！

2 月 12 日

阅读 3 分钟

660

欢迎来到 Physical AI 的最前沿！Seeed x LeRobot 具身智能黑客松现邀请所有对在机器人领域训练模仿学习策略，并实时进行推理部署感兴趣的人，共同创造具有影响力的创新解决方案。在这里，你可以与志同道合的开发者一起实践前沿机器人技术，获取免费硬件支持和独家资源，并快速在真实机器人系统中验证你的想法！

封面图

让 LLM 来评判 | 评估你的评估结果

2 月 11 日

阅读 1 分钟

492

这是让 LLM 来评判系列文章的第三篇，敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示

封面图

让 LLM 来评判 | 选择 LLM 评估模型

1 月 14 日

阅读 2 分钟

710

这是让 LLM 来评判系列文章的第一篇，敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示

封面图

让 LLM 来评判 | 基础概念

1 月 11 日

阅读 2 分钟

511

这是让 LLM 来评判系列文章的第一篇，敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示

封面图

自动评估基准 | 一些评估测试集

1 月 8 日

阅读 10 分钟

713

大部分数据集有些 “过时”，因为它们是在 LLM 出现之前构建的，当时是为了评估语言文本的某个特定属性 (如翻译、摘要)，但是可能已经不适合现在的 LLM 评估方法了 (现在的评估方法倾向于通用、整体性)。 (如果你有空余时间可以对下列数据集添加出版日期，会对本文非常有帮助!) (这部分后续也会更新包含大语言模型的评估)

封面图

自动评估基准 | 技巧与提示

1 月 1 日

阅读 2 分钟

660

测试集中加入哨兵字符串 (canary string) (如BigBench)，这是一种特殊的字符组合，使得模型创建者可以在训练集中查找，来表明该数据中是否包含评估。

封面图

基于开放模型的推理时计算缩放

1 月 1 日

阅读 10 分钟

583

过去几年，大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效，但预训练更大模型所需的资源变得异常昂贵，数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣，即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算，而是采用动态推理策略，让模型能够对难题进...

封面图

自动评估基准 | 设计你的自动评估任务

2024-12-26

阅读 3 分钟

671

做评估时，你可以选择现有的数据集 (参考一些评估数据集页面) 作为测试集，也可以设计自己的数据集。有一点非常重要，请注意：评估的结果与评估的数据集质量高度相关。

封面图

自动评估基准 | 基础概念

2024-12-26

阅读 2 分钟

574

自动化基准测试通常按照以下方式工作：你希望了解你的模型在某些方面的表现。这些“某些方面”可以是一个明确定义的具体任务，例如“我的模型在垃圾邮件分类中的表现如何？”，也可以是一个更抽象和通用的能力，例如“我的模型的数学能力有多强？”。

封面图

人工评估 | 技巧与提示

2024-12-19

阅读 2 分钟

781

技巧与提示这是人工评估系列文章的第三篇《技巧与提示》，全系列包括:基础概念人工标注员技巧与提示建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议。任务设计简单至上：标注任务避免不必要的复杂。将标注员的认知负担降低到最低有助于确保他们保持专注...

封面图

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

2024-12-18

阅读 6 分钟

801

我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2，这是 PaliGemma 的一个新版本。与其前代产品一样，PaliGemma 2 使用强大的 SigLIP 进行视觉处理，但在文本解码部分升级到了最新的 Gemma 2。

封面图

Hugging Face 机器人技术新突破

2024-12-18

阅读 1 分钟

748

这次我们的 LeRobot 团队联合 @therobotstudio 和 @NepYope 打造了全新腱驱动（Tendon-driven）技术，以快、更准、更灵活的超凡表现，让机器人手部控制进入全新时代！

1

1