Open R1 项目进展第二期

4 月 1 日
阅读 5 分钟
109
除此之外,我们还聊聊社区里一些让人兴奋的进展,比如怎么整理出小而精的高质量数据集来微调模型,以及如何在训练和推理时控制推理模型的“思考步数”。
封面图

Open R1 项目进展第一期

3 月 29 日
阅读 6 分钟
271
DeepSeek R1 发布已经两周了,而我们启动 open-r1 项目——试图补齐它缺失的训练流程和合成数据——也才过了一周。这篇文章简单聊聊:Open-R1 在模仿 DeepSeek-R1 流程和数据方面的进展我们对 DeepSeek-R1 的认识和相关讨论DeepSeek-R1 发布后社区搞出来的有趣项目这既是项目的最新动态,也是一些关于 DeepSeek-R1 的有趣资料...
封面图

为什么 AI 模型离科学革命还差得很远?

3 月 27 日
阅读 3 分钟
209
这个“压缩的 21 世纪”概念来自 Dario 的文章《Machine of Loving Grace》,强烈推荐大家读一读。这是一篇值得深思的好文章。文章的核心观点是,在未来一两年内,我们将拥有一个“装在数据中心里的爱因斯坦之国”,所有 21 世纪的科学发现将在短短 5 到 10 年内被一股脑地完成,从而压缩了整个世纪的科技进程。
封面图

常见的 AI 模型格式

3 月 27 日
阅读 5 分钟
303
过去两年,开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布,并被用于实际应用中。然而,开发者在使用这些模型时面临的一个挑战是模型格式的多样性。
封面图

SmolVLM2: 让视频理解能力触手可及

3 月 24 日
阅读 6 分钟
315
SmolVLM2 标志着视频理解技术的根本性转变——从依赖海量计算资源的巨型模型,转向可在任何设备运行的轻量级模型。我们的目标很简单: 让视频理解技术从手机到服务器都能轻松部署。
封面图

在 Hugging Face Spaces 上使用 Gradio 免费运行 ComfyUI 工作流

3 月 24 日
阅读 18 分钟
252
在本教程中,我将逐步指导如何将一个复杂的 ComfyUI 工作流转换为一个简单的 Gradio 应用程序,并讲解如何将其部署在 Hugging Face Spaces 的 ZeroGPU 无服务器架构上,这样可以让它以无服务器的方式免费部署和运行。在本教程中,我们将使用 [Nathan Shipley 的 Flux[dev] Redux + Flux[dev] Depth ComfyUI 工作流]([链...
封面图

在 Hugging Face 上部署语音转语音模型

3 月 12 日
阅读 7 分钟
327
S2S (语音到语音) 是 Hugging Face 社区内存在的一个令人兴奋的新项目,它结合了多种先进的模型,创造出几乎天衣无缝的体验: 你输入语音,系统会用合成的声音进行回复。
封面图

LayerSkip: 使用自推测解码加速大模型推理

3 月 11 日
阅读 8 分钟
286
自推测解码是一种新颖的文本生成方法,它结合了推测解码 (Speculative Decoding) 的优势和大语言模型 (LLM) 的提前退出 (Early Exit) 机制。该方法出自论文 LayerSkip: Enabling Early-Exit Inference and Self-Speculative Decoding。它通过使用 同一个模型 的早期层来生成候选词元 (token),并使用后期层进行验证,从...
封面图

从文件到块: 提高 Hugging Face 存储效率

3 月 4 日
阅读 3 分钟
379
Hugging Face 在 Git LFS 仓库 中存储了超过 30 PB 的模型、数据集和 Spaces。由于 Git 在文件级别进行存储和版本控制,任何文件的修改都需要重新上传整个文件。这在 Hub 上会产生高昂的成本,因为平均每个 Parquet 和 CSV 文件大小在 200-300 MB 之间,Safetensor 文件约 1 GB,而 GGUF 文件甚至可能超过 8 GB。设想一...
封面图

让 LLM 来评判 | 设计你自己的评估 prompt

2 月 27 日
阅读 2 分钟
376
这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示
封面图

AI 艺术工具通讯

2 月 22 日
阅读 4 分钟
503
过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的 AI 工具从未像现在这般触手可及,然而这仅仅是冰山一角。让我们共同回顾 2024 年 AI 艺术领域的关键突破与创新工具,并展望 2025 年的发展趋势 (剧透预警 👀: 我们将启动月度资讯精选的订阅👇)。
封面图

让 LLM 来评判 | 奖励模型相关内容

2 月 14 日
阅读 2 分钟
380
这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示
封面图

上海站 | 2025 Seeed x LeRobot 具身智能黑客松报名开启!

2 月 12 日
阅读 3 分钟
505
欢迎来到 Physical AI 的最前沿!Seeed x LeRobot 具身智能黑客松现邀请所有对在机器人领域训练模仿学习策略,并实时进行推理部署感兴趣的人,共同创造具有影响力的创新解决方案。在这里,你可以与志同道合的开发者一起实践前沿机器人技术,获取免费硬件支持和独家资源,并快速在真实机器人系统中验证你的想法!
封面图

让 LLM 来评判 | 评估你的评估结果

2 月 11 日
阅读 1 分钟
386
这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示
封面图

让 LLM 来评判 | 选择 LLM 评估模型

1 月 14 日
阅读 2 分钟
542
这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示
封面图

让 LLM 来评判 | 基础概念

1 月 11 日
阅读 2 分钟
404
这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示
封面图

自动评估基准 | 一些评估测试集

1 月 8 日
阅读 10 分钟
560
大部分数据集有些 “过时”,因为它们是在 LLM 出现之前构建的,当时是为了评估语言文本的某个特定属性 (如翻译、摘要),但是可能已经不适合现在的 LLM 评估方法了 (现在的评估方法倾向于通用、整体性)。 (如果你有空余时间可以对下列数据集添加出版日期,会对本文非常有帮助!) (这部分后续也会更新包含大语言模型的评估)
封面图

自动评估基准 | 技巧与提示

1 月 1 日
阅读 2 分钟
526
测试集中加入 哨兵字符串 (canary string) (如BigBench),这是一种特殊的字符组合,使得模型创建者可以在训练集中查找,来表明该数据中是否包含评估。
封面图

基于开放模型的推理时计算缩放

1 月 1 日
阅读 10 分钟
462
过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难题进...
封面图

自动评估基准 | 设计你的自动评估任务

2024-12-26
阅读 3 分钟
549
做评估时,你可以选择现有的数据集 (参考 一些评估数据集 页面) 作为测试集,也可以设计自己的数据集。有一点非常重要,请注意:评估的结果与评估的数据集质量高度相关 。
封面图

自动评估基准 | 基础概念

2024-12-26
阅读 2 分钟
478
自动化基准测试通常按照以下方式工作:你希望了解你的模型在某些方面的表现。这些“某些方面”可以是一个明确定义的具体任务,例如“我的模型在垃圾邮件分类中的表现如何?”,也可以是一个更抽象和通用的能力,例如“我的模型的数学能力有多强?”。
封面图

人工评估 | 技巧与提示

2024-12-19
阅读 2 分钟
620
技巧与提示这是 人工评估 系列文章的第三篇《技巧与提示》,全系列包括:基础概念人工标注员技巧与提示建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议。任务设计简单至上:标注任务避免不必要的复杂。将标注员的认知负担降低到最低有助于确保他们保持专注...
封面图

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

2024-12-18
阅读 6 分钟
701
我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。
封面图

Hugging Face 机器人技术新突破

2024-12-18
阅读 1 分钟
588
这次我们的 LeRobot 团队联合 @therobotstudio 和 @NepYope 打造了全新腱驱动(Tendon-driven)技术,以快、更准、更灵活的超凡表现,让机器人手部控制进入全新时代!

人工评估 | 人工标注员

2024-12-13
阅读 1 分钟
554
人工标注员这是 人工评估 系列文章的第二篇《人工标注员》,全系列包括:基础概念人工标注员技巧与提示推荐阅读 这篇综述 的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质量,并且具备实施条件,那么请继续阅读吧! 无论项目规模多大,一旦定义了具体的评估任务和打分细则,请注意:选择合适...
封面图

人工评估 | 基础概念

2024-12-12
阅读 2 分钟
576
如果你手头 没有现成的数据集,但还是想测试一些模型的能力,可以采用人工评估:提供一个任务说明和打分指南 (例如:尝试与模型交互,迫使模型输出不当语言,即包含冒犯性、歧视性、暴力等。如果模型输出了不当语言,则得分为 0,反之为 1。),以及可供交互的测试模型,然后就可以让标注员人工操作并评分,同时列出评分...
封面图

开源开发者指南:欧盟《人工智能法案》解读

2024-12-05
阅读 5 分钟
438
欧盟《人工智能法案》 (EU AI Act) 是全球首部全面的人工智能立法,现已正式生效,它将影响我们开发和使用人工智能的方式——包括在开源社区中的实践。如果您是一位开源开发者,正在适应这一新环境,可能会想知道这对您的项目意味着什么。本指南重点解读了该法规的关键要点,特别是针对开源开发者,提供了对这一法规的清晰...
封面图

设计位置编码

2024-12-03
阅读 9 分钟
442
本文将带你一步步探究 Transformer 模型中先进的位置编码技术。我们将通过迭代改进编码位置的方法,最终得出 旋转位置编码 (Rotary Postional Encoding, RoPE),这也是最新发布的 LLama 3.2 和大多数现代 transformer 模型所采用的方法。本文旨在尽量减少所需的数学知识,但理解一些基本的线性代数、三角学和自注意力机...
封面图

介绍 GGUF-my-LoRA

2024-11-25
阅读 2 分钟
416
什么是 LoRA?LoRA(Low-Rank Adaptation,低秩适配)是一种用于高效微调大型语言模型的机器学习技术。可以将 LoRA 想象成给一个大型通用模型添加一小组专门的指令。与重新训练整个模型(既昂贵又耗时)不同,LoRA 允许你高效地为模型添加新功能。例如,可以快速将一个标准聊天机器人适配用于客户服务、法律咨询或医疗保...
封面图

Halo 正式开源: 使用可穿戴设备进行开源健康追踪

2024-11-22
阅读 16 分钟
489
在飞速发展的可穿戴技术领域,我们正处于一个十字路口。市场上充斥着各式时尚、功能丰富的设备,声称能够彻底改变我们对健康和健身的方式。然而,在这些光鲜的外观和营销宣传背后,隐藏着一个令人担忧的现实:大多数这些设备是封闭系统,其内部运行被专有代码和封闭硬件所掩盖。作为消费者,我们对这些设备如何收集、处...
封面图