Hugging News #0512: 🤗 Transformers、🧨 Diffusers 更新，AI 游戏是下个新热点吗

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」，本期 Hugging News 有哪些有趣的消息，快来看看吧！

开源更新

Transformers 现已支持 Meta 的 SAM 分割模型

你还可以使用自动遮罩生成管道预测给定图像的分割掩码，并提供一组边界框或一组 2D 点，以预测感兴趣的对象的分割掩码，只需调用 AutoModel.from_pretrained 即可。

查看 Notebook: 在 🤗transformers 中使用 Segment Anything Model:
<url>https://ipynb.cn/github/huggingface/notebooks/blob/main/examp...</url>

TPU YYDS: 做完一个小时的音频转录只需要 15 秒！

我们的一位同事 Sanchit 为 OpenAI 的 Whisper 模型提供了 JAX 实现，代码兼容 CPU、GPU 和 TPU，可以部署为用于音频处理的推理端点，也可以批处理单个音频文件。

GitHub 地址:
<url>https://github.com/sanchit-gandhi/whisper-jax</url>

更轻松地微调 TTS 模型

🤗 transformers 已经增加了在文本到语音中微调 SpeechT5 模型的功能。

你可以在这个 Colab 中查看详细操作步骤:
<url>https://colab.research.google.com/drive/1i7I5pzBcU3WDFarDnzwe...</url>

在 diffusers 上进行 Multi-concept 主题训练

现在你可以通过 Custom Diffusion 在 🧨diffusers 上进行 Multi-concept 主题训练，上图展示了结合木头和猫咪的图片。Custom Diffusion 只微调 UNet 的交叉注意力层，同时支持在消费者硬件上无缝学习的文本反演融合。因此，仅用 250 步，我们就可以得到相当好的结果。

Custom Diffusion 文档: <url>https://hf.co/docs/diffusers/main/en/training/custom_diffusion</url>

产品更新

Gradio 新增 `gradio_client` 库

现在，你可以使用 gradio_client 库将任意一个 Gradio 应用以 API 方式调用。

Space 模版现已支持 AimStack

现在，你可以在新建 Space 应用的时候选择 AimStack 这个 Docker 模版，Aim 是一个开源的、自托管的 AI 元数据跟踪工具，它为探索和比较元数据提供了一个性能强大的用户界面，以及一个用于编程访问的、非常适合自动化的 SDK。在 Space 应用上构建一个 Aim 应用，你可以随时与他人共享训练结果，用于探索和比较元数据，以及以编程方式访问跟踪的元数据。

推理端点大更新

端点启动 / 创建时间减少了约 4-6 倍，你可以在 1 分钟内完成 BERT、10 分钟内完成 FLAN-T5-XXL (11B) 推理等。

轻松地在你的游戏里加入数万个开源模型

本周，我们发了一篇文章，介绍如何在 Space 应用中使用 Unity API，邀请你回顾这篇文章，敬请期待更多 AI 游戏的文章和产品发布。

以上就是本期 Hugging News，本周日是母亲节，请用任何方式告诉亲爱的妈妈：我爱你！❤️

Hugging News #0512: 🤗 Transformers、🧨 Diffusers 更新，AI 游戏是下个新热点吗

开源更新

Transformers 现已支持 Meta 的 SAM 分割模型

TPU YYDS: 做完一个小时的音频转录只需要 15 秒！

更轻松地微调 TTS 模型

在 diffusers 上进行 Multi-concept 主题训练

产品更新

Gradio 新增 `gradio_client` 库

Space 模版现已支持 AimStack

推理端点大更新

轻松地在你的游戏里加入数万个开源模型

HuggingFace

引用和评论

SmolVLA: 让机器人更懂 “看听说做” 的轻量化解决方案

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

祛魅最热门的通用Agent赛道

Hugging News #0512: 🤗 Transformers、🧨 Diffusers 更新，AI 游戏是下个新热点吗

开源更新

Transformers 现已支持 Meta 的 SAM 分割模型

TPU YYDS: 做完一个小时的音频转录只需要 15 秒！

更轻松地微调 TTS 模型

在 diffusers 上进行 Multi-concept 主题训练

产品更新

Gradio 新增 gradio_client 库

Space 模版现已支持 AimStack

推理端点大更新

轻松地在你的游戏里加入数万个开源模型

HuggingFace

引用和评论

SmolVLA: 让机器人更懂 “看听说做” 的轻量化解决方案

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

祛魅最热门的通用Agent赛道

Gradio 新增 `gradio_client` 库