OpenBayes 一周速览｜轻量化、更具性价比的大模型 Gemma 3 部署教程上线！

3 月 26 日河北

阅读 2 分钟

0

公共资源速递

5 个数据集：

KodCode-V1 编码合成数据集
中国城市旅游景点信息数据集
EMM-AU 驾驶事故视频数据集
MiniMind 大模型训练微调数据集
JuDGE 中文法律判决书基准数据集

2 个模型：

QwQ-32B-AWQ
DeepSeek-R1-Distill-Qwen-1.5B

2 个教程：

使用 vLLM 部署 Gemma-3-27B-IT
OpenManus + QwQ-32B 实现 Al Agent

访问官网立即使用：http://openbayes.com

公共数据集

1. KodCode-V1 编码合成数据集

该数据集专为编码任务提供可验证的解决方案和测试，包含 12 个不同的子集，涵盖各个领域（从算法到特定于软件包的知识）和难度级别（从基本的编码练习到面试和竞争性编程挑战），专为监督微调 (SFT) 和 RL 调优而设计。

直接使用：

https://go.openbayes.com/W3LG1

KodCode -V1 生成流程

2. 中国城市旅游景点信息数据集

该数据集包含中国 352 个城市的旅游景点数据，每个城市 csv 文件包含 100 个地点，数据包括地点名称、网址、地址、景点介绍、开放时间、图片网址、评分、建议游玩时长、建议游玩季节、门票信息、小贴士等。

直接使用：

https://go.openbayes.com/t5BX3

3. EMM-AU 驾驶事故视频数据集

该数据集是首个专为驾驶事故推理任务设计的数据集，利用先进的视频生成和增强技术对 MM-AU 数据集进行扩展。数据集包含 2k 个新生成的详细事故场景视频，这些视频通过精细调整预训练的 Open-Sora 1.2 模型生成，旨在为事故理解和预防提供更加丰富和多样的训练数据。

直接使用：

https://go.openbayes.com/3VDHh

4. MiniMind 大模型训练微调数据集

MiniMind 包含了多个数据集，例如用于训练分词器的 tokenizer 训练集、用于预训练模型的 Pretrain 数据、用于监督式微调的 SFT 数据、以及用于训练奖励模型的 DPO 数据 1 和 DPO 数据 2。这些数据集整合自不同的来源，例如匠数科技 SFT 数据、 Qwen2.5 蒸馏数据等，总量大约在 3B token，适合中文大语言模型的预训练。

直接使用：

https://go.openbayes.com/2w55O

5. JuDGE 中文法律判决书基准数据集

该数据集将判决书生成形式化为一个条件文本生成问题，给定一个案件事实描述 (Fact)，目标是生成一个结构上连贯且合法的判决书 (Judgment Document)。数据集旨在通过高质量的标注数据，提升法律文书生成模型的性能，特别是在法律推理和文书撰写方面的能力，适用于法律智能系统、法律文书自动生成、法律问答系统等多种应用场景。

直接使用：

https://go.openbayes.com/C6BVz

公共模型

发布机构： 阿里巴巴

QwQ-32B 是阿里巴巴开源的新型推理模型，参数量为 32B。该模型基于大规模强化学习 (RL) 训练，在数学推理、编程等任务上表现出色，性能比肩 671B 参数的 DeepSeek-R1 满血版。

直接使用：

https://go.openbayes.com/lsowS

2. DeepSeek-R1-Distill-Qwen-1.5B

发布机构： 深度求索 (DeepSeek) 公司

DeepSeek-R1-Distill-Qwen-1.5B 是一个基于 Qwen-2.5 架构的蒸馏优化模型，专为高效推理和多任务支持设计。该模型通过知识蒸馏技术从更大的 DeepSeek-R1 模型中提取知识，显著降低了计算资源需求，同时保持了高性能。

直接使用：

https://go.openbayes.com/iY5bh

公共教程

1. 使用 vLLM 部署 Gemma-3-27B-IT

Gemma 3 是一款多模态大模型，能够处理文本和图像输入并生成文本输出，其预训练变体和指令调优变体均提供开放的权重。模型拥有一个 128K 上下文窗口，支持超过 140 种语言，并且提供了比之前版本更多的模型尺寸。

该项目相关模型和依赖已经部署完毕，单卡 A6000 即可体验模型。

在线运行：

https://go.openbayes.com/TGNxd

模型界面示例

2. OpenManus + QwQ-32B 实现 Al Agent

OpenManus 是由 MetaGPT 团队推出的开源项目，旨在复刻 Manus 的核心功能，为用户提供无需邀请码、可本地化部署的智能体解决方案。QwQ 是 Qwen 系列的推理模型，相比传统指令调优模型，QwQ 具备思考和推理能力，在下游任务尤其是难题上能取得显著性能提升。

进入官网克隆并启动容器，进入工作空间，输入相应的指令即可体验模型。

在线运行：

https://go.openbayes.com/gQn08

模型示例

以上就是小贝上周在 OpenBayes 的全部更新内容啦~

机器学习自然语言处理人工智能深度学习编辑器

阅读 427发布于 3 月 26 日

OpenBayes

6 声望2 粉丝

贝式计算是中国领先的高性能计算服务提供商，通过为新一代异构芯片嫁接经典软件生态及机器学习模型，向工业企业及高效科研院所提供更加快速、易用的数据科学计算产品。

« 上一篇

OpenBayes 教程上新丨CSM 驾到，统统闪开！更鲜活的语音生成，从此告别延迟呆板机械味

下一篇 »

OpenBayes 教程上新丨YOLO系列重要创新！清华团队发布YOLOE，直击开放场景物体实时检测与分割

引用和评论

推荐阅读

OpenBayes 教程上新丨谷歌发布 MedGemma，基于 Gemma 3 构建，专攻医学文本与图像理解

OpenBayes阅读 189

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 6阅读 1.9k

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

思否编辑部赞 2阅读 5.2k

大模型时代，后端程序员如何避免被AI卷死？

王中阳讲编程赞 4阅读 2k

MCP 协议为何不如你想象的安全？从技术专家视角解读

Baihai_IDP赞 2阅读 463

Cline VS Code 插件详解：功能与获取 Claude3.7 API key 自定义配置

uiuihaoAICG赞 1阅读 2.2k评论 4

🔥吐血整理 Bolt.diy 部署与应用攻略

北京宏哥阅读 6.1k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。