人工智能 - OpenBayes 一周速览｜TransPixeler 实现透明化文本到视频生成；统一图像定制框架 DreamO 上线 - 个人文章

公共资源速递

2 个公共数据集：

*s1K-1.1 数学推理数据集

*HPA 人类蛋白质图谱数据集

3 个公共模型：

* MedGemma-4B-IT

* Devstral-Small-2505

* DeepSeek-Prover-V2-7B

12 个公共教程：

视频生成 * 2

语音交互 * 3

代码生成 * 3

图像生成编辑 * 4

访问官网立即使用： openbayes.com

公共数据集

1. s1K-1.1 数学推理数据集

s1K-1.1 数据集是一个数学问题推理数据集，旨在强化大语言模型（LLMs）推导的逻辑连贯性，借数学推理优化其结构化思维。该数据集包含 1,000 条样本，以数学问题及推理轨迹为核心，涵盖代数、几何、概率等多个数学领域，每条样本包含问题描述、解题步骤、答案及由 DeepSeek R1 生成的推理轨迹。

*直接使用：

https://go.openbayes.com/lJATz

2. HPA 人类蛋白质图谱数据集

该数据集是由 Human Protein Atlas（HPA）数据库的数据组成，其中包含大量高分辨率的共聚焦显微图像，覆盖数千种人类蛋白在不同细胞器中的空间分布情况，是用于蛋白亚细胞定位研究的重要公共资源。

*直接使用：

https://go.openbayes.com/KsOC8

公共模型

1. MedGemma-4B-IT

*发布机构：谷歌（Google）

MedGemma-4B-IT 属于 MedGemma 系列中的指令微调版本（Instruction-Tuned），专为医疗图像与文本的联合理解而优化。MedGemma-4B-IT 可用于放射学、数字病理学、眼底摄影和皮肤图像的分类，其预训练使其成为此类任务的良好起点。

*直接使用：

https://go.openbayes.com/ctF5p

2. Devstral-Small-2505

*发布机构：Mistral AI、All Hands AI

Devstral-Small-2505 模型基于 Mistral-Small-3.1 微调而来，拥有 240 亿参数，专为代码库探索、多文件编辑和软件工程代理任务设计。

*直接使用：

https://go.openbayes.com/wiwB3

3. DeepSeek-Prover-V2-7B

*发布机构：深度求索（DeepSeek）

DeepSeek-Prover-V2-7B 模型专为数学 AI 编程语言 Lean 4 设计，旨在将非形式化的数学推理与严格的形式化证明无缝结合。该模型能够将自然语言问题转换为形式化证明代码，适用于自动定理验证和数学发现。

*直接使用：

https://go.openbayes.com/PVpb5

公共教程

视频生成 * 2

1. LTX-Video：极速视频生成 v2

LTX-Video 模型采用了 transformer 和 Video-VAE 技术，能够高效生成高分辨率视频。在 Nvidia H100 GPU 上仅用 2 秒就以 768x512 的分辨率生成了 5 秒的 24 fps 视频，性能优于所有类似规模的现有模型。此外，LTX-Video 支持多种视频生成方式，包括从文本到视频、从图像到视频、扩展视频和具有多个条件的视频生成。

该教程算力资源采用单卡 A6000，提供「文本到视频生成」和「图片到视频生成」2 个示例供测试。

*在线运行：

https://go.openbayes.com/Igj0l

效果展示

2. TransPixeler：文本生成 RGBA 视频

TransPixeler 保留了原始 RGB 模型的优势，并在有限的训练数据下实现了 RGB 和 alpha 通道之间的强对齐，能够有效地生成多样且一致的 RGBA 视频，从而推动了视觉特效和交互内容创作的可能性。

本教程采用资源为单卡 A6000，目前文字描述仅支持英语。打开下方链接，体验快速生成 RGBA 视频。

*在线运行：

https://go.openbayes.com/vht5p

项目示例

语音交互 * 3

1. Kimi-Audio：让 AI 听懂人类

Kimi-Audio-7B-Instruct 模型能够在单个统一框架内处理各种音频处理任务，在多项音频基准测试中达到 SOTA 水平。

该教程算力资源采用单卡 A6000，相关数据已配置完成，复制链接到网页，快速处理多音频任务。

*在线运行：

https://go.openbayes.com/1l7W9

模型界面示例

2. Parakeet-tdt-0.6b-v2 语音识别

Parakeet-tdt-0.6b-v2 模型基于 FastConformer 编码器架构和 TDT 解码器，能够一次高效转录长达 24 分钟的英语音频片段。该模型专注于高精度、低延迟的英语语音转录任务，适用于实时英语语音转文本场景（如客服对话、会议记录、语音助手等）。

进入下方链接克隆模型，解锁自己的专属语音识别小助手。

*在线运行：

https://go.openbayes.com/MbKo4

模型示例

3. VITA-1.5：多模态交互大模型 Demo

VITA-1.5 旨在实现类似 GPT-4o 水平的实时视觉和语音交互。该模型大幅降低互动延迟，从 4 秒缩短至 1.5 秒，显著提升了用户体验。

本教程采用资源为单卡 A6000，目前 AI 互动仅支持中文和英语。
*在线运行：

https://go.openbayes.com/L6Ip0

代码生成 * 3

1. Mellum-4b-base 专为代码补全设计的模型

Mellum-4b-base 模型专为代码理解、生成与优化任务设计。该模型在软件开发全流程中展现出卓越能力，适用于 AI 增强编程、智能 IDE 集成、教育工具开发及代码研究等场景。

本教程采用资源为单卡 RTX 4090，模型仅用于优化代码，一键克隆即可启动。

*在线运行：

https://go.openbayes.com/cokNg

项目示例

2. OpenCodeReasoning- Nemotron- 32B 一键部署**

OpenCodeReasoning-Nemotron-32B 模型是专为代码推理与生成设计的高性能大语言模型，属于 OpenCodeReasoning（OCR）模型套装中的旗舰版本，支持 32K 个标记的上下文长度。

相关数据已配置完成，进入下方链接，快速体验高效代码推理。

*在线运行：

https://go.openbayes.com/GOlbw

项目示例

3. vLLM+OpenWebUl 部署 Seed-Coder-8B-Instruct

Seed-Coder-8B-Instruct 属于 Seed-Coder 系列的指令微调版本，需最少的人力，LLM 就可以自行有效地管理代码训练数据，从而大大增强编码能力。该模型基于 Llama 3 架构构建，参数量为 8.2 B，支持 32 K tokens 长上下文。该模型在各种编码任务中实现了同等规模的开源模型的最新性能。

该教程算力资源采用单卡 RTX 4090，克隆并进入网页后即可使用模型处理各种编码任务。

*在线运行：

https://go.openbayes.com/EHOLz