公共资源速递
2 个公共数据集:
*s1K-1.1 数学推理数据集
*HPA 人类蛋白质图谱数据集
3 个公共模型:
* MedGemma-4B-IT
* Devstral-Small-2505
* DeepSeek-Prover-V2-7B
12 个公共教程:
视频生成 * 2
语音交互 * 3
代码生成 * 3
图像生成编辑 * 4
访问官网立即使用: openbayes.com
公共数据集
1. s1K-1.1 数学推理数据集
s1K-1.1 数据集是一个数学问题推理数据集,旨在强化大语言模型(LLMs)推导的逻辑连贯性,借数学推理优化其结构化思维。该数据集包含 1,000 条样本,以数学问题及推理轨迹为核心,涵盖代数、几何、概率等多个数学领域,每条样本包含问题描述、解题步骤、答案及由 DeepSeek R1 生成的推理轨迹。
*直接使用:
https://go.openbayes.com/lJATz
2. HPA 人类蛋白质图谱数据集
该数据集是由 Human Protein Atlas(HPA)数据库的数据组成,其中包含大量高分辨率的共聚焦显微图像,覆盖数千种人类蛋白在不同细胞器中的空间分布情况,是用于蛋白亚细胞定位研究的重要公共资源。
*直接使用:
https://go.openbayes.com/KsOC8
公共模型
1. MedGemma-4B-IT
*发布机构:谷歌(Google)
MedGemma-4B-IT 属于 MedGemma 系列中的指令微调版本(Instruction-Tuned),专为医疗图像与文本的联合理解而优化。MedGemma-4B-IT 可用于放射学、数字病理学、眼底摄影和皮肤图像的分类,其预训练使其成为此类任务的良好起点。
*直接使用:
https://go.openbayes.com/ctF5p
2. Devstral-Small-2505
*发布机构:Mistral AI、All Hands AI
Devstral-Small-2505 模型基于 Mistral-Small-3.1 微调而来,拥有 240 亿参数,专为代码库探索、多文件编辑和软件工程代理任务设计。
*直接使用:
https://go.openbayes.com/wiwB3
3. DeepSeek-Prover-V2-7B
*发布机构:深度求索(DeepSeek)
DeepSeek-Prover-V2-7B 模型专为数学 AI 编程语言 Lean 4 设计,旨在将非形式化的数学推理与严格的形式化证明无缝结合。该模型能够将自然语言问题转换为形式化证明代码,适用于自动定理验证和数学发现。
*直接使用:
https://go.openbayes.com/PVpb5
公共教程
视频生成 * 2
1. LTX-Video:极速视频生成 v2
LTX-Video 模型采用了 transformer 和 Video-VAE 技术,能够高效生成高分辨率视频。在 Nvidia H100 GPU 上仅用 2 秒就以 768x512 的分辨率生成了 5 秒的 24 fps 视频,性能优于所有类似规模的现有模型。此外,LTX-Video 支持多种视频生成方式,包括从文本到视频、从图像到视频、扩展视频和具有多个条件的视频生成。
该教程算力资源采用单卡 A6000,提供「文本到视频生成」和「图片到视频生成」2 个示例供测试。
*在线运行:
https://go.openbayes.com/Igj0l
效果展示
2. TransPixeler:文本生成 RGBA 视频
TransPixeler 保留了原始 RGB 模型的优势,并在有限的训练数据下实现了 RGB 和 alpha 通道之间的强对齐,能够有效地生成多样且一致的 RGBA 视频,从而推动了视觉特效和交互内容创作的可能性。
本教程采用资源为单卡 A6000,目前文字描述仅支持英语。打开下方链接,体验快速生成 RGBA 视频。
*在线运行:
https://go.openbayes.com/vht5p
项目示例
语音交互 * 3
1. Kimi-Audio:让 AI 听懂人类
Kimi-Audio-7B-Instruct 模型能够在单个统一框架内处理各种音频处理任务,在多项音频基准测试中达到 SOTA 水平。
该教程算力资源采用单卡 A6000,相关数据已配置完成,复制链接到网页,快速处理多音频任务。
*在线运行:
https://go.openbayes.com/1l7W9
模型界面示例
2. Parakeet-tdt-0.6b-v2 语音识别
Parakeet-tdt-0.6b-v2 模型基于 FastConformer 编码器架构和 TDT 解码器,能够一次高效转录长达 24 分钟的英语音频片段。该模型专注于高精度、低延迟的英语语音转录任务,适用于实时英语语音转文本场景(如客服对话、会议记录、语音助手等)。
进入下方链接克隆模型,解锁自己的专属语音识别小助手。
*在线运行:
https://go.openbayes.com/MbKo4
模型示例
3. VITA-1.5:多模态交互大模型 Demo
VITA-1.5 旨在实现类似 GPT-4o 水平的实时视觉和语音交互。该模型大幅降低互动延迟,从 4 秒缩短至 1.5 秒,显著提升了用户体验。
本教程采用资源为单卡 A6000,目前 AI 互动仅支持中文和英语。
*在线运行:
https://go.openbayes.com/L6Ip0
代码生成 * 3
1. Mellum-4b-base 专为代码补全设计的模型
Mellum-4b-base 模型专为代码理解、生成与优化任务设计。该模型在软件开发全流程中展现出卓越能力,适用于 AI 增强编程、智能 IDE 集成、教育工具开发及代码研究等场景。
本教程采用资源为单卡 RTX 4090,模型仅用于优化代码,一键克隆即可启动。
*在线运行:
https://go.openbayes.com/cokNg
项目示例
2. OpenCodeReasoning- Nemotron- 32B 一键部署**
OpenCodeReasoning-Nemotron-32B 模型是专为代码推理与生成设计的高性能大语言模型,属于 OpenCodeReasoning(OCR)模型套装中的旗舰版本,支持 32K 个标记的上下文长度。
相关数据已配置完成,进入下方链接,快速体验高效代码推理。
*在线运行:
https://go.openbayes.com/GOlbw
项目示例
3. vLLM+OpenWebUl 部署 Seed-Coder-8B-Instruct
Seed-Coder-8B-Instruct 属于 Seed-Coder 系列的指令微调版本,需最少的人力,LLM 就可以自行有效地管理代码训练数据,从而大大增强编码能力。该模型基于 Llama 3 架构构建,参数量为 8.2 B,支持 32 K tokens 长上下文。该模型在各种编码任务中实现了同等规模的开源模型的最新性能。
该教程算力资源采用单卡 RTX 4090,克隆并进入网页后即可使用模型处理各种编码任务。
*在线运行:
https://go.openbayes.com/EHOLz
项目示例
图像生成编辑 * 4
1. DreamO:统一的图像定制框架
DreamO 基于 DiT(Diffusion Transformer)架构,整合了多种图像生成任务,支持换装(IP)、换脸(ID)、风格迁移(Style)、多主体组合等复杂功能,通过单一模型实现多条件控制。
本教程采用资源为单卡 A6000,克隆模型快速处理各种图像生成任务。
*在线运行:
https://go.openbayes.com/Yv8fZ
项目示例
2. ComfyUl Chroma 工作流在线教程
Chroma 基于 FLUX.1-schnell 的 8.9 B 参数模型,该模型目前正在训练中,训练数据集从 20 M 样本中精心挑选出 5 M 数据,涵盖动漫、兽类、艺术作品和照片等多种类型。
本教程采用资源为单卡 RTX 4090,仅支持英语提示词。
*在线运行:
https://go.openbayes.com/NpX6K
项目示例
3. ComfyUl LanPaint 图像修复工作流教程
LanPaint 是一款开源图像局部修复工具,它采用创新的推理方法,无需额外训练即可适配多种稳定扩散模型(包括自定义模型),从而实现高质量的图像修复。相较于传统方法,LanPaint 提供了一种更轻量级的解决方案,显著降低了对训练数据和计算资源的需求。
进入下方链接,一键拯救废片。
*在线运行:
https://go.openbayes.com/az1lK
效果展示
4. ComfyUl Flex.2-preview 工作流在线教程
Flex.2-preview 是 Flex.1-alpha 的后续版本。该模型完全开源,拥有 80 亿参数,并内置了多种图像控制和修复绘制功能,为创作者提供更全面的图像生成体验。
本教程采用资源为单卡 RTX 4090,克隆模型快速体验更全面的图像生成。
*在线运行:
https://go.openbayes.com/tPmWp
项目示例
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。