头图

公共资源速递

9 个教程:

大模型 * 2

  • 使用 vLLM+Open WebUI 部署 DeepSeek-Prover-V2-7B
  • 使用 vLLM+Open WebUI 部署 OpenMath-Nemotron-1.5B

图像处理 * 3

  • KV-Edit 背景一致性图像编辑
  • StarVector 像素图转矢量图 AI 模型
  • In-Context Edit:指令驱动图像生成与编辑

音频生成 * 4

  • Kimi-Audio:让 AI 听懂人类
  • ACE-Step:音乐生成基础模型
  • parakeet-tdt-0.6b-v2 语音识别
  • OrpheusTTS:多语言文本转语音模型

访问官网立即使用: openbayes.com

公共教程

大模型 * 2

1. 使用 vLLM+Open WebUI 部署 DeepSeek-Prover-V2-7B

DeepSeek-Prover-V2-7B 是专为数学 AI 编程语言 Lean 4 打造的开源大语言模型。它的最大特点是能够将非形式化的数学推理(即人类常用的推理方式)和严格的形式化证明无缝结合,让模型既能像人类一样灵活思考,又能像计算机一样严谨论证,实现了数学推理的一体化融合。

直接克隆并打开 API 地址即可与模型进行对话。

*在线运行:

https://go.openbayes.com/AnTHh

9e4919fcf9040ee83fac1f3072324417.png

模型示例

2. 使用 vLLM+Open WebUI 部署 OpenMath-Nemotron-1.5B

OpenMath-Nemotron-1.5B 专门用于解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集 OpenMathReasoning 进行训练,包含 54 万个独特问题及 320 万个长推理解决方案。

直接克隆并打开 API 地址即可运行模型。

*在线运行:

https://go.openbayes.com/ZHcJa

4d6b99010851dea6e0390786916cd6dd.png

模型示例

图像处理 * 3

1. KV-Edit 背景一致性图像编辑

KV-Edit 是一种无训练图像编辑方法,能够严格保持原始图像和编辑图像之间的背景一致性,并在各种编辑任务上取得了令人印象深刻的性能,包括物体添加、移除和替换。KV-Edit 的核心在于利用 KV 缓存来存储背景标记的键值对。

该教程现已上线 OpenBayes 公共教程界面,一键克隆即可启动。

*在线运行:

https://go.openbayes.com/I7jiO

b7beeb2451b777ee65ceb7cc276a7601.png

模型示例

2. StarVector 像素图转矢量图 AI 模型

StarVector 专注于将图像和文本转换为可缩放矢量图形(SVG)代码。模型采用多模态架构,能同时处理图像和文本信息,直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 文件。

该教程现已上线 OpenBayes 公共教程界面,点击下方链接快速体验矢量图像转换。

*在线运行:

https://go.openbayes.com/dW1ML

afe70fd1324459f35722c3894d96798b.png

模型示例

3. In-Context Edit:指令驱动图像生成与编辑

In-Context Edit 通过语境编辑框架、LoRA-MoE 混合调优策略以及早期滤波器推理时间缩放方法这 3 个关键贡献解决了现有图像编辑技术的局限性,仅有 1% 的可训练参数(200 M)和 0.1% 的训练数据(50 k)却展现出更出色的泛化能力,能够胜任多样化的图像编辑任务。与 Gemini、GPT4o 等商用模型相比,更加开源,成本更低,速度更快,性能更强大 。

直接克隆并打开 API 地址即可运行模型。

*在线运行:

https://go.openbayes.com/UUh8P

dad83ff2e8df21836fc47d38779c1729.png

运行效果示例

音频生成 * 4

1. Kimi-Audio:让 AI 听懂人类

Kimi-Audio-7B-Instruct 可以处理各种任务,如自动语音识别(ASR)、音频问答(AQA)、自动音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话,在多项音频基准测试中达到 SOTA 水平。

点击下方链接,立即体验 Kimi-Audio 强大功能 。

*在线运行:

https://go.openbayes.com/Hn4Wo

17cac7e330fa79b752513704201dc419.png

模型示例

2. ACE-Step:音乐生成基础模型

ACE-Step-v1-3.5B 模型在 A100 GPU 上只需 20 秒即可合成长达 4 分钟的音乐,比基于 LLM 的基线快 15 倍,同时在旋律、和声和节奏指标方面实现了卓越的音乐连贯性和歌词对齐。此外,该模型保留了精细的声学细节,支持高级控制机制,例如语音克隆、歌词编辑、混音和音轨生成。

点击下方链接,立即体验高质量音乐生成。

*在线运行:

https://go.openbayes.com/PoB6T

4e828b8b14624a4fb91a003d9dbe38e1.png

核心功能

3. parakeet-tdt-0.6b-v2 语音识别

parakeet-tdt-0.6b-v2 模型基于 FastConformer 编码器架构和 TDT 解码器,能够一次高效转录长达 24 分钟的英语音频片段。该模型专注于高精度、低延迟的英语语音转录任务,适用于实时英语语音转文本场景(如客服对话、会议记录、语音助手等)。

相关代码已配置完成,点击下方链接,快速体验英语语音识别小助手。

*在线运行:

https://go.openbayes.com/8DqMg

4fb36723e9e68fa08c784b889dad2f32.png

模型示例

4. OrpheusTTS:多语言文本转语音模型

Orpheus-TTS 能够生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练即可模仿特定语音。用户可通过标签控制语音的情感表达,增强语音真实感。Orpheus TTS 的延迟低至约 200 毫秒,适合实时应用。

点击下方链接,体验定制情感语音生成。

*在线运行:

https://go.openbayes.com/cZoxj

ca51211fde956842ea3f019a8bb52f4b.png

模型示例


OpenBayes
6 声望2 粉丝

贝式计算是中国领先的高性能计算服务提供商,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,向工业企业及高效科研院所提供更加快速、易用的数据科学计算产品。