公共资源速递
9 个教程:
大模型 * 2
- 使用 vLLM+Open WebUI 部署 DeepSeek-Prover-V2-7B
- 使用 vLLM+Open WebUI 部署 OpenMath-Nemotron-1.5B
图像处理 * 3
- KV-Edit 背景一致性图像编辑
- StarVector 像素图转矢量图 AI 模型
- In-Context Edit:指令驱动图像生成与编辑
音频生成 * 4
- Kimi-Audio:让 AI 听懂人类
- ACE-Step:音乐生成基础模型
- parakeet-tdt-0.6b-v2 语音识别
- OrpheusTTS:多语言文本转语音模型
访问官网立即使用: openbayes.com
公共教程
大模型 * 2
1. 使用 vLLM+Open WebUI 部署 DeepSeek-Prover-V2-7B
DeepSeek-Prover-V2-7B 是专为数学 AI 编程语言 Lean 4 打造的开源大语言模型。它的最大特点是能够将非形式化的数学推理(即人类常用的推理方式)和严格的形式化证明无缝结合,让模型既能像人类一样灵活思考,又能像计算机一样严谨论证,实现了数学推理的一体化融合。
直接克隆并打开 API 地址即可与模型进行对话。
*在线运行:
https://go.openbayes.com/AnTHh
模型示例
2. 使用 vLLM+Open WebUI 部署 OpenMath-Nemotron-1.5B
OpenMath-Nemotron-1.5B 专门用于解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集 OpenMathReasoning 进行训练,包含 54 万个独特问题及 320 万个长推理解决方案。
直接克隆并打开 API 地址即可运行模型。
*在线运行:
https://go.openbayes.com/ZHcJa
模型示例
图像处理 * 3
1. KV-Edit 背景一致性图像编辑
KV-Edit 是一种无训练图像编辑方法,能够严格保持原始图像和编辑图像之间的背景一致性,并在各种编辑任务上取得了令人印象深刻的性能,包括物体添加、移除和替换。KV-Edit 的核心在于利用 KV 缓存来存储背景标记的键值对。
该教程现已上线 OpenBayes 公共教程界面,一键克隆即可启动。
*在线运行:
https://go.openbayes.com/I7jiO
模型示例
2. StarVector 像素图转矢量图 AI 模型
StarVector 专注于将图像和文本转换为可缩放矢量图形(SVG)代码。模型采用多模态架构,能同时处理图像和文本信息,直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 文件。
该教程现已上线 OpenBayes 公共教程界面,点击下方链接快速体验矢量图像转换。
*在线运行:
https://go.openbayes.com/dW1ML
模型示例
3. In-Context Edit:指令驱动图像生成与编辑
In-Context Edit 通过语境编辑框架、LoRA-MoE 混合调优策略以及早期滤波器推理时间缩放方法这 3 个关键贡献解决了现有图像编辑技术的局限性,仅有 1% 的可训练参数(200 M)和 0.1% 的训练数据(50 k)却展现出更出色的泛化能力,能够胜任多样化的图像编辑任务。与 Gemini、GPT4o 等商用模型相比,更加开源,成本更低,速度更快,性能更强大 。
直接克隆并打开 API 地址即可运行模型。
*在线运行:
https://go.openbayes.com/UUh8P
运行效果示例
音频生成 * 4
1. Kimi-Audio:让 AI 听懂人类
Kimi-Audio-7B-Instruct 可以处理各种任务,如自动语音识别(ASR)、音频问答(AQA)、自动音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话,在多项音频基准测试中达到 SOTA 水平。
点击下方链接,立即体验 Kimi-Audio 强大功能 。
*在线运行:
https://go.openbayes.com/Hn4Wo
模型示例
2. ACE-Step:音乐生成基础模型
ACE-Step-v1-3.5B 模型在 A100 GPU 上只需 20 秒即可合成长达 4 分钟的音乐,比基于 LLM 的基线快 15 倍,同时在旋律、和声和节奏指标方面实现了卓越的音乐连贯性和歌词对齐。此外,该模型保留了精细的声学细节,支持高级控制机制,例如语音克隆、歌词编辑、混音和音轨生成。
点击下方链接,立即体验高质量音乐生成。
*在线运行:
https://go.openbayes.com/PoB6T
核心功能
3. parakeet-tdt-0.6b-v2 语音识别
parakeet-tdt-0.6b-v2 模型基于 FastConformer 编码器架构和 TDT 解码器,能够一次高效转录长达 24 分钟的英语音频片段。该模型专注于高精度、低延迟的英语语音转录任务,适用于实时英语语音转文本场景(如客服对话、会议记录、语音助手等)。
相关代码已配置完成,点击下方链接,快速体验英语语音识别小助手。
*在线运行:
https://go.openbayes.com/8DqMg
模型示例
4. OrpheusTTS:多语言文本转语音模型
Orpheus-TTS 能够生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练即可模仿特定语音。用户可通过标签控制语音的情感表达,增强语音真实感。Orpheus TTS 的延迟低至约 200 毫秒,适合实时应用。
点击下方链接,体验定制情感语音生成。
*在线运行:
https://go.openbayes.com/cZoxj
模型示例
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。