人工智能 - OpenBayes 一周速览｜Kimi-Audio 更能识别情感的语音模型；Orpheus-TTS 零样本克隆语音 - 个人文章

公共资源速递

9 个教程：

大模型 * 2

使用 vLLM+Open WebUI 部署 DeepSeek-Prover-V2-7B
使用 vLLM+Open WebUI 部署 OpenMath-Nemotron-1.5B

图像处理 * 3

KV-Edit 背景一致性图像编辑
StarVector 像素图转矢量图 AI 模型
In-Context Edit：指令驱动图像生成与编辑

音频生成 * 4

Kimi-Audio：让 AI 听懂人类
ACE-Step：音乐生成基础模型
parakeet-tdt-0.6b-v2 语音识别
OrpheusTTS：多语言文本转语音模型

访问官网立即使用： openbayes.com

公共教程

大模型 * 2

1. 使用 vLLM+Open WebUI 部署 DeepSeek-Prover-V2-7B

DeepSeek-Prover-V2-7B 是专为数学 AI 编程语言 Lean 4 打造的开源大语言模型。它的最大特点是能够将非形式化的数学推理（即人类常用的推理方式）和严格的形式化证明无缝结合，让模型既能像人类一样灵活思考，又能像计算机一样严谨论证，实现了数学推理的一体化融合。

直接克隆并打开 API 地址即可与模型进行对话。

*在线运行：

https://go.openbayes.com/AnTHh

模型示例

2. 使用 vLLM+Open WebUI 部署 OpenMath-Nemotron-1.5B

OpenMath-Nemotron-1.5B 专门用于解决复杂数学问题，包括奥林匹克级别的难题。模型基于大规模数据集 OpenMathReasoning 进行训练，包含 54 万个独特问题及 320 万个长推理解决方案。

直接克隆并打开 API 地址即可运行模型。

*在线运行：

https://go.openbayes.com/ZHcJa

模型示例

图像处理 * 3

1. KV-Edit 背景一致性图像编辑

KV-Edit 是一种无训练图像编辑方法，能够严格保持原始图像和编辑图像之间的背景一致性，并在各种编辑任务上取得了令人印象深刻的性能，包括物体添加、移除和替换。KV-Edit 的核心在于利用 KV 缓存来存储背景标记的键值对。

该教程现已上线 OpenBayes 公共教程界面，一键克隆即可启动。

*在线运行：

https://go.openbayes.com/I7jiO

模型示例

2. StarVector 像素图转矢量图 AI 模型

StarVector 专注于将图像和文本转换为可缩放矢量图形（SVG）代码。模型采用多模态架构，能同时处理图像和文本信息，直接在 SVG 代码空间中操作，生成标准的、可编辑的 SVG 文件。

该教程现已上线 OpenBayes 公共教程界面，点击下方链接快速体验矢量图像转换。

*在线运行：

https://go.openbayes.com/dW1ML

模型示例

3. In-Context Edit：指令驱动图像生成与编辑

In-Context Edit 通过语境编辑框架、LoRA-MoE 混合调优策略以及早期滤波器推理时间缩放方法这 3 个关键贡献解决了现有图像编辑技术的局限性，仅有 1% 的可训练参数（200 M）和 0.1% 的训练数据（50 k）却展现出更出色的泛化能力，能够胜任多样化的图像编辑任务。与 Gemini、GPT4o 等商用模型相比，更加开源，成本更低，速度更快，性能更强大。

直接克隆并打开 API 地址即可运行模型。

*在线运行：

https://go.openbayes.com/UUh8P