图片

捏Ta是一个以生成式AI为核心,为用户提供AI漫画和虚拟角色内容生成的平台,被视为以角色幻想故事智能创作为主的早期“小红书”。

基于捏Ta平台庞大的图片生成与角色故事创作需求,他们亟需通过推理优化来提升内容生成响应速度,从而提升用户体验,并降低推理成本。

通过对比多种不同的大模型API并对AI推理加速方案进行A/B实验,捏Ta团队最后选择将硅基流动的大模型API服务平台SiliconCloud和图片/视频推理引擎OneDiff引入其核心技术栈。

作者|捏Ta团队

捏Ta是国内每日图片生成量最大的AI产品之一。年轻一代的用户在该平台上使用AI角色创作内容,并且用角色经历各种场景模拟一个最简版的“西部世界”体验。这个过程中,既涉及到原创角色的形象(图片)、人格(文字)的生成,也涉及后续在场景中固定角色,模拟Ta的行为并生成对应的画面、声音等多模态内容,并在社区中与其他伙伴分享或者社交。

图片

无论是生成文字部分,Agent行为模拟还是生成图片,捏Ta在每日百万轮次、十亿Token以上的消耗都意味着巨大的推理成本,因此推理性能、成本的优化迫在眉睫。

项目挑战与技术选型

对于大语言模型推理方案,捏Ta主要关注的优先级维度有:

  1. Token Cost:单位Token的成本
  2. Time to first Token (TTFT):第一次接收到Token的延时
  3. Token/s:每秒Token的生成速度
  4. TPM:每分钟Token的吞吐量上限

在不同场景中,我们会使用不同规格的模型灵活地处理任务:如图像的提示词英语扩写,可以使用较小的模型;而角色的场景演绎模拟,最好都使用更加聪明的模型处理。

硅基流动SiliconCloud的语言模型平台中支持多种不同规格的大模型,从10B以下的免费模型到数百B的DeepSeek-V2-Chat大模型都可以通过统一的API接口方便地进行切换。​

图片

​对于文生图模型的推理,我们主要关注:

  1. 图片生成的平均速度提升
  2. 推理加速方案冻结模型权重的ComfyUI工作流灵活度
  3. 是否支持使用IPAdapter/ControlNet等插件模型

在图像生成上,捏Ta需要自己部署管理自研的Neta Art XL模型,在角色强表现力的场景下有独特的优势。

百万级别的日生成次数对应着数百张GPU的日常开销,每一点的效率提升都可以极大节省算力成本,我们对比使用过TensorRT、StableFast和OneDiff等加速方案后,使用了OneDiff和ComfyUI结合的加速方案,覆盖了70%以上的多模态生成场景。​

图片

捏Ta吉祥物的多种风格姿态OneDiff整体带来的业务效果非常明显,不仅节省了生成的成本,也因为用户的等待时间缩短,更愿意使用产品,因此提高了使用量。​

图片

很明显,结合算力的升级和相关推理加速方案的持续优化,并且加入LCM等有损模型蒸馏的加速生成方案,捏Ta的生成效率还能进一步提升,逐步接近“Token自由”。

结语

捏Ta坚定相信,Token算力的消耗是当今最重要的增长红利,能够合理的高效率将算力转化为用户愿意留存、高频、付费使用的服务是AI应用厂商的必解题目,其中大规模使用下的推理成本敏感性是关键的卡点。在这一主题下,硅基流动无疑在做最重要的从模型到应用落地的衔接工作。

​感谢硅基流动团队的辛勤工作和及时支持!​

图片

图片

让超级产品开发者实现“Token自由”

邀请新用户体验SiliconCloud,狂送2000万Token/人

邀请越多,Token奖励越多
siliconflow.cn/zh-cn/siliconcloud

(加入用户交流群请后台私信)


OneFlow
10 声望22 粉丝

★ OneFlow深度学习框架:github.com/Oneflow-Inc/oneflow ★ OF云平台:oneflow.cloud