头图

image.png

Kimi-VL 项目是 Kimi Team 于 2025 年 4 月发布的大语言模型,这是一种高效的开源专家混合 (MoE) 视觉语言模型 (VLM),可提供高级多模态推理、长上下文理解和强大的代理功能。相关论文成果为「Kimi-VL Technical Report」。

👉 该项目提供了两种型号的模型:

  • Kimi-VL-A3B-Instruct: 适合对多模态感知和理解、OCR 、长视频和长文档、视频感知和智能体的使用。
  • Kimi-VL-A3B-Thinking: 适合对高级文本和多模态推理(例如数学)的使用。

本教程采用资源为双卡 RTX 4090 。 教程链接:https://go.openbayes.com/50NqC 使用云平台: OpenBayes http://openbayes.com/console/signup?r=sony_0m6v 首先点击「公共教程」,在公共教程中找到「一键部署 kimi-VL」,单击打开。

image.png

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

image.png

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

image.png

数据和代码都已经同步完成了。启动容器后,点击「 API 地址」,即可进入对话界面。

image.png

进入网页后,即可与模型展开对话

重要的使用技巧:

  • 使用 Compact mode 时回复的速度较快。
  • 使用 Detailed mode 模式时回复时间较长,约三到五分钟。

打开模型后,向它提问一道比较绕的数学谜题,可以看到,Kimi-VL 不仅快速的提供了最终答案还呈现了分步的思考过程。

image.png

image.png


小白狮ww
1 声望0 粉丝