Janus-Pro 是一种新颖的自回归框架,它统一了多模态理解和生成,由中国 AI 企业 DeepSeek 于 2025 年开发的开源多模态大模型,它通过将视觉编码解耦到单独的路径来解决以前方法的局限性,同时仍然使用单一的、统一的转换器体系结构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成方面的冲突,而且增强了框架的灵活性。
教程链接:https://go.openbayes.com/fwyRp
使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录 http://OpenBayes.com,在「公共教程」页面,选择键部署 「一键部署 Janus-Pro-7B」教程。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!
稍等片刻,待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
Janus-Pro-7B 有 2 个功能,分别为图像理解和文生图。
图像理解:
点击「Multimodal Understanding」,上传一张图片,在「Question」处输入想要模型回答的问题,最后点击「Chat」生成。
可以看到模型很快给出了准确的回答。
文生图:
点击「Text-to-lmage Generation」,在「Prompt」处输入文本提示词(A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.),最后点击「Generate Images」生成。
模型也很快地根据我们的提示词生成了图像。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。