Visual ChatGPT：跟聊天机器人一起绘画

出品人：Towhee 技术团队顾梦佳

从AI作画背后的 Diffusion 到智能聊天里的 ChatGPT，生成模型的热潮一浪接着一浪，似乎也预示着超大预训练模型就是人工智能的未来。在万众瞩目的 GPT 4.0 “官宣”之前，微软率先发布融合了大语言模型和大视觉模型的 Visual ChatGPT。智能对话不再局限于文本类的交流，机器人不仅可以“看图说话”，还能沟通作画。不同模态的大模型各有千秋却无一全能，因此它们的结合势在必行。Visual ChatGPT 无疑是一个好的开端，正式开启了以 ChatGPT 为基础的拓展研究。

Architecture of Visual ChatGPTVisual

ChatGPT 没有选择从头训练一个多模态的模型，而是直接让 ChatGPT “汲取”各种大视觉模型的知识。它设计了一系列“提示”（Prompts）将来自 22 个大视觉模型的信息注入 ChatGPT。这些提示会明确告诉 ChatGPT 每个大视觉模型的能力，并指定输入和输出的格式。它们还会将不同的视觉信息转换成语言的形式，以帮助 ChatGPT 更好地理解图像。另外，提示也会帮助处理不同大视觉模型的历史、优先级、冲突。Visual ChatGPT 选择利用这些提示不断迭代来自大视觉模型的反馈，直到满足用户的要求或达到结束条件。经过在许多案例上进行大量的零样本迁移实验，Visual ChatGPT 成功证明了其理解和生成的能力。

Visual ChatGPT：跟聊天机器人一起绘画

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

分享自制小工具：AutomateGPT – 在 ChatGPT 里批量执行任务

Vite4-MobileGPT：基于vue3+vant4移动端仿ChatGPT聊天模板

electron25-vue3-chatgpt：基于vite4+electron客户端仿制chatgpt聊天应用

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

2025年3月免费好用的国内ChatGPT-4o、Deepseek满血版网站分享

快捷键打开某个窗口(如网页chatGPT)