ChemVLM 是由上海人工智能实验室于 2024 年推出的首个面向化学领域的开源多模态大型语言模型。该模型旨在解决化学图像理解与文本分析之间的不兼容问题,通过结合视觉 Transformer (ViT)、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势,实现了对化学图像和文本的全面推理。
使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录到 OpenBayes 平台后,打开「公共教程」,找到「一键部署 ChemVLM-26B」的教程。
进入到教程界面后,点击右上角「克隆」。
平台在克隆过程中以自动为我们配置好了模型文件,点击「下一步:选择算力」。
平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 A100 的算力和 PyTorch 的镜像,点击「审核并执行」。
确认模型信息无误后,点击「继续执行」。
稍等片刻,待系统分配好资源,状态栏显示为「运行中」后,将鼠标悬停在 API 地址处,点击链接进入模型。使用 API 需要进行现进行实名认证~
然后我们上传一个化学相关的图像,在「Input text」中输入「请描述这张图像」。
可以看到模型针对图像准确描述了图像的内容是黄色的液氮罐,接着我们可以继续问它一个问题,比如我们输入「液氮的化学分子式是什么」。可以看到模型也对我们的问题进行了回答。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。