NVIDIA发布NVLM 1.0：开源多模态LLM，提升文本与视觉能力

NVIDIA发布开源多模态大语言模型NVLM 1.0

NVIDIA近日发布了开源多模态大语言模型NVLM 1.0，该模型在视觉语言和纯文本任务上均表现出色。NVLM 1.0在多模态训练后，在基于文本的任务上表现尤为突出，超越了当前其他模型。该模型的权重已在Hugging Face平台上发布，训练代码也即将公开。

性能评估与改进

NVLM 1.0在视觉语言和纯文本任务上的表现均优于现有的专有和开源多模态模型。特别是NVLM-1.0-D 72B模型，在多模态训练后，在数学和编码任务上的准确率平均提高了4.3个百分点。相比之下，像InternVL2-Llama3-76B这样的模型在多模态训练后，在纯文本任务上的性能反而下降。NVLM的文本改进表明其架构能够有效处理多模态数据，而不会削弱其原有的语言能力。

多模态任务处理能力

NVLM-1.0-D 72B模型不仅擅长处理文本，还能处理多种多模态任务，包括目标定位、推理、光学字符识别（OCR）以及基于视觉输入的编码任务。该模型能够理解复杂场景，如视觉幽默或图像中的位置敏感问题。它还能基于手写伪代码进行数学推理，展示了其处理多种多模态输入的能力。

社区反馈与未来展望

用户Imjustmisunderstood在Reddit上评论了NVLM的潜力，认为将标记化扩展到更多“感官”会指数级增加维度，并期待看到潜在空间是否能够识别不同模态中的共同时间维度。这暗示了多模态数据处理可能带来的新信息连接方式。

总体来说，NVLM 1.0在社区中获得了非常积极的反馈。Luênya dos Santos在LinkedIn上表示，NVIDIA的NVLM-D-72B是AI创新的一大飞跃，NVIDIA开源该模型的决策将推动AI开发的边界，并为小型团队提供尖端技术。John McDonald也补充道，NVIDIA通过公开模型权重并承诺发布训练代码，打破了保持先进AI系统封闭的趋势。

开源与未来发展

NVLM 1.0已作为开源AI模型提供给AI社区，模型权重可通过Hugging Face获取。训练代码即将发布，这将进一步推动对该模型能力的探索。