阿里最新发布Qwen2-VL：看视频的AI到底能干些什么惊人的事？

Qwen2-VL

阿里云最新推出的 Qwen2-VL 模型，就像是给 AI 装上了一双火眼金睛，不仅能看懂图片，还能理解长达20分钟的视频！从官方给出的数据来看 Qwen2-VL 的参数还能比肩 GPT-4o，那么 Qwen2-VL 到底强在哪些地方呢？本文继续带你了解。

Qwen2-VL

视觉语言模型 Qwen2-VL

想象一下，有一个 AI 助手，它不仅能和你聊天，还能"看"懂你给它的任何图片和视频。这不是科幻电影里的场景，而是阿里云刚刚推出的 Qwen2-VL 模型带来的现实。作为新一代视觉语言模型，Qwen2-VL在图像理解、视频分析和多语言处理方面都展现出了惊人的能力。

Qwen2-VL 目前一共三个版本：

Qwen2-VL-72B：这是家族中的大哥，拥有720亿参数，是真正的 AI 巨人。它在各项测试中表现出色，甚至在某些任务上超越了 GPT-4o 和Claude3.5-Sonnet等知名闭源模型。

Qwen2-VL-7B：这是中庸之选，有70亿参数。它保留了对图像、多图和视频的处理能力，在性能和成本之间找到了绝佳平衡点。

Qwen2-VL-2B：这是家族中的小弟，仅有20亿参数。别小看它，这个"袖珍版"是为移动设备量身打造的，在图像、视频和多语言理解方面表现出色。

Qwen2-VL架构组成

Qwen2-VL 的模组架构

与以前不同，Qwen2-VL 可以处理任意图像分辨率，将它们映射到动态数量的视觉标记中，从而提供更接近人类的视觉处理体验。多模态旋转位置嵌入会将位置嵌入分解到零件中，以捕获 1D 文本、2D 视觉和 3D 视频位置信息，从而增强其多模态处理能力。

Qwen2-VL 的主要功能有：

1 :SoTA对各种分辨率和比例的图像的理解：Qwen2-VL 在视觉理解基准上达到了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA 等。

2 :理解 20min+ 视频：Qwen2-VL 具备在线推流功能，通过高质量的视频问答、对话、内容创作等方式，可以理解 20 分钟以上的视频。

3：可以操作您的手机、机器人等的代理：Qwen2-VL 具有复杂的推理和决策能力，可以与手机、机器人等设备集成，根据视觉环境和文本指令进行自动操作。

4：多语言支持：为了服务全球用户，除了英文和中文外，Qwen2-VL 现在还支持理解图像中不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

性能对比

Qwen2-VL 官方性能对比展示

Qwen2-VL 在多项权威测试中都展现出了惊人的实力。在 MathVista、DocVQA、RealWorldQA和MTVQA等视觉理解基准测试中，Qwen2-VL 都取得了全球领先的成绩。特别值得一提的是，在72B版本的测试中，Qwen2-VL 在多项指标上甚至超越了 GPT-4o 这样的 AI 巨头。

虽然在综合性的大学题目上还有一定差距，但在文档理解等特定任务上，Qwen2-VL 展现出了明显优势。即使是参数较少的7B版本，其性能也达到了同等规模模型中的顶尖水平。特别是在文档理解和多语言文字理解方面，它的表现尤为出色。

实操表现

Qwen2-VL 实操展示

Qwen2-VL 在实际应用中的表现同样令人印象深刻。在文档理解方面，它能准确提取复杂表格中的信息，甚至能理解手写笔记。在视频分析方面，Qwen2-VL 的表现也非常的不错。外网目前有一个火爆了的视频，视频中的 Qwen2-VL 可以实时反应这个视频中的内容，包括物品识别、计算视频中的数学题等等。

外网对 Qwen2-VL 的测试

目前外网很多用户都在对Qwen2-VL进行测试，基本上是一致的好评，感觉Qwen2-VL还有更多的玩法等待用户们去挖掘，从这也能看出Qwen2-VL的发布是十分成功的。不知道你们觉得Qwen2-VL所带来的效果如何呢？

有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在厚德云。

阿里最新发布Qwen2-VL：看视频的AI到底能干些什么惊人的事？

Qwen2-VL

Qwen2-VL架构组成

性能对比

实操表现

慧星云

引用和评论

ComfyUI一键画风转换：春日二次元IP形象一键转绘

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式

阿里最新发布Qwen2-VL：看视频的AI到底能干些什么惊人的事？

Qwen2-VL

Qwen2-VL架构组成

性能对比

实操表现

慧星云

引用和评论

ComfyUI一键画风转换 ：春日二次元IP形象一键转绘

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式

ComfyUI一键画风转换：春日二次元IP形象一键转绘