杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

关注前沿科技量子位

眼看着半只脚都跨进蛇年了，杭州城还是一如既往真卷啊！

今天凌晨4点，阿里通义Qwen发布新春节礼第二弹：推出视觉理解模型Qwen2.5-VL，开源的。

可以支持视觉理解事物、Agent、理解长视频并且捕捉事件、视觉定位和结构化输出等等。

Qwen2.5-VL是Qwen系列旗下全新的视觉理解模型，也被官方称为“旗舰视觉语言模型”，推出了3B、7B和72B三个版本。

官方放出的测试结果，Qwen系列视觉旗舰中的旗舰——Qwen2.5-VL-72B-Instruct，在一系列涵盖多个领域和任务的基准测试中表现如下。

包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉Agent：

而此系列中的7B模型，Qwen2.5-VL-7B-Instruct，在多个任务中超越了GPT-4o-mini。

此外，通义Qwen团队还将Qwen2.5-VL-3B称为“端侧AI的潜力股”，它以3B之身，超越了此前的Qwen2-VL-7B。

可以观察到的一点是，Qwen2.5-VL在理解文档和图表方面表现突出。

此外，当作为视觉Agent操作时，Qwen2.5-VL无需进行特定任务的微调。

官方宣布，Qwen2.5-VL的Base和Instruct模型，全系列3B、7B、72B仨尺寸的模型，已经统统开源。

（按惯例，文末有之指路直通车）

Qwen旗下全新视觉旗舰，模型能力如何？

下面展示对Qwen2.5-VL在6个方面的能力：

视觉定位能力
通用图像识别能力
Qwen特色的文档解析
能够操作电脑和手机的视觉Agent
增强的视频理解能力
文字识别和理解能力

视觉定位能力

据官方信息，Qwen2.5-VL可以采用矩形框和点的多样化方式，对通用物体定位，并实现层级化定位和规范的 JSON格式输出。

譬如，喂给它一张街头实拍图，并输入Prompt：

检测图像中的所有摩托车手，并以坐标形式返回他们的位置。输出格式应类似于{“bbox\_2d”: [x1, y1, x2, y2], “label”: “motorcyclist”, “sub\_label”: “wearing helmat” # 或 “not wearing helmat”}。

然后你将得到一个用不同颜色方框，框选中图中载人摩托车的返回结果：

坐标返回也没落下，按要求返回：

Qwen团队表示，Qwen2.5-VL增强的定位能力，提供了在复杂场景中，视觉Agent进行理解和推理任务的基础。

通用图像识别能力

此外，相较于视觉模型系列前作Qwen2-VL，Qwen2.5-VL主要提升了其通用图像识别能力。

同时扩大了模型可识别的图像类别量级，包括动植物、著名山川河流等地标，还包括各种影视IP，以及各类商品。

Prompt：这些景点是什么？请用中文和英文给出它们的名字。

量子位亲测，Qwen2.5-VL-72B-Instruct给出的答案如下：

Qwen特色的文档解析

在Qwen2.5-VL中，研发团队设计了一种“更全面的文档解析格式”，称为QwenVL HTML格式。

简单来说，该模式下的Qwen2.5-VL，既可以将文档中的文本精准地识别出来，也能够提取文档元素（如图片、表格等）的位置信息，从而准确地将文档中的版面布局进行精准还原。

以下为Qwen团队的官方测试demo。

Prompt：QwenVL HTML。

同时喂给下面这张图片：

Qwen2.5-VL吐回的结果是酱婶儿的：

研发人员还表示，基于精心构建的海量数据，QwenVL HTML可以对广泛的场景进行鲁棒的文档解析，比如杂志、论文、网页等。

甚至包含手机截屏～

能够操作电脑和手机的视觉Agent

通过利用内在的感知、解析和推理能力，Qwen2.5-VL展现出了不错的设备操作能力。

包括在手机、网络平台和电脑上执行任务。

譬如，让它帮忙订一张今天从重庆飞北京的机票：

Prompt：请帮我通过预订应用查看单程机票。出发点是重庆江北机场，终点是北京首都机场，日期是1月28日。

请欣赏它的执行过程和背后代码（虽然执行过程的动作速度还比较缓慢）：

视频理解能力

视频里能力方面，在时间处理上，Qwen2.5-VL引入了动态帧率（FPS）训练和绝对时间编码技术。

如此一来，模型不仅能够支持小时级别的超长视频理解，还具备秒级的事件定位能力。

它不仅能够准确地理解小时级别的长视频内容，还可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中蕴藏的关键信息。

譬如，让它观看以下视频，并列出视频中出现的paper名字。

它吐出来的结果如下：

文字识别和理解能力

最后，Qwen2.5-VL提升了OCR识别能力——

增强了多场景、多语言和多方向的文本识别和文本定位能力。

同时，该系列模型又着重增强了信息抽取能力，以满足日益增长的资质审核、金融商务等数字化、智能化需求。

Qwen2.5-VL系列，升级在哪里？

去年9月2日，阿里通义团队开源了上一代（也是第二代）视觉语言模型 Qwen2-VL，当时推出的是2B、7B两个参数版本，及其及其量化版本。

当时的Qwen2-VL可以理解20分钟以上长视频，以及可集成后自主操作手机和机器人。

与Qwen2-VL相比，Qwen2.5-VL增强了模型对时间和空间尺度的感知能力，并进一步简化了网络结构以提高模型效率。

具体可分为两个方面。

其一是时间和图像尺寸的感知。

在空间维度上，Qwen2.5-VL不仅能够动态地将不同尺寸的图像转换为不同长度的token，还直接使用图像的实际尺寸来表示检测框和点等坐标，而不进行传统的坐标归一化。

这使得模型能够直接学习图像的尺度。

在时间维度上，引入了动态FPS（每秒帧数）训练和绝对时间编码，将mRoPE id直接与时间流速对齐。

这使得模型能够通过时间维度id的间隔来学习时间的节奏。

其二是更简洁高效的视觉编码器。

视觉编码器在多模态大模型中扮演着至关重要的角色。

Qwen2.5-VL团队从头开始训练了一个原生动态分辨率的ViT，包括CLIP、视觉-语言模型对齐和端到端训练等阶段。

为了解决多模态大模型在训练和测试阶段ViT负载不均衡的问题，研究人员又引入了窗口注意力机制，有效减少了ViT端的计算负担。

在Qwen2.5-VL的ViT设置中，只有四层是全注意力层，其余层使用窗口注意力。

最大窗口大小为8x8，小于8x8的区域不需要填充，而是保持原始尺度，确保模型保持原生分辨率。

此外，为了简化整体网络结构，团队使ViT架构与LLMs更加一致，采用了RMSNorm和SwiGLU结构。

在此基础上，Qwen2.5-VL呈现出如下主要特点：

第一，视觉理解：

Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。

第二，Agent：

Qwen2.5-VL直接作为一个视觉Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。

第三，理解长视频和捕捉事件：

Qwen2.5-VL能够理解超过1小时（进步了40分钟）的视频，并且它具备了通过精准定位相关视频片段来捕捉事件的新能力。

第四，视觉定位：

Qwen2.5-VL可以通过生成bounding boxes或者points来准确定位图像中的物体，并能够为坐标和属性提供稳定的JSON输出。

第五，结构化输出：

对于发票、表单、表格等数据，Qwen2.5-VL支持其内容的结构化输出，有助于在金融、商业等领域的应用。

One More Thing

目前，Qwen2.5-VL全系列已经开源在抱抱脸、魔搭社区。

而Qwen Chat官网可直接体验Qwen2.5-VL-72B-Instruct。

Qwen团队还表示：

看来，推理、多模态是Qwen团队的下一步重点，最终星辰大海是综合全能模型。

Qwen Chat： https://chat.qwenlm.ai

抱抱脸： https://huggingface.co/collec...

魔搭： https://modelscope.cn/collect...

参考链接： https://mp.weixin.qq.com/s/RhRcULJrEGwasMLoNYXPOw

— 完 —

量子位智库年终发布三大年度报告！

带你一起回顾2024年人工智能、智能驾驶、Robotaxi新趋势，预见2025年科技行业新机遇！

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

Qwen旗下全新视觉旗舰，模型能力如何？

视觉定位能力

通用图像识别能力

Qwen特色的文档解析

能够操作电脑和手机的视觉Agent

视频理解能力

文字识别和理解能力

Qwen2.5-VL系列，升级在哪里？

One More Thing

量子位

引用和评论

ICML25 | 让耳朵「看见」方向！仅依靠360°全景视频，就能生成3D空间音频

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

一夜之间，萝卜快跑拿掉了所有安全员

最强32B中文推理大模型易主：开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜

配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+AMX让预填充速度起飞

AI三小时做的小游戏，9天赚12万！马斯克：AI游戏前景无限