您的位置：首页 > > 教程攻略 > ai资讯 >Qwen3.7-Plus - 阿里通义推出的智能体多模态大模型

Qwen3.7-Plus - 阿里通义推出的智能体多模态大模型

来源:互联网 更新时间:2026-06-02 11:56

Qwen3.7-Plus是什么

从大模型的演进路线来看，多模态能力的竞争早已进入白热化。而通义千问这次推出的Qwen3.7-Plus，更像是一次“全能选手”的正式亮相——它不再是单纯的视觉模型或语言模型，而是将视觉与语言统一为一体化智能体基座。换句话说，这个模型能感知真实世界场景、读取屏幕并操作GUI、基于视觉参考生成代码，甚至支持端到端导航移动应用。

特别值得关注的是，Qwen3.7-Plus可以在单一智能体循环中无缝融合GUI与CLI交互。这意味着它不再只是“能看会说”，而是真正具备了执行复杂任务的能力。从处理前端原型到复杂软件工程，再到多步工作流自动化，它几乎覆盖了全方位任务，并且具备跨框架泛化能力。

Qwen3.7-Plus的主要功能

说到这里，它的功能覆盖面相当广，核心可以归结为以下几个方向：

多模态交互混合智能体
：统一处理图像、视频、屏幕、网页和文本输入，在GUI、CLI或工具环境中完成复杂任务闭环。简单来说，就是“怎么输入都行，怎么输出都能搞定”。
视觉智能体
：结合视觉理解、代码解释器和搜索增强能力，用来解决视觉谜题、真实世界问答和复杂推理任务。它不是简单识别图片，而是能“看懂”并“推理”。
视觉编程
：从图像或视频直接生成SVG、网页和交互式前端代码，实现视觉参考到代码的端到端转化。设计稿到上线，中间环节被大幅压缩。
GUI智能体
：理解移动端和桌面端界面，能够进行控件定位、任务规划和多步操作。真正实现了“看懂界面”到“操作界面”的跨越。
真实世界感知与推理
：覆盖真实场景、文档图表、OCR、视频和驾驶场景理解，让模型在现实世界的应用中更“接地气”。

Qwen3.7-Plus的技术原理

技术层面，有几个关键突破值得关注。

首先是视觉感知与推理的深度融合。

模型在BabyVision、MathVision、HiPhO等高难度视觉推理基准上表现强劲，体现出对图像细节、空间关系、物理常识和多步逻辑的综合理解能力。尤其值得提的是BabyVision上的显著提升——这更像人类早期视觉认知和空间推理能力的模拟，说明模型在泛化能力上确实下了功夫。

其次是视觉到代码的端到端转化机制。

通过代码解释器的集成，模型能将视觉问题转化为可计算的问题表示，自主编写并执行代码进行求解、搜索或验证。拿找不同、补图块、华容道、迷宫和拼图这类任务来说，模型不仅识别图像内容，还能进行空间建模、路径搜索、状态推演，最后完成结果校验。整个过程接近一个完整的推理闭环。

GUI自动化与多步交互能力同样不可忽视。

模型能够识别屏幕内容，定位关键UI元素、理解任务意图并完成多步交互操作。在ScreenSpot Pro、OSWorld-Verified和AndroidWorld上的表现充分说明，它已经具备了从“看懂界面”走向“操作界面”、“构建界面”的完整链路能力。

搜索增强的多模态知识问答

也是一大亮点。模型将视觉输入与外部知识检索结合：先从视觉输入中提取关键实体、场景、文字和上下文线索，再通过搜索获取外部知识，最终综合视觉证据和检索结果给出答案。这解决了传统模型“只看得懂但说不清”的痛点。

最后，

视频理解与驾驶场景感知能力

的增强同样值得关注。模型在处理短视频和长视频中的事件、动作、时序和语义关系方面有了明显进步，同时在LingoQA、SURDS和VLADBench等驾驶相关评测中，也展现出了对动态场景、交通参与者和空间关系的深度理解能力。

如何使用Qwen3.7-Plus

实际使用起来并不复杂，流程大致如下：

访问官方平台
：通过阿里云百炼或Qwen Studio官网访问模型服务。
选择模型版本
：在模型市场中选择Qwen3.7-Plus，根据需求配置调用参数。
输入多模态内容
：支持上传图像、视频、屏幕截图或网页链接，结合文本指令进行交互。
执行任务
：根据实际场景选择对应能力模式（如Visual Agent、GUI Agent、Visual Coding等），模型将自动完成感知、推理与执行闭环。

Qwen3.7-Plus的核心优势

如果要用一句话概括它的核心竞争力，那就是“多模态Agent闭环能力”——将看、想、写、做、验整合进统一智能体工作流，支撑复杂软件任务从理解到交付的端到端自动完成。这不是简单的功能堆砌，而是一个真正能跑通全链路的系统。

跨框架泛化能力也是一大看点。无论通过Claude Code、OpenClaw、Qwen Code还是其他框架部署，它都能保持稳定表现。这意味着开发者不需要被特定框架绑定。

视觉编程方面更是领先。在QwenVision2Code上得分1772.0，这一成绩接近GPT-5.4的1884.0，显著领先Claude-Opus-4.6（1518.0）和Gemini-3.1 Pro（1632.0）。考虑到GPT-5.4在通用语言任务上的积累，这个差距已经相当小了。

GUI操作能力同样处于第一梯队。ScreenSpot Pro得分79.0，AndroidWorld得分81.0，在界面理解和操作任务上表现突出。

还有一个不得不提的数字——长时自主运行能力。有案例显示，Agent可持续稳定运行11小时以上，累计生成代码超过10,000行，触发调用超过1,000次。这意味着它真的能“干活儿”，是生产力级别的工具。

Qwen3.7-Plus的项目地址

项目官网
：https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的同类竞品对比

对比当前市面上的同类模型，Qwen3.7-Plus的优势和定位会更加清晰。

从定位上看，Qwen3.7-Plus是多模态交互混合智能体基座模型，而GPT-5.4更偏向通用多模态大模型。两者方向不同，但能力有交叉。

在Vision Arena排名中，Qwen3.7-Plus拿下全球第5、中国第一的成绩，而GPT-5.4未进入前7。这已经不是同一水平的竞争。

具体到细分能力：

ScreenSpot Pro
（GUI定位）：Qwen3.7-Plus 79.0，GPT-5.4 67.4
AndroidWorld
（移动端操作）：Qwen3.7-Plus 81.0，GPT-5.4未测试
QwenVision2Code
（视觉编程）：Qwen3.7-Plus 1772.0，GPT-5.4 1884.0
BabyVision
（视觉推理）：Qwen3.7-Plus 70.4/64.7，GPT-5.4 53.1
RealWorldQA
（真实世界问答）：Qwen3.7-Plus 86.9，GPT-5.4 83.8
Terminal Bench 2.0
（终端编码）：Qwen3.7-Plus 70.3，GPT-5.4未测试
SWE-bench 多语言
：Qwen3.7-Plus 75.8，GPT-5.4 77.5
视频理解 VideoMMMU
：Qwen3.7-Plus 88.0，GPT-5.4 89.5
多模态搜索 MMSearchPlus
：Qwen3.7-Plus 41.4，GPT-5.4 19.7

核心优势方面，Qwen3.7-Plus的GUI操作、视觉推理、长时Agent闭环和跨框架泛化能力是独门绝技；GPT-5.4则在视觉编程、视频理解和通用语言任务上更强。

适用场景也随之区分：Qwen3.7-Plus更适合复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流；GPT-5.4则更适合通用内容生成、视觉参考转代码、多语言翻译等场景。

Qwen3.7-Plus的应用场景

考到它的能力图谱，实际应用场景相当广泛。

智能软件开发
：从需求文档生成到代码编写、测试用例创建、GUI自动化测试、版本迭代演进的全链路APP开发，一个智能体全部搞定。
桌面应用复刻
：自主理解原生应用UI布局与功能细节，生成对应源码并接入真实API，实现高保真应用复刻。
视觉内容生成
：将设计参考图转化为可执行的SVG、网页或交互式前端代码，大幅降低从视觉到代码资产的转化成本。
多模态知识问答
：结合图像、视频与网络搜索，回答开放世界的视觉问题——包括地点识别、事件背景分析、商品信息查询等。
自动驾驶与具身智能
：理解动态驾驶场景、交通参与者和空间关系，支撑真实世界多模态智能体和embodied场景的应用落地。

从当前产业趋势来看，像Qwen3.7-Plus这样的模型正在把“多模态”从展示型能力真正推向生产力工具。未来值得持续关注。

Qwen3.7-Plus - 阿里通义推出的智能体多模态大模型

Qwen3.7-Plus是什么

Qwen3.7-Plus的主要功能

多模态交互混合智能体

视觉智能体

视觉编程

GUI智能体

真实世界感知与推理

Qwen3.7-Plus的技术原理

首先是视觉感知与推理的深度融合。

其次是视觉到代码的端到端转化机制。

GUI自动化与多步交互能力同样不可忽视。

搜索增强的多模态知识问答

视频理解与驾驶场景感知能力

如何使用Qwen3.7-Plus

访问官方平台

选择模型版本

输入多模态内容

执行任务

Qwen3.7-Plus的核心优势

Qwen3.7-Plus的项目地址

项目官网

Qwen3.7-Plus的同类竞品对比

ScreenSpot Pro

AndroidWorld

QwenVision2Code

BabyVision

RealWorldQA

Terminal Bench 2.0

SWE-bench 多语言

视频理解 VideoMMMU

多模态搜索 MMSearchPlus

Qwen3.7-Plus的应用场景

智能软件开发

桌面应用复刻

视觉内容生成

多模态知识问答

自动驾驶与具身智能

热门资讯

热门手游

相关攻略

热门专题