热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >Qwen-AgentWorld - 通义千问推出的原生语言世界模型

Qwen-AgentWorld - 通义千问推出的原生语言世界模型

来源:互联网 更新时间:2026-06-25 14:12

Qwen-AgentWorld是什么

通义千问团队最近搞了个大动作——推出了首个语言世界模型,名叫Qwen-AgentWorld。它的核心能力,是通过长思维链推理,模拟出MCP、搜索、终端、软件工程、Android、Web、操作系统这7大智能体环境。说白了,就是让模型学会"脑补"环境变化。它基于超过1000万条真实交互轨迹,经历了持续预训练、监督微调、强化学习三阶段训练而成。同时,团队还配套发布了AgentWorldBench评测基准,用来验证模型在环境模拟和智能体训练上的真实水平。

Qwen-AgentWorld的主要功能

  • 七域统一环境模拟

    :覆盖MCP工具调用、搜索引擎、Linux终端、软件工程、Android GUI、Web浏览器、操作系统等7种截然不同的交互环境,而且都用统一的文本格式来描述状态转移。
  • 长思维链状态预测

    :它接收当前状态和智能体的动作后,会通过长思维链推理,精确预测出环境下一步会给出什么反馈,比如下一屏的UI长什么样、终端会输出什么、或者报错信息是什么。
  • 可控对抗模拟

    :支持注入特定的模拟指令,比如"隐藏部分搜索结果"或者"模拟磁盘满了的报错",这样就能系统性地生成真实环境中极为罕见的边缘案例。
  • 智能体强化学习训练

    :它可以作为一个独立的环境模拟器,支撑Sim Agentic RL方案,在超过4000个真实OpenClaw环境中实现可扩展的回合级训练。
  • 统一智能体基础模型

    :世界模型的训练过程,本身就能当作智能体训练的"热身"。这种能力内化成了类似"反思"的前向思考模式,能有效提升下游任务的表现。

Qwen-AgentWorld的技术原理

  • 统一轨迹模式

    :把7个异构环境的状态表示,全部统一为(system_prompt, action, observation)这个序列格式。其中的system_prompt又包含了任务描述、动作空间、初始状态、演示示例和模拟指令五个部分。
  • 三阶段训练管线

    • 持续预训练

      :注入状态转移动力学和增强领域的专业语料,让模型建立起通用的世界建模能力。
    • 监督微调

      :激活"下一状态预测"的推理思维链模式。
    • 强化学习

      :采用混合评分标准奖励和规则奖励,精细打磨模拟的保真度。
  • 混合奖励框架

    :针对那些可验证的确定性能力,比如终端命令执行、文件系统变化,设计了规则验证器;而对于开放域的模拟质量,则采用五维评分标准来评判。
  • 环境表示策略

    :在纯文本领域,直接预测文本输出;在GUI领域,则用可访问性树和UI视图层级结构来表示状态,而不是处理原始像素。

如何使用Qwen-AgentWorld

  • 作为环境模拟器

    :部署模型来替代真实环境,通过API接收(state, action),然后返回next_state。这样一来,就能在不依赖沙箱或虚拟机的情况下,进行大规模回合级的强化学习训练。
  • 作为智能体基础模型

    :直接把Qwen-AgentWorld当作智能体的骨干模型来用。它内置的世界建模能力能辅助动作选择,在Terminal-Bench、SWE-Bench、Claw-Eval这些基准上都能开箱即用。
  • 模型获取

    :可以从HuggingFace或ModelScope上下载权重,比如Qwen-AgentWorld-35B-A3B这个版本。

Qwen-AgentWorld的核心优势

  • 首个原生多域语言世界模型

    :从持续预训练阶段起,就把环境建模作为显式目标进行端到端训练,而不是事后对通用大语言模型做些适配。
  • 显著超越前沿基线

    :在AgentWorldBench上,397B-A17B版本拿下了58.8分,超越了Claude Opus 4.8的56.6分、GPT-5.4的58.2分、Gemini 3.1 Pro的54.6分、DeepSeek-V4-Pro的53.0分以及Qwen3.6-Plus的50.8分。
  • 可扩展且可控

    :不需要真实的基础设施,就能以回合级规模扩展环境。还能精确生成扰动,制造对抗样本。而且,在可控模拟下进行的强化学习,效果明显优于只在真实环境中训练的RL。
  • 跨域泛化与预热迁移

    :世界模型训练作为智能体训练的"预热",可以迁移到7个基准上,其中3个基准甚至完全没有出现在训练集里。哪怕不做智能体任务的强化学习微调,也展现出了强大的泛化能力。
  • 纯文本覆盖视觉环境

    :在GUI领域,用无障碍树、HTML或UI层级标记来表示状态,也就是说,纯文本的世界建模就足以涵盖视觉交互环境。

Qwen-AgentWorld的项目地址

  • 项目官网

    :https://qwen.ai/blog?id=qwen-agentworld
  • GitHub仓库

    :https://github.com/QwenLM/Qwen-AgentWorld
  • HuggingFace模型库

    :https://huggingface.co/collections/Qwen/qwen-agentworld
  • arXiv技术论文

    :https://arxiv.org/pdf/2606.24597

Qwen-AgentWorld的同类竞品对比

维度 Qwen-AgentWorld WebWorld

定位

七域统一语言世界模型(原生LWM) 大规模Web智能体训练专用世界模型

环境覆盖

7大域:MCP、Search、Terminal、SWE、Web、Android、OS 单一域:Web浏览器环境

状态表示

统一文本模式:无障碍树XML、HTML、UI层级标记、Shell输出、代码执行结果 多格式状态:A11y树、HTML、XML、Markdown、自然语言

训练方式

CPT → SFT → RL三阶段端到端原生训练,1000万+真实轨迹 两阶段课程:广泛预训练 + 因果推理激活

模型规模

35B-A3B / 397B-A17B 14B / 32B

上下文窗口

支持长上下文 256K tokens

模拟深度

长思维链推理预测下一状态,支持可控对抗模拟 支持30+连续步骤的多轮模拟,一致状态跟踪

动作空间

各域原生动作格式 统一Python风格函数调用

评测基准

自建AgentWorldBench 基于WebArena、Mind2Web等Web智能体基准验证

核心优势

跨域统一、七域原生、可控对抗、双范式 Web域专精、多格式兼容、动作空间标准化、256K长上下文

Qwen-AgentWorld的应用场景

  • 智能体训练基础设施

    :为AI Agent提供一个低成本、可扩展、可控制的虚拟训练场,替代昂贵的沙箱和真实API调用。
  • 边缘案例与对抗测试

    :生成真实环境中罕见的错误状态,比如网络超时、权限拒绝、资源不足,用来测试智能体的鲁棒性。
  • 软件工程辅助

    :模拟代码执行、测试反馈、Git操作的结果,帮助开发者预先演练操作可能带来的后果。
  • 自动化UI测试

    :模拟Android、Web、桌面应用的交互,预测点击或输入后的页面状态变化,用于自动化测试脚本的生成。
  • 工具调用与MCP生态

    :模拟MCP服务器的响应和多工具链的编排,帮助开发者调试复杂的调用逻辑,而不用真的部署一套服务。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc