来源:互联网 更新时间:2026-06-27 14:28
先说一个核心判断:手机端的AI Agent,终于有了一个真正面向真实场景的开源方案。PhoneBuddy是腾讯混元团队最新开源的4B参数手机Agent模型,它的核心目标非常明确——研究如何在真实手机环境中训练出可用的AI Agent。有意思的是,团队并没有把全部赌注押在堆参数上,而是设计了一套“真实App + Mock App混合RL训练”的方案。
效果如何?在150个真机评测任务中,PhoneBuddy在单App和微信小程序上的任务成功率,已经超过了GPT-5.4。AndroidWorld的成绩更是达到83.2%。这传递了一个清晰信号:小模型,只要环境设计得当,同样具备极强的竞争力。
团队采用Shared SFT,让模型同时学习真实App和Mock App的操作轨迹,先建立一套统一的手机操作基础能力。进入RL阶段后,再对比“仅真实环境训练”和“真实+Mock混合训练”两种方案的效果差异。
真实App的好处是能提供真实的业务逻辑和账号状态,但也伴随副作用。PhoneWorld的Mock App则提供了另一个关键能力——可重置、可验证、可规模化。两者互补,巧妙解决了“真实但难训练”与“可控但不真实”这对核心矛盾。
这个环境不是凭空造出来的。团队从真实GUI使用结构中,重建了可运行的Android Mock App,保留了页面结构、跳转关系、可交互元素和任务验证器。正因如此,RL阶段才能获得稳定的reward信号。
验证逻辑非常直接:检查任务的最终状态。比如酒店预算是否真的被筛选好,请假签的内容是否被正确粘贴。保证Agent是真的完成了用户的目标,而不是“假装完成”。
以下表格直观对比了PhoneBuddy-4B-Real+Mock与GPT-5.4的表现差异:
| 对比维度 | PhoneBuddy-4B-Real+Mock | GPT-5.4 |
|---|---|---|
| 模型规模 | 4B(开源) | 闭源大模型(估计数百B级) |
| 训练方式 | Real+Mock 混合RL | 未公开具体手机Agent训练方案 |
| 单App成功率 | 62.0% | 50.0% |
| 微信小程序成功率 | 56.0% | 40.0% |
| AndroidWorld | 83.2% | 70.7% |
| 跨App成功率 | 18.0% | 未明确列出(文章未提) |
| 平均成功率 | 54.8% | 48.2% |
| 环境可控性 | 支持Mock环境重置与验证 | 依赖真实API/环境 |
archiveofourown 实战指南:常见用法整理
电视剧《小欢喜》剧情介绍
俄罗斯最大yandex入口外贸日报直达链接
如何在夸克浏览器中开启网页视频的倍速播放功能?
美好的简约网名男生(精选100个)
二次元男生网名可爱(精选100个)
腾讯元宝怎么用来分析股票基金的基本面信息?
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
问题:CIA币好不?Cia Protocol币今日上线:价格预测、代币经济学和未来潜力
wallpaper壁纸声音怎么开启
国际贵金属走低,现货黄金价格跌0.49%
短剧《嫡女她是山大王》剧情介绍
免费观看国外短视频的app有哪些 观看国外短视频的软件下载
新浪人工智能热点小时报丨2026年06月20日02时_今日实时人工智能热点速递
AO3网址链接入口 教程:从入门到实际使用
Bubbly无法连接服务器修复方法
玉米名字网名大全男生(精选100个)
倒数日怎么注册 倒数日账号注册教程
《梦幻西游》除妖军功兑换-1500换经验/3000换称谓
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc