您的位置：首页 > > 教程攻略 > ai资讯 >PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

来源:互联网 更新时间:2026-06-27 14:28

PhoneBuddy是什么

先说一个核心判断：手机端的AI Agent，终于有了一个真正面向真实场景的开源方案。PhoneBuddy是腾讯混元团队最新开源的4B参数手机Agent模型，它的核心目标非常明确——研究如何在真实手机环境中训练出可用的AI Agent。有意思的是，团队并没有把全部赌注押在堆参数上，而是设计了一套“真实App + Mock App混合RL训练”的方案。

效果如何？在150个真机评测任务中，PhoneBuddy在单App和微信小程序上的任务成功率，已经超过了GPT-5.4。AndroidWorld的成绩更是达到83.2%。这传递了一个清晰信号：小模型，只要环境设计得当，同样具备极强的竞争力。

PhoneBuddy的主要功能

手机GUI理解与操作
：能准确识别手机屏幕截图，并预测下一步该执行什么操作——点击、滑动还是输入文字。
单App任务执行
：在单个应用内独立完成搜索、修改设置、创建内容等操作。
跨App信息流转
：能打通多个应用之间的数据壁垒，完成需要协作的复杂任务。
微信小程序操作
：覆盖微信小程序生态，支持搜索、预订、查询等场景。
真实环境任务验证
：不仅仅是“看起来完成了”，而是会验证任务是否真正被执行——比如消息是否真的发出，文档是否保存成功。

PhoneBuddy的技术原理

两阶段训练架构

团队采用Shared SFT，让模型同时学习真实App和Mock App的操作轨迹，先建立一套统一的手机操作基础能力。进入RL阶段后，再对比“仅真实环境训练”和“真实+Mock混合训练”两种方案的效果差异。

Real+Mock混合RL

真实App的好处是能提供真实的业务逻辑和账号状态，但也伴随副作用。PhoneWorld的Mock App则提供了另一个关键能力——可重置、可验证、可规模化。两者互补，巧妙解决了“真实但难训练”与“可控但不真实”这对核心矛盾。

PhoneWorld环境构建

这个环境不是凭空造出来的。团队从真实GUI使用结构中，重建了可运行的Android Mock App，保留了页面结构、跳转关系、可交互元素和任务验证器。正因如此，RL阶段才能获得稳定的reward信号。

任务级验证机制

验证逻辑非常直接：检查任务的最终状态。比如酒店预算是否真的被筛选好，请假签的内容是否被正确粘贴。保证Agent是真的完成了用户的目标，而不是“假装完成”。

如何使用PhoneBuddy

环境准备
：下载并配置PhoneBuddy-4B模型权重与依赖环境，准备一台Android真机或模拟器作为执行层。
数据收集
：采集真实App的操作轨迹用于SFT阶段训练；同时接入PhoneWorld Mock App获取可验证的交互数据。
模型训练
：先执行Shared SFT训练，让模型掌握统一的操作格式；再选择Real-only或Real+Mock环境进行RL微调。
任务部署
：将训练好的模型接入手机执行层，通过GUI或CLI方式下发任务指令。
结果验证
：利用任务验证器检查最终执行状态，确认任务是否真正完成——而不是仅仅看起来“页面对了”。

PhoneBuddy的核心优势

真实场景导向
：训练直接面向真实手机和真实App，而不是为了刷离线Benchmark分数。
小模型高性能
：仅4B参数，在单App和微信小程序任务上超过GPT-5.4。这说明了环境设计的价值远比参数堆砌更重要。
可验证的RL训练
：PhoneWorld Mock环境提供了稳定的reward，让RL训练具备规模化扩展的潜力。
完整技术栈开源
：从环境、训练、执行到安全隐私评估，所有内容全部公开。
任务完成度保障
：通过约束跟随和信息转移验证，确保Agent真正执行了用户意图。

PhoneBuddy的项目地址

项目官网
：https://phonebuddyai.github.io/
GitHub仓库
：https://github.com/PhoneBuddyAI/phonebuddy
HuggingFace模型库
：https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
技术论文
：https://phonebuddyai.github.io/assets/paper.pdf

PhoneBuddy的同类竞品对比

以下表格直观对比了PhoneBuddy-4B-Real+Mock与GPT-5.4的表现差异：

对比维度	PhoneBuddy-4B-Real+Mock	GPT-5.4
模型规模	4B（开源）	闭源大模型（估计数百B级）
训练方式	Real+Mock 混合RL	未公开具体手机Agent训练方案
单App成功率	62.0%	50.0%
微信小程序成功率	56.0%	40.0%
AndroidWorld	83.2%	70.7%
跨App成功率	18.0%	未明确列出（文章未提）
平均成功率	54.8%	48.2%
环境可控性	支持Mock环境重置与验证	依赖真实API/环境

PhoneBuddy的应用场景

智能手机助手
：用户通过自然语言指令让Agent完成查快递、订酒店、发消息等日常操作。
自动化测试
：在真实App中自动执行UI测试流程，验证功能完整性和业务逻辑。
无障碍辅助
：帮助视障或操作不便的用户，自动完成复杂的手机多步操作。
跨应用工作流
：自动从邮件提取信息填入表格，或在多个办公App间传递数据。
小程序服务自动化
：在微信小程序内完成查询、预约、下单等无需安装原生App的任务。

PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

PhoneBuddy是什么

PhoneBuddy的主要功能

手机GUI理解与操作

单App任务执行

跨App信息流转

微信小程序操作

真实环境任务验证

PhoneBuddy的技术原理

两阶段训练架构

Real+Mock混合RL

PhoneWorld环境构建

任务级验证机制

如何使用PhoneBuddy

环境准备

数据收集

模型训练

任务部署

结果验证

PhoneBuddy的核心优势

真实场景导向

小模型高性能

可验证的RL训练

完整技术栈开源

任务完成度保障

PhoneBuddy的项目地址

项目官网

GitHub仓库

HuggingFace模型库

技术论文

PhoneBuddy的同类竞品对比

PhoneBuddy的应用场景

智能手机助手

自动化测试

无障碍辅助

跨应用工作流

小程序服务自动化

热门资讯

热门手游

相关攻略

热门专题