来源:互联网 更新时间:2026-06-25 14:05
先说说MMSkills的来头。这是上海交通大学和小红书联合搞出来的一个多模态技能框架,专门为通用视觉Agent设计。它的核心思路很有意思——把原本只能靠文字描述的技能,扩展成包含文本流程、运行时状态卡片和多视角关键帧的多模态知识单元。这样一来,Agent就不再是“盲人摸象”式地执行任务,而是真正能“看懂”当前界面状态再行动。通过一套叫branch loading的机制,系统能在运行时按需调用视觉证据,既灵活又高效。实验数据也很能说明问题:在OSWorld、macOSWorld、VAB-Minecraft这些GUI和游戏任务上,Gemini、Qwen、Kimi、GLM等主流模型接入后,表现都有稳定提升。
这个框架的功能设计,可以说是在“如何让Agent更聪明地干活”这条路上走得很远。关键在于它把技能从静态文档变成了动态可感知的模块。
听上去很酷,但具体是怎么实现的?几个技术关键点值得拆开来看。
如果是开发者,想把MMSkills用起来,流程其实相当清晰——当然,前提是你的Agent已经具备基础的视觉推理能力。
相比传统的“纯文本技能”方案,MMSkills的优势是实打实的,不是纸上谈兵。
把MMSkills和传统的纯文本技能方案放在同一个台面上对比,差距一目了然。
| 维度 | MMSkills | Text-only Skills |
|---|---|---|
| 技能表示 | 文本流程 + 状态卡片 + 多视角关键帧 | 纯文本步骤或动作图 |
| 状态判断 | 通过运行时状态卡片和截图判断当前界面状态 | 仅靠文本描述推断,易忽略界面实际状态 |
| 运行时加载 | Branch Loading 临时分支选择性加载视觉证据 | 通常直接注入完整文本技能到主上下文 |
| 上下文污染 | 通过 View Selection 过滤,避免参考图片污染主Agent | 文本虽无图片污染,但缺乏视觉grounding |
| 典型失败案例 | 能识别当前激活工作表、按钮可用状态等 | 易在错误工作表创建图表、误点灰色按钮 |
| OSWorld整体表现 | Gemini 3.1 Pro: 50.11%;Qwen3-VL-235B: 39.17% | Gemini 3.1 Pro: 40.76%;Qwen3-VL-235B: 28.57% |
最后聊聊这个框架能用在哪些地方。核心价值在于:让Agent从“按脚本机器人”升级为“能看会想的执行者”。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
腾讯元宝怎么用来分析股票基金的基本面信息?
wallpaper壁纸声音怎么开启
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
《金铲铲之战》高校赛夏季赛总决赛观赛指南来袭 还有铲铲教学一同献上
动漫《情色漫画老师OVA》剧情介绍
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
看韩漫的APP推荐 2026免费韩漫阅读软件大全
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc