近年来,人形机器人领域的进展让人眼花缭乱——行走、奔跑、跳跃、平衡,各种炫酷演示层出不穷。但不少机器人专家心里都清楚:运动能力再强,也只是冰山一角。真正让人形机器人走出实验室、走进日常场景,还有一道更难的槛要跨——用手操作物体。对人类来说,这简直是与生俱来的本能,但要让机器人学会,挑战可远比想象中大得多。
总部位于新加坡的机器人初创公司Sharpa,正是看准了这个方向。他们专注于研发灵巧机械手、触觉感知系统以及具身AI技术,目标就是让机器人能真正和物理世界“打交道”。在CES展上,Sharpa的机器人现场完成了一连串自主任务:发牌、拍照、组装风车、打乒乓球……连续几天面向观众演示,引来了国际范围的关注。之后,Sharpa又参与了一个颇具分量的合作项目——联合英伟达与宇树机器人,基于英伟达Isaac GR00T平台打造了H2+人形机器人参考设计,并搭载了Sharpa的Wa ve机械手。
Sharpa的核心判断其实很直接:灵巧操控能力与触觉智能,才是机器人走向下一阶段的关键。视觉系统与基础模型这几年进步飞快,但机器人依然在一些人类轻而易举就能搞定的事情上栽跟头——比如抓取一个从未见过的物体、使用一把螺丝刀,或者在物理条件突然变化时灵活调整。在这次专访中,Sharpa全球市场负责人兼欧洲区总裁Alicia Veneziani详细拆解了这些议题:为什么“手”比“腿”更难解决?触觉在具身AI系统中的作用会变得多重要?仿真训练到真实迁移的进展到了哪一步?哪些行业会最先用上灵巧操控机器人?她对竞争格局和未来走向也给出了不少真知灼见。
为何灵巧操控比运动能力更关键
人形机器人领域近期的关注焦点大多集中在运动能力与视觉呈现上。为什么Sharpa认为灵巧操控才是让机器人真正实用的更重要技术挑战?
我们始终觉得,最难解决的不是腿,而是手。运动能力的进步非常快,我们判断未来两年内基本就能搞定。到那时,它可能不再是主要的差异化因素,而且在很多实际部署场景中,轮式移动甚至是更高效的选择。想想看,人们真正希望机器人做什么?帮你洗衣服,或者倒一杯咖啡而不洒出来。这些恰恰是机器人目前还做不好的事,而关键全在手上。
在H2+与英伟达Isaac GR00T参考人形机器人中,Sharpa Wa ve被作为全身系统的一部分集成进来,用来开发和验证机器人技能——这也说明了Sharpa为何聚焦灵巧操控。如果机器人无法使用人类的工具、处理人类的物品,它就算不上实用。Wa ve手不仅仅是一个零部件,它是一个灵巧操控平台——是每台机器人在现实世界中可靠执行任务所需的硬件基础层,也是构建其上的数据与AI模型基础设施的核心支撑。
部署阶段:Wa ve对人类手部运动学的还原相当精准,机器人可以直接从互联网上的人类视频(比如烹饪教程、装配指南)中学习,而其他机器人手则需要费力地进行跨形体转译。如果你相信物理AI领域存在规模化定律,那么22自由度的设计方案是合乎逻辑的选择。训练阶段:Wa ve产生的高保真触觉数据,能够为AI模型(尤其是视觉-语言-动作模型)提供更丰富的训练信号,把任务成功率推向商业化部署所需的99.9%水准。
Wa ve手只是Sharpa灵巧操控解决方案体系中的一环。通过硬件、数据基础设施与灵巧操控AI模型的结合,Sharpa让“接触智能”成为可能。随着时间推移,搭载Wa ve机械手并部署了Sharpa触觉具身AI的机器人,无需针对每项任务进行专项重训,就能拾起酒店门卡、喷雾瓶或螺丝刀。
长期可靠性是真正实用的试金石
Sharpa强调现场自主演示,而非精心剪辑的展示视频。长时间的可靠性与稳定性,对于证明机器人系统已准备好投入实际部署有多重要?
可靠性,是一台让人眼前一亮的机器人与一台真正实用的机器人之间的本质区别。精心制作的视频只能展示最完美的瞬间,而真实部署考验的是系统能否持续不断地稳定运行,即便面对一再出现的细微变化。这正是我们强调现场自主演示的原因。在CES上,机器人在公开观众面前连续进行了8小时的自主操控演示。对我们来说,这不只是一次营销亮相,更是一场可靠性测试——检验硬件能否承受持续使用,操控策略能否应对反复尝试和干扰,整个系统能否在受控实验室之外正常运行。
对于真实世界的机器人而言,光有成功率不够,还需要可重复性、从小错误中恢复的能力,以及长时间运行的稳定性。这些才是机器人在工厂、餐厅、仓库乃至未来家庭中正常工作所需达到的标准。这也是我们今年在试点部署中重点验证的方向。
触觉感知:机器人操控的下一个关键维度
Sharpa的研究将触觉感知与视觉及语言模型相结合。您认为触觉在机器人领域的重要性,会不会像视觉在过去十年中那样得到大幅提升?
我们认为,多模态融合是解锁自主机器人灵巧操控能力的关键。具身AI模型若能有效融合常用的视觉与本体感知信号以及触觉感知,就能显著提升操控任务的表现。视觉可以引导手靠近物体,而触觉则能告诉机器人当物体产生反作用力时究竟发生了什么。杯子可能滑落,手可能遮挡摄像头——操控任务的成败,往往就在这一瞬间。
在我们关于触觉感知的SaTA研究中,我们证明了在USB-C插入等高接触性任务上,引入触觉反馈可将成功率提升约30个百分点。在工厂场景中,这意味着机器人从只能在接口完全对准时才能完成插入,进化为能感知偏差、主动纠正并顺利完成操作。类似的研究结论并非我们独有,伯克利与英伟达研究团队近期发布的T-Rex研究也得出了相似的结论。
物理AI基础模型距离真正泛化还有多远
机器人行业越来越多地谈论“物理AI”与机器人基础模型。机器人距离能够跨环境、跨任务、跨硬件平台泛化技能,究竟还有多远?
行业正在取得真实进展,但机器人领域的广泛泛化仍任重道远。我们开始看到机器人能够应对一些过去会让任务直接中断的小干扰:杯子不在预期位置、线缆略有偏移、袋子以意想不到的方式折叠,或工具在使用中滑落。举例来说,在我们近期的部分North演示中,重要的不只是机器人完成一次任务,而是它能否在小干扰出现时继续推进任务——比如风车组装中零件位置的变化,或二十一点发牌时牌的摆放差异。这是迈向更强适应性与实用性机器人的重要一步。
在机器人能够真正跨任务、跨环境、跨硬件平台广泛泛化之前,仍有很长的路要走。对Sharpa而言,接触层面的反馈是推动这一进展的基础。我们的基础触觉模型,正是为了帮助机器人在现实与预期不符时做出自适应调整而设计的。我们也看到其他团队利用Sharpa Wa ve做了不少令人振奋的工作,包括斯坦福/康奈尔大学的SimToolReal以及EgoScale,这些研究表明,拟人化机械手设计的灵巧度能够随时间推移支撑更广泛的泛化能力。
仿真训练的真正价值在于解决数据瓶颈
仿真与真实迁移已成为机器人开发的重要议题。您认为行业在缩小虚拟训练与真实机器人性能之间差距方面,取得了多大进展?
从更宏观的视角来看,机器人学习的真正制约因素不是仿真本身,而是数据。机器人无法仅靠互联网数据习得灵巧操控能力,它们需要来自真实交互的物理数据:物体被抓取时如何运动、在手内旋转时如何偏移、以及机器人在任务失败前如何恢复。这类数据质量很高,但规模化采集极为困难。这正是仿真发挥价值之处——它让我们能够在真实硬件运行之前,先在仿真环境中大规模训练手部动作。我们正与英伟达和宇树机器人合作推进Tacmap等项目以及近期的参考设计,以使仿真真正服务于真实的灵巧操控任务。最终目标是:更快启动项目、更高效地训练模型、减少在硬件兼容性上耗费的时间,并最终打造出能在真实世界中完成物理任务的机器人。
哪些行业将率先大规模采用灵巧机器人
展望未来五到十年,您认为哪些行业会最早大规模采用灵巧自主机器人——制造业、物流、医疗、酒店、家庭辅助,还是其他领域?
问题的核心在于:机器人能真正替代人类承担哪些工作。最终的目标市场是家庭。随着人口老龄化加剧和劳动力短缺问题凸显,人们需要实实在在的体力协助——有人,或某种东西,能帮你叠衣服、准备简餐、打扫房间。这样的未来,需要灵巧操控能力作为基础。当然,在家庭应用场景真正落地之前,还有许多挑战有待克服。因此,我们的思路是:哪些工作所涉及的任务与家庭场景高度相关?酒店、零售、餐饮等行业正是如此,这些领域能够为训练家用机器人积累宝贵的数据。
短期内,工厂将会率先出现一些落地部署,尤其是精密装配或打包等重复性强、有时具有危险性的任务。但我们始终不会忽视消费市场。
竞争格局:谁将成为机器人行业的长期赢家
机器人领域正吸引来自科技公司、工业制造商和AI企业的大规模全球投资。您如何看待竞争格局的演变,以及哪类机器人公司最有可能成为长期赢家?
最终的赢家,将是那些真正解决客户问题的公司,而不是跑得最快或曝光率最高的那些。它们甚至不需要拥有能适应所有情况的最强AI模型,但它们必须能够提供恰到好处的适应能力,让机器人在此前完全无法实现自动化的场景中发挥作用。最后一点至关重要:胜出不只是性能问题,更是信任问题。赢家将是那些对机器人能力坦诚透明、并切实兑现对客户承诺的公司,当然,他们还必须提供可靠且安全的解决方案。
Sharpa之所以选择垂直整合,正是基于同样的理由:当真实部署场景中间出现问题时,我们能够在全栈层面快速迭代。我们的演示——无论是GPU安装演示还是风车组装机器人——都不只是展示,而是我们测试手部、机身、AI模型与真实任务反馈之间完整闭环的重要方式。这最终也是机器人行业向个人和企业真正创造价值的途径所在。
Q&A
Q1:Sharpa的Wa ve机械手有什么特别之处?
Wa ve机械手拥有22个自由度,能高度还原人类手部运动学,使机器人可以直接从互联网上的人类操作视频中学习,无需为每台机器人进行专项重训。它不仅是硬件组件,更是一个灵巧操控平台,能够产生高保真触觉数据,为AI模型训练提供更丰富的信号,将任务成功率推向商业化部署所需的99.9%水准。
Q2:触觉感知对机器人操控任务的提升有多大?
根据Sharpa的SaTA研究,在USB-C插入等高接触性任务上,引入触觉反馈可将成功率提升约30个百分点。这意味着机器人从只能在接口完全对准时才能完成操作,进化为能感知偏差、自主纠正并顺利完成任务。伯克利与英伟达研究团队的T-Rex研究也得出了类似结论,证实了触觉感知对灵巧操控的显著提升效果。
Q3:未来哪些行业会最先大规模使用灵巧机器人?
短期内,制造业中重复性强或具有危险性的精密装配、打包等任务将率先实现落地部署。但Sharpa认为,酒店、零售、餐饮等与家庭场景高度相关的服务行业,是更具战略价值的切入点——这些领域能积累训练家用机器人所需的关键数据,为最终进入家庭市场铺路。长远来看,随着人口老龄化与劳动力短缺问题加剧,家庭才是灵巧机器人最重要的目标市场。