热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >火热的具身智能,藏着半个自动驾驶圈

火热的具身智能,藏着半个自动驾驶圈

来源:互联网 更新时间:2026-06-18 15:07

在讨论具身智能之前,不妨先回头看一眼自动驾驶走过的路。从2017到2027,自动驾驶用了整整十年才证明一件事:在特定场景里“做到能用”,远比一开始就“看起来像人”更具决定性意义。今天,聚光灯转向了具身智能,而这个真理似乎正在被重新验证。

回到2017年,那时的自动驾驶圈里弥漫着一种终局将至的乐观情绪。L4、L5的讨论是技术论坛的标配,无人驾驶出租车被描绘成触手可及的未来。十年后的复盘却相当清晰:真正改写行业格局的,从来不是最早信誓旦旦要拿下“无人驾驶”的公司,而是那些率先将辅助驾驶装进量产车、并让数据在真实路况中形成闭环的玩家。

今天的具身智能,恰好站在了当年自动驾驶的那个十字路口。

刚刚结束的智源大会上,人形机器人端咖啡、打乒乓球、做动态分拣的展台前围满了观众,“机器人的ChatGPT时刻”这个说法被反复提及。

然而,在展馆的另一侧,那些从自动驾驶行业走出来的创业者们讨论的是截然不同的话题——哪里能找到第一个能够稳定运行的场景?如何搭建起真实世界的数据闭环?以及,最重要的问题:如何让机器人在“跑起来”的过程中“变聪明”。

星源智创始人刘东给出了一个颇具洞察力的定义:他把自动驾驶称为“最简单的具身”。区别在于,从二维空间里的避障导航,到三维空间里与物体发生物理交互,机器人面对的是指数级复杂的问题。

那么,具身智能是在复刻智驾的叙事节奏吗?为什么从智驾阵营过来的人,成了行业变阵的關鍵变量?他们带来的“渐进式落地”思路,能让具身智能走出一条不同的路吗?

当一个尚未到来的时刻成为行业图腾

智源大会现场,银河通用创始人兼CTO王鹤给出了他对“机器人的ChatGPT时刻”的定义:模型具备零样本能力,无需专门学习即可在特定场景完成70%到80%的人类技能,且可访问性极高——初中毕业的人就能操作。

但星源智创始人刘东给出了另一个视角:“现在具身也是,大家瞄着实际应用的场景去做,但是L2能落地的也还不多,差不多是2015、2016年的智驾状态,刚刚起步。”

2017年那会儿的感觉几乎一模一样:L4级无人驾驶被普遍认为“三到五年内量产”,可真实的量产车里,连在高速上保持车道和自适应跟车都还在反复打磨。

无论是当年的自动驾驶,还是今天的具身智能,

都呈现出“终局先于路径被讨论”的典型特征——行业先形成了对未来的集体想象,再回头寻找通往未来的工程路线。

这种错位在智源大会现场以另一种方式呈现:人形机器人在展台前为观众端咖啡、与人类打乒乓球、在流水线上做动态分拣——这些Demo充满未来感。与此同时,星源智最新发布的ω-EVA模型在LIBERO上的成功率达到98.6%,在RoboTwin上的任务成功率从88.9%提升到90.3%。

数字确实漂亮,但刘东在采访中给出的落地分层相当冷静:纯移动的巡检、导览已经比较成熟;抓放操作解决了90%的场景,但还有部分品类抓不好;至于酒店打扫、家庭服务这类复杂操作,“短期落地还是比较困难”。

需要澄清的是,这并不意味着Demo没有价值——恰恰相反,在新兴技术领域,Demo是技术路线可行性的必要证明。但必须区分的是,Demo证明的是“这件事在特定条件下可以做到”,而交付要求的是“这件事在多变条件下反复做到”。两者之间的鸿沟,自动驾驶用了整整10年才走完。

奈何资本和产业端的热情已经提前就位。智源研究院院长王仲远提到,本届大会汇聚了至少15家以上估值超过百亿的具身智能CEO,“具身智能与人形机器人”是报名最火的论坛之一。这很难不让人联想到2017年自动驾驶圈的“All in AI”——那时只要项目里带着“自动驾驶”四个字,估值和曝光都会自动上一个台阶。

现实的商业进度显然跟不上叙事的节奏。星源智是少数能拿出具体落地案例的公司:叉车上部署的具身大脑、机器狗在开放场景里捡垃圾、物流场景里的自动化拣选。刘东提到,这些合作是跟客户“一事一议”谈出来的,

数据需要共享,场景需要定制

——这不是那种“发布即通用”的宏大叙事,而是先找到一个具体的场景,让系统在里面跑起来,再谈泛化。

所以,如果要在自动驾驶和具身智能之间画一条线,可能不是叙事在简单重叠,而是两个行业在相似阶段,都面临着同一种“被终局裹挟”的诱惑。这才是这篇讨论中最值得留意的部分。

一代智驾人的“二次创业”

像刘东这样有着自动驾驶背景的创始人,在今天的具身智能领域并不少见。

自动驾驶解决的核心问题,本质上可以概括为“让车在平面上不与任何物体相撞”。而具身智能需要处理的,则是“让设备在三维空间里与物体发生交互”。刘东将智驾定位为最简单的具身,“因为智驾当时做的时候,是在平面范围内避开所有的物体,跟物体不发生交互。现在具身领域,除了精确的导航行走之外,还要跟三维空间的物体进行交互。”

从“避开”到“拿起”,这个区别听起来只是动作复杂度的增加,但在工程实现层面,却意味着完全不同的系统约束。自动驾驶里,摄像头和激光雷达主要用于环境感知和障碍物识别,决策链路相对清晰:看到、判断、绕行。而具身智能里,设备不仅要“看到”一个杯子,还得判断“怎么拿”“拿起来会不会洒”“放下去的位置准不准”。

力控、触觉、多模态同步——这些在自动驾驶里几乎是空白课题的东西,在具身智能里成了日常功课。

所以,当这批从智驾过来的人进入具身领域时,他们带来的不只是一套技术栈的迁移,更是一段已经刻骨铭心的产业记忆。2017年的自动驾驶行业,曾集体陷入“全栈自研”的诱惑——算法、硬件、数据、车辆,全部自己干。当时的逻辑是,只有闭环才能做出最好的体验。但后来的产业现实证明,在销量规模起来之前,全栈自研是一个极其昂贵的赌局。

当被问及“头部公司做全栈会不会影响你们”时,刘东的回答带着这种经验的痕迹:“在真正的销量没有起来之前,是没有办法支撑一个公司做全栈研发投入的,除非你已经大到像特斯拉这种规模,账上根本不缺钱。”

他进一步判断,市面上近两百家具身公司里,真正有能力全栈闭环的“顶多就两三家”,更多公司会面临一个选择题:自己从头研发大脑,还是从第三方采购?自动驾驶行业的最终走向已经给出了参考答案——全栈自研的门槛极高,只有少数车企能够负担。行业逐渐分化:一部分资金和技术实力较强的新势力选择深度自研,而更多车企开始转向与供应商合作,或采取“部分模块自研+核心算法外采”的折中路线。

刘东认为,具身智能领域也会呈现类似格局:“有些公司擅长做本体,有些公司擅长做模型,类似于我们以前看自动驾驶在整车行业的发展。”基于这种判断,星源智选择了“不自己做本体”。外界曾把星源智比作“具身赛道的华 为”,提供大脑模型和端侧算力平台,覆盖市面上70%以上的头部本体客户。

这个选择本身,很难说是因为2017年的“失败教训”,还是仅仅因为工程师们已经习惯了产业链分工的效率逻辑。但有一点是明确的:当一个团队已经经历过“什么都想自己做”的阶段,他们在进入新战场时,会更早地思考“什么应该让别人做”。

除了商业模式的分化,

从智驾过来的人还带来了一套对“落地”的务实认知

。在自动驾驶领域,他们经历过“云端算力还是车端算力”的路线之争,知道控制时延对安全系统的意义。这种经验在具身智能里被重新激活——刘东在解释为什么必须端侧部署时,给出的不是技术偏好,而是物理约束:十几个摄像头加三个激光雷达,每秒数据量是几个G,如果靠Wi-Fi或5G传云端,“机器人已经撞上了,云端还在推理”。所以他们更早地接受了“端侧闭环”的必然性,而不是把它当作一个可选项来讨论。

具身智能难以“大力出奇迹”

回看自动驾驶的发展历程,曾经最受关注的是L5和Robotaxi,但率先进入交通系统的,却是ADAS和L2+辅助驾驶。它们没有L5那么令人兴奋,却在不断运行中积累数据、完善系统,让自动驾驶拥有了继续进化的土壤。

具身智能也在经历类似的过程。家庭保姆机器人仍然遥远,通用机器人大脑也尚未成熟,但叉车、机器狗、物流拣选等场景已经开始落地。它们未必最像人,却最有机会率先跑通数据闭环。如果说ADAS是自动驾驶通往L4的桥梁,那么今天的叉车和机器狗,就是具身智能通往AGI的桥梁。

刘东把落地难度分为三层:

第一层是“纯移动”

——巡检、导览、导购,机器人只需在空间里行走、识别目标、拍照记录,不与物体发生复杂的物理交互。这一层已经比较成熟,星源智的机器狗在开放场景里捡垃圾、做清洁,就属于这个范畴。

第二层是“抓放操作”

——仓库里的拣选、药店的上下料、工厂里的简单搬运。刘东坦承,这一层已经解决了90%的场景,但“还有一些品类是抓不好的,成功率也不高”。这10%的缺口,在真实商业环境里可能就是客户是否愿意签单的关键。对应到2017年的自动驾驶,这股状态很像“高速NOA”刚上线时的情形:能跑,但还不敢让用户完全脱手。

第三层是“复杂操作”

——酒店打扫、家庭服务、精细装配。这些场景涉及多步骤任务链、非结构化环境、柔性物体的操作,刘东的判断是“短期落地还是比较困难”。

这种“分层”既有从智驾移植过来的工程务实,也受限于具身智能独特的数据约束。星源智联合创始人孙振国在采访中指出了核心矛盾:大语言模型可以从互联网上免费获取几乎无限的语料,但具身智能没有“互联网级别的物理数据”。各地政府牵头建的数采厂投入了大量机器人设备去采集动作数据,但获得的数据量对于超大规模训练来说仍远远不够。大语言模型可以堆到几百B甚至上千B的参数,而具身模型目前还在几B、几十B的规模徘徊。

这个瓶颈意味着,

具身智能不可能像大语言模型那样,通过“大力出奇迹”的方式一夜之间突破

。它必须像自动驾驶一样,在具体的场景里一圈一圈地跑,用真实的物理交互去喂养模型。刘东在描述叉车的落地案例时,给出了一个很有说服力的细节:以前物流仓库里也有自动化方案,但它们是“基于规则的”——必须保证卡车停在准确的位置,货物有准确的托盘,托盘有准确的形状。而具身大脑的价值在于,

它可以“柔性地面对不同任务”

——卡车大小不同、货物形态各异、托盘可有可无,系统仍然能自主规划卸货逻辑,先卸什么后卸什么,避免碰撞和卸不干净。

这种“柔性”,不是在实验室里通过更大的模型一次性实现的,而是通过“特定场景的数据闭环”慢慢磨出来的

。星源智的叉车项目用了“两个月左右”做出第一版系统,速度在具身智能领域算是很快,但刘东强调,复用了之前的算法基座,并且“完全端侧部署”。

这也对应了刘东对未来格局的判断:具身大脑公司最终会“分化成不同垂类的专长公司”,有些擅长家庭场景,有些擅长物流场景,有些擅长工业操作。这很像自动驾驶最终分化出的格局——高速NOA、城市NOA、记忆泊车、代客泊车……每个细分赛道里都长出了专门的公司。

所以,回到最初的问题:具身智能是在重演自动驾驶吗?答案是,叙事的节奏确实相似——

终极目标被提前消费,Demo和交付之间存在落差,行业在一开始都会追逐最“像人”的解决方案

。但相似的开局,未必导向相同的结局。

自动驾驶花了十年证明,决定胜负的,不是谁最早喊出无人驾驶,而是谁先找到能够持续产生数据的场景。今天的具身智能落地场景远比自动驾驶更分散——人形机器人、家庭服务、通用大脑依然是行业共同追逐的终局。但在终局到来之前,决定行业走向的,或许是仓库里的叉车、园区里的机器狗、流水线上的机械臂……

它们未必最“像人”,却最先让机器人学会成长。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc