热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >林俊旸的新公司,卖的可能不是模型,而是“想象力”

林俊旸的新公司,卖的可能不是模型,而是“想象力”

来源:互联网 更新时间:2026-06-18 15:07

最近有个事儿挺有意思的——前通义千问负责人林俊旸,5月份刚成立了一家新公司,连名字都还没想好,只知道研究方向是世界模型和具身智能,估值就已经冲到20亿美元了。腾讯也投了2000万美元进来。

有人根据林俊旸之前的推文推断,说他现在做的是“预测”,Next State Prediction,也就是预测下一帧会发生什么。

这话没毛病,但说了等于没说。

为什么?因为现在所有的大模型,本质上干的都是预测,预测下一个token是什么。如果只是做状态预测,那OpenAI的视频生成模型Sora干的也是这件事——预测各个事物的物理状态。你再开一家公司做一模一样的东西,有什么意义?

可以这么说,林俊旸真正想卖的东西,比这个深一层——是“想象力”。

什么意思?就是让AI在行动之前,先在自己的“脑子”里把事情过一遍。

举个例子:让机器人去举起一个水杯。它不会直接伸手就抓,而是先在脑子里模拟——“这杯子的摩擦力是多少?我的机器手臂会不会打滑?”、“万一这杯子带电,我一碰就被电坏了怎么办?”、“要是不小心把杯子摔了,把我卖了够不够赔的?”

把所有可能性都推演一遍,再决定怎么行动。整个过程,就是“想象力”。

听着有点玄?别急,我们一个一个来看。

林俊旸的拼图

先从最基本的说起。

林俊旸参与过的研究非常多,最出名的肯定是M6。M6的全称是Multi-Modality to Multi-Modality Multitask Mega-transformer——从多模态到多模态、多任务、巨型Transformer。

核心思路很简单:把所有模态、所有任务都塞进同一个大模型框架里。让模型不仅能处理纯文本、纯图像这种单模态任务,也能处理跨模态任务,还能做文本引导的图像生成。

M6是“想象力”的起点。物理世界本身就复杂——文字、图像、声音、空间位置、物体状态、动作过程、结果反馈,信息种类太多。AI要想理解这个世界,第一步就是把所有这些不同类型的信息,放进同一个模型里统一处理。林俊旸很早就没在关心单个任务,他关心的是怎么把不同来源、不同形态的经验,统一成模型可以学习的格式。

光有框架还不够,你还得让模型能真正“明白”。于是就有了Qwen和Qwen-VL。

Qwen我们已经很熟悉了——可以写代码、调用API、使用工具,把一个目标分解成多步行动,再根据工具返回的结果不断调整下一步。它让模型有了清晰的动作流程:先理解目标,再选择手段,然后执行,最后看反馈。

Qwen-VL则更进一步,让AI的眼睛不只是“看”,还能“指”。看图说话大家都行,但它还能做grounding——把图片里的物体框出来,读图上的文字,回答“图中右下角的红色杯子在哪个位置”这种问题。

把这两篇连起来看:Qwen-VL让模型知道物体在哪,Qwen让模型知道怎么动手。相当于让模型从观众席,真正走到了赛场上。

2026年春节前后,林俊旸参与了一篇叫WebWorld的论文。讲的是造一个假的网页世界,让Agent在里面练手。论文用超过一百万条真实网页交互数据训练了一个网页模拟器,能支撑三十步以上的长序列模拟,支持推理和多格式数据。

当时WebWorld的模拟质量已经能跟Gemini-3-Pro打平。而且用WebWorld合成数据训练的Qwen3-14B,在WebArena上直接涨了9.2%,性能追上了GPT-4o。

这套模拟能力还能跨领域泛化——代码、GUI、游戏环境都适用。

为什么要造一个模拟世界?因为真实世界太慢了。网页有加载延迟、有访问频率限制、有风控拦截。你让Agent在真实网页上试错一千次,可能八百次都卡在网络延迟上,剩下两百次还有一半被当成爬虫封了。

训练需要的是大量、多样化的交互经验。那就在模型内部再造一个世界,让Agent在这个虚假世界里怎么摔跟头都行,零成本,零风险。

这就是“想象力”的本质——为了降低后续的现实风险,先让机器人在“大脑”里进行模拟训练,练好了再出去干活,少闯祸。

模式有了,该让机器人在脑子里训练什么呢?于是有了VideoAgentTrek。它从人类操作视频里,自动挖掘出Agent可以学习的操作轨迹。这篇论文从YouTube上扒了三万九千个屏幕录制的教程视频,全是无标注的原始视频,然后自动解析出了一百五十多万条GUI交互步骤。

这个工作的核心逻辑非常巧妙。一般人看到教程,想到的是“我跟着学”,但林俊旸看到的是“训练数据”。教程视频里藏着最精准的操作轨迹——鼠标从哪移到哪、点了什么按钮、打了什么字,全是现成的标注。他的思路是:怎么把这种“人演示给机器看”的视频,逆向拆成“机器能学的经验”。

这个思路一旦成立,数据就取之不竭。每天都有无数人在网上录教程,每一个教程都是一条隐形的训练轨迹。

再然后,就到了CUA-Gym。如果你让一个Agent在模拟世界里做了一百次尝试,但没人告诉它哪次对、哪次错,那这一百次就等于白做。CUA-Gym做的就是自动安插一个裁判,自动出题,自动批卷。

想象力如果没有像代码那样可以被验证的奖励信号,那就是纯消耗算力。只有有了裁判、有了分数、有了回放,模拟里跑过的每一步才算数。要把“想象力”落地到现实,就必须有答案、反馈和复盘的系统。

最后,或者说一切的核心,都要落到“执行”二字。于是有了Qwen-VLA和Qwen-RobotWorld。这两篇论文是物理世界的双生子。

Qwen-VLA在Qwen的基础上加了一个DiT架构的动作解码器,直接把文本和图像的理解,输出为连续的动作轨迹。为了支持不同形态的机器人,还引入了一个机器人描述符机制——换一个身体就换一个描述文本,同一套大脑不变。效果很猛:LIBERO上97.9%,Simpler-WidowX上73.7%,真实世界的ALOHA实验中76.9%的跨分布泛化。

Qwen-RobotWorld则是另一个维度。它训练了一个语言条件视频世界模型,通过860万条视频文本数据、两亿多帧画面,涵盖二十多种机器人和五百多种动作类型。这个模型能根据当前观察和一句指令,预测未来会发生什么画面,在EWMBench和DreamGen Bench上都排到了第一。

把所有这些研究成果连起来看,“想象力”从理念到执行,完成了一个完整的闭环。

李飞飞和杨立昆

如果只拿林俊旸的研究来说事,可能还有点单薄。但把李飞飞和杨立昆也拉进来,一切就变得清晰了——每个人做的世界模型,本质上都是他们一生研究成果的最终大融合。

先说AI教母李飞飞。她从ImageNet起家,

从那时起研究的就是“AI如何看见世界”

。ImageNet让机器学会了辨认物体,之后二十年她都在往深处挖——从识别走向理解,从理解走向生成,从二维走向三维。她创立的World Labs,首款产品叫Marble,能让用户从文字、图片或视频直接生成可进入的三维场景。她的世界模型卖的实质上是同一样东西:空间。一个AI可以感知、生成、编辑、交互的三维世界。她管这个方向叫“空间智能”,说它是语言智能之后的下一个前沿。World Labs在2025年11月推出Marble,2026年2月估值就冲到了50亿美元,也融了10亿美元。

杨立昆也在做世界模型,但和李飞飞的世界模型根本上是两个物种,原因在于两人的出发点和核心执念完全不同。

杨立昆从自监督学习出发,他的核心执念是让AI不靠海量标注数据,像人一样通过观察来理解世界。他的JEPA架构不生成像素,转而在潜空间里预测世界的抽象状态变化。V-JEPA 2用了一百万小时互联网视频做预训练,然后加上不到62小时的机器人视频,就能让Franka机械臂在零样本条件下完成拾取放置。

2026年3月,杨立昆发布了世界模型LeWorldModel,把端到端的JEPA稳定训练做到了只用两个损失项,一千五百万参数在一张GPU上跑几个小时就能做规划。

杨立昆的世界模型卖的是基于逻辑推演的认知结构。他要让AI在潜空间里理解世界如何演化,不靠背语言、不靠记模式。

他对世界模型的理解,核心是“AI怎么理解看见的东西”

。比如一把椅子,它不能凭空出现,它得立在地面上才站得住。通过椅子的质量,就能推演出地面给了多少支撑力。

所以,说“想象力”比“世界模型”更接近林俊旸这家公司的真实命题,其实并不夸张。世界模型只是工具,真正值钱的,是那个让机器少在现实里犯错的能力。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc