来源:互联网 更新时间:2026-05-29 11:22

一家从第一天起就专注多模态大模型的公司,面对具身智能和世界模型的热潮,不可能也不应该袖手旁观。
2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆火,多模态能力已经成了整个行业绕不开的关键词。5月19日,在智象未来首届开放日上,这家公司给出了自己的判断:“原生多模态是实现AGI的必经之路。”
开放日的主题是“Imaging the World”。不过,对智象未来来说,「World」的重要性,几乎要压过「Video」和「Image」了。
“我们的终极目标是打造世界模型。”智象未来CEO梅涛在活动中反复强调这个观点。在他的定义里,智象未来要做一家原生多模态大模型公司——一个真正的世界模型,需要同时满足多个条件:掌握物理规律、解决长时间跨度的因果推理、实现全模态交互,以及绝对的安全性。
当下主流的世界模型训练路线,大致可以分成两派:李飞飞的“生成3D世界”路线,和Yann LeCun的“自监督预测世界”路线。
智象未来则走了一条不同的路——从算法和架构层面创新,从世界模型训练中最稀缺、成本最高的多模态数据入手。他们率先聚焦在视频、图像、3D交互等数据的生成上,用低成本的合成数据来对抗行业的数据稀缺瓶颈,并从中积累一些可在世界模型上复用的视觉模型能力。
具体来说,就是让多模态模型从构建之初就拥有理解真实世界规则的能力。原生全模态Unified Transformer(UiT)架构能做到“Any to Any”(任何形式输入支持任何形式输出),而这正是世界模型所需要的能力:在统一架构中理解、生成并预测现实世界的不同状态。
过去一段时间,他们完成了一次关键的转型:从“模型即产品”转向了“做Agent平台”。
作为一家主要面向To B的公司,他们把自己的打法概括为“1+1+3”MaaS(模型即服务)平台:底层是HiDream系列大模型,中间层是HiHarness企业服务平台,上层则覆盖三大场景——商业营销、影视创作、社媒创作。
概念火热的同时,资本也在持续加码。继上个月拿到安徽省产投、东方富海等机构投资的5亿元B轮融资之后,智象未来又火速完成了新一轮亿元级融资。
但竞争也在升级。模型能力越来越强,在和海内外基模厂商争夺市场的同时,智象未来还要握紧手中的新牌——MaaS平台,并瞄准视频生成领域的垂类赛道,与大公司展开争夺。
开放日结束后,《智能涌现》等媒体与智象未来CEO梅涛,以及其投资人东方富海合伙人王兵聊了聊。以下为对话实录(略经摘编)。
到今天为止,我们不会对外宣称自己是一家世界模型公司。我们更愿意将智象未来定义为原生多模态大模型公司。原生多模态大模型公司,未来肯定会通往世界模型。
我们现阶段更务实的选择是关注原生多模态问题,既能实现商业化落地,也能为未来迈向世界模型做好技术积淀。
不过,一旦算法和架构发生了变化,或者出现了新的架构和新的算法,数据的重要性就会弱一些。这也是创业公司的机会所在——我们不完全是拼算力和数据,而是关注算法本身的创新。
回到数据层面,为了获取高质量的真实数据和反馈,我们做了一套工具链,用来收集、清洗和标注这些数据。我们拥有20万小时有影视版权的视频数据,和不少厂商保持着合作关系,同时也在寻求与头部拥有版权数据的影视公司合作。
世界模型的数据情况与视频模型有所不同:世界模型的数据采集需要全方位多模态的数据,成本更高,也更稀缺。因此,智象未来正在做的是,将其他厂商采集到的毫米级真人实操数据,用视频模型生成万份级不同场景、肤色的真人数据,并用这些真实数据及机器合成数据来训练VLA和WAM模型。
但从去年到今年,整个图像和视频模型行业的商业化进展非常快——比如可灵、Seedance 2.0等,在收入上表现都不错。不过,视频生成赛道真正可能存在的风险是版权问题,这也是我们选择投资智象未来的重要原因:智象的所有数据都是合法、有版权的。
在大模型特别烧钱的背景下,我们特别看重企业如何用最有效的方式和大公司进行差异化竞争。具体来说,一方面,企业要用较低的成本做出能力比肩头部大厂的基模,并提升研发效率和资金效率;另一方面,企业要能利用先进技术,快速落地到不同的商业场景中,差异化地做好B端场景服务。
第二,过去几年,图像和视频的生成效果无法达到商业化的水准,但今年,我们可以看见包括AI短剧、短视频、电商视频的质量几乎都能实现商业化。在影视、广告等几乎所有视频领域的应用场景中,AI一定会取代绝大部分的人工。
具体到对企业的衡量标准:第一个是团队技术背景,团队要是该领域的开拓者且经历了很长时间的积累;第二个是稳定性,团队的人才密度很高,能持续保持稳定;第三个是资金效率、研发效率以及团队长期的专注力。
在电商短视频广告上,我们有三种收费模式:一是按Token售卖工具;二是RaaS素材服务;三是按GMV分佣,比例在15%至30%。短剧方面,我们现阶段主要是给承制方提供AI制作工具,目前不分佣。如果遇到一些精品短剧制作方,比如和安徽电视台、华策的合作,我们会联合承制和发行,这种模式下就会有分佣。
在一级市场的体感上,2023年大家更看重模型效果,但2024年底至2025年更看重商业化成绩,今年大家开始向海外对标模型能力。今年,一级市场和二级市场的投资人都开始转向模型能力本身,都意识到:模型就是产品,产品就是商业化。
我们一直都是同时做模型和商业化。很难说某一家公司的模型排名始终全球第一。如果没有及早建立商业化壁垒、没有用户心智和行业属性,模型能力上去了,商业化也很难跟上。模型和商业化需要两手抓。
所以从创业第一天起,我们就坚定要做B端的企业服务。关于商业化的大方向我们没有任何摇摆,To B和To C我们都做,但中间我们摇摆过到底是做SaaS还是做RaaS(内容即服务),包括为什么选择做内容电商而不是传统的货架电商。我们踩过很多坑才发现,做货架电商其中的视频或图片可能很长时间不会更换,你很难证明其中的价值。但内容电商的客户每个月要消耗大几千条短视频,超级客户一年要几十万甚至上千万条,这不可能都用人工来拍,这就是端到端Agent的价值所在。
我们不会和大的模型厂商直面竞争底座模型,但我们会做出一些差异化的竞争。比如,我们的图像开源模型能做到全球排名第一,闭源模型也正在冲榜的过程中,目标是全球前三。在视频领域,我们正在做营销、短剧等垂类应用场景的视频模型。
第二,客户为什么和我们合作?我们是一个严肃认真做企业服务的公司,这也是客户选择我们的原因。很多人说我们公司有点像视频版的Anthropic,团队一直比较稳定,企业服务的基因也很强。我们想靠模型能力、产品能力和生态能力,在整个商业化环境中走得更远一些。
我们和大厂相比的优势和差异化在于以下几个方面:在图片领域,我们要成为客户的必选项;在视频领域,我们倾向于深耕部分垂类场景——一是无限长视频的生成、长思考和长时长,二是营销场景,做好“人货场”的交互,三是短剧领域,我们的MaaS平台能优化、编排自研和第三方模型。
总体来看,在To B上,我们既做自己的产品,也做整个行业的生态。策略是,在接入自家产品的同时,也接入第三方模型公司的产品,为用户提供一个端到端的产品和服务。
更关键的是,我们沉淀了大量Skills和行业Knowhow,这也是我们与客户共创的核心。特别是在短视频营销和AI短剧领域,我们通过分析特定区域、国家及类目的爆款逻辑,提供爆款创意裂变方案。这种对爆款规律的把控能力,价值或许远远大于单纯的内容生产。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
蒙古上单是什么梗
帅气继父网名女生可爱英文(精选100个)
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
免费看片软件下载地址推荐
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
免费看电影的软件推荐
韦一敏是什么梗
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
晨字沙雕网名大全女生(精选100个)
帅到极致的网名女生霸气(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc