来源:互联网 更新时间:2026-06-14 15:05
多模态AI的战场,正从单一的理解或生成,转向“理解-生成-编辑”一体化的闭环。最近,字节跳动推出的Mamoda2.5,就是这个趋势下一个颇具分量的选手。它不仅仅是一个模型,更像是一个集成了多种能力的“视觉工厂”。
简单来说,Mamoda2.5是字节跳动基于128专家细粒度DiT-MoE架构打造的统一多模态AR-Diffusion模型。它的总参数量达到了250亿,但得益于巧妙的稀疏激活设计,每次推理实际激活的参数只有大约30亿。这个设计很关键,它让模型在保持巨大容量的同时,把计算成本压了下来。
它的能力相当全面:既能理解图像和视频中的内容,也能根据文字生成高质量的图片和720p视频,还能对已有的图像视频进行精细编辑。更值得一提的是,在OpenVE-Bench、FiVE-Bench、Reco-Bench这几个权威的视频编辑榜单上,它都拿下了第一。而且,生成720p视频的速度,比同类模型快了12到18倍。
Mamoda2.5的性能背后,是一系列精巧的技术设计。我们来拆解一下它的核心组件。
| 对比维度 | Mamoda2.5 | Wan2.2 | VInO |
|---|---|---|---|
发布方 |
字节跳动 | 阿里开源社区 | — |
核心定位 |
统一理解+生成+编辑 | 专用文生视频 | 专用视频编辑 |
架构 |
DiT-MoE(25B总参/3B激活) | Dense DiT(28B-A14B) | MMDiT + VLM(13B) |
文生视频 |
支持,VBench 2.0 顶级 | 支持,开源标杆 | 不支持 |
视频编辑 |
SOTA,三榜第一 |
不支持 | 支持,开源前列 |
图像生成/编辑 |
支持 |
不支持 | 不支持 |
多模态理解 |
支持(Qwen3-VL-8B) |
不支持 | 有限 |
统一单模型 |
是 |
否 | 是(仅限编辑) |
720p生成速度 |
111秒 |
1366秒 | — |
480p编辑延迟 |
9秒(蒸馏版) |
— | 882秒 |
开源状态 |
论文已发,权重待开源 | 已开源 | 已开源 |
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
帅到极致的网名女生霸气(精选100个)
帅气继父网名女生可爱英文(精选100个)
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
蒙古上单是什么梗
韦一敏是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
如何在夸克浏览器中开启网页视频的倍速播放功能?
抖音最火沙雕男生网名(精选100个)
作家助手如何上传自制封面 作家助手如何设置小说的封面
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc