来源:互联网 更新时间:2026-06-03 16:43
视频生成与编辑领域,最近出现了一个值得关注的新框架——Bernini。它来自字节跳动的开源项目,核心思路其实很简单:把“理解指令”和“生成画面”这两件事分开做。要知道,过去很多视频模型之所以让人头疼,恰恰是因为它们经常“听不懂人话”——你说往左,它偏往右;你说改背景,它把整个画面都换了。
Bernini采用了一种两阶段解耦架构:多模态大模型(MLLM)负责语义规划,Diffusion Transformer(DiT)负责视觉渲染。通俗点说,就是先让模型想清楚“要拍什么”,再让它动手“画出来”。目前,它的推理代码和权重已经全部开源,支持文本/图像生成视频、环境编辑、视角调整、动作编辑,甚至还能把多张互不相关的参考图组合成同一个视频角色。
Bernini的技术架构,最值得关注的就是那个“两阶段解耦”。
第一阶段,多模态大语言模型(MLLM)充当“语义规划器”(Semantic Planner)。它会在ViT嵌入空间中预测目标语义表示——说白了,就是负责理解文本指令、分析源视频和参考素材,然后规划出“最终画面应该长什么样”。
第二阶段,Diffusion Transformer(DiT)充当“渲染器”(Renderer)。它在VAE潜在空间里执行流匹配去噪,把规划好的语义转化成高质量的视频帧。值得一提的是,在编辑任务中,源视频的VAE特征会被注入进来,这样非编辑区域的细节就能保留下来,避免“一改全改”。
此外,还有两个设计亮点值得一提:
如果你打算动手试试,流程很直接:
| 对比维度 | Bernini | Runway Gen-4 |
|---|---|---|
开发方 | 字节跳动(开源) | Runway(闭源) |
核心架构 | MLLM Planner + DiT Renderer | 专有视频生成模型 |
任务覆盖 | 生成+编辑统一框架 | 生成+编辑 |
可控编辑 | ★★★★★ 强(语义规划+多参考) | ★★★★☆ 较强 |
参考图支持 | ★★★★★ 多元素/多角度/材质/风格 | ★★★★☆ 支持 |
开源程度 | ★★★★★ 权重+代码开源 | ★☆☆☆☆ 闭源 |
硬件要求 | 推荐 H100/H800(8卡视频) | 云端 API |
视频编辑 | ★★★★★ 保留非编辑区域细节 | ★★★★☆ |
视觉质量 | ★★★★☆ 优秀(480p/16fps) | ★★★★★ 顶尖 |
可以看到,Bernini在可控编辑、参考图支持和开源程度上具备明显优势。如果团队有硬件条件且需要深度定制,它是目前最具性价比的选择。而Gen-4在视觉质量和部署便利性上依然领先,适合追求“即开即用”的团队。值得注意的是,两者在实际使用中并非完全替代关系——一个更开放、更灵活,一个更成熟、更稳定。
话说回来,Bernini目前生成的视频分辨率在480p左右,帧率16fps,与Gen-4的顶尖画质相比还有差距。但对于场景探索、创意验证和轻量级内容生产来说,这个易用性+开源特性已经很难得。业内关注这个方向的朋友,不妨亲自上手试试——开源的世界里,能用起来的才是真优势。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
免费影视剧APP推荐
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
抖音最火沙雕男生网名(精选100个)
帅气继父网名女生可爱英文(精选100个)
网络热词聊污是什么意思
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
免费看电影的软件推荐
我的末日校园海斗手游上线时间是哪天
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
晨字沙雕网名大全女生(精选100个)
短剧《情绪超市》剧情介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc