字节跳动开源Bernini框架：实现视频生成与精准编辑的完美统一

来源:互联网 更新时间:2026-06-05 14:30

字节跳动商业化技术团队最近开源了一个新的视频生成与编辑框架，名字叫Bernini。这套框架的核心思路其实挺有意思——它主打“先理解、再生成”的协同机制，说白了，就是先让模型真正读懂你要什么，再去生成画面。老模型经常因为搞不清复杂指令而出现画面失控、帧间闪烁这些头疼问题，Bernini正是冲着这些痛点来的。

目前，字节自家测试显示，Bernini已经把性能稳在了行业第一梯队。推理代码和第二阶段的模型Bernini-R已经开放权限，等全功能版本一到，就可以正式全面上手了。

分离语义与渲染

Bernini在工作流程上做了一个很巧妙的拆分：把整个处理过程分成“语义规划”和“视觉渲染”两件独立的事。系统先让一个多模态大模型规划器去深度解析输入的素材，勾勒出一份“语义草图”，然后渲染器再根据这张草稿，把目标转化成稳定、连续的视频画面。

这种清晰的分工，让它在可控编辑上表现出了很高的实用价值。你只要给个简单指令，就能让画面里的天气、季节和视觉风格自然地变化，甚至还能精准地控制镜头角度、焦点和主体动作。说白了，这就等于把视频创作中的“想清楚”和“画出来”分给两个专家去做，效果自然比一个人全包要好得多。

丰富视觉参考维度

除了传统的文字操控，Bernini还支持拿图片和视频当视觉参考，这大大提升了创作的一致性。比如在视频编辑场景里，你可以把特定的材质或海报精准地塞进目标区域，而且边界不破、透视不乱，看起来就像本来就在那里一样。

在新视频生成方面，这个模型不仅能支持单图和多角度参考生成，还能完成从关键帧到连续镜头的自然演变。更值得一提的是，团队专门引入了一套专属的位置编码机制，用于解决多视觉片段串联时模型容易混淆的问题——这样一来，参考素材和输出目标就能分得清清楚楚，不会乱套。

字节跳动开源Bernini框架：实现视频生成与精准编辑的完美统一

分离语义与渲染

丰富视觉参考维度

热门资讯

热门手游

相关攻略

热门专题