字节跳动联合港科大发布MMProLong：长文档LMM训练问答对效率远超OCR转录

来源:互联网 更新时间:2026-05-28 16:32

5月24日，字节跳动Seed团队与香港科技大学联合发布了一项关于多模态大语言模型长文档训练的新研究。基于阿里巴巴开源的Qwen2.5-VL，团队构建了一个名为

MMProLong

的新模型，并在处理效率上取得了突破。这项研究的意义在于，它不仅挑战了多模态模型长文本训练的常规思路，更关键的是，它揭示了数据组织方式本身，对模型长上下文能力的决定性影响。

研究直指当前LMM训练的一个核心痛点：在处理多模态长文档时，采用针对性的

问答对训练

，其效果远优于传统的

字符识别转录

。实验结果很能说明问题——单纯将文档内容转录为文本进行训练，不仅无法提升模型在长上下文中的信息定位能力，反而会导致性能下降。相反，如果使用独立模型（例如字节跳动的Seed2.0）生成的长上下文问答对进行训练，模型则能学会在冗长的干扰信息中，精准地检索到目标段落。

正是基于这一优化策略，MMProLong在仅

128,000个Token

的有限训练预算下，表现出了惊人的长文本稳定性。即便输入长度飙升至

256,000甚至512,000个Token

，模型性能也未出现崩溃。在MMLongBench和MM-NIAH（大海捞针）等基准测试中，其表现大幅超越了InternVL3-38B和Gemma3-27B等参数规模更大的开源模型。更有趣的是，这种通过优化数据获得的多模态长上下文能力，还展现出了良好的迁移性，成功应用于未经专门训练的长视频理解任务。该策略的有效性也在Qwen3-VL-8B模型上得到了验证。

这项研究为当下的大模型行业提供了另一条清晰的演进路径。它证明，实现长上下文能力的跨越式提升，未必一定要像DeepSeek那样，从视觉信息压缩和架构重排序入手。通过