您的位置：首页 > > 教程攻略 > 手游攻略 >Jodi— 中国科学院推出的视觉理解与生成统一模型

Jodi— 中国科学院推出的视觉理解与生成统一模型

来源:互联网 更新时间:2025-05-29 17:24

jodi 是由中国科学院计算技术研究所与中国科学院大学共同研发的一种扩散模型框架，其核心在于通过联合建模图像域与多个标签域，将视觉生成与理解功能整合在一起。该框架依托于线性扩散transformer架构，并结合角色切换机制，能够完成联合生成（即同时生成图像及其对应的多个标签）、可控生成（依据标签组合生成特定图像）以及图像感知（从图像中提取多个标签信息）三大任务。jodi 的训练数据来源于 joint-1.6m 数据集，该数据集包含约 20 万张高清图像及与之相关的 7 种视觉领域的标签信息，从而确保了模型在生成与理解任务上的卓越表现，并展现出良好的可扩展性和跨领域一致性。

Jodi 的主要功能

联合生成：不仅能生成图像本身，还能同步生成与之相匹配的多种标签，如深度图、法线图、边缘图等，确保生成的图像与标签在语义和空间布局上高度吻合。
可控生成：允许用户根据所需特性指定特定的标签作为条件输入，进而控制生成图像的具体属性或外观特征。
图像感知：可以从现有图像中准确识别并预测出多个标签信息，涵盖深度估计、边缘检测、语义分割等多个方面，为图像的理解提供了全面的支持。

Jodi 的技术原理

联合建模：通过对图像域和多个标签域之间的联合概率分布进行建模，推导出生成任务所需的边际分布和条件分布，从而实现高效的图像生成与理解。
角色切换机制：在训练阶段，每个域会被随机赋予生成目标（[G]）、条件输入（[C]）或者被忽略（[X]）的角色，这使得模型能够在同一框架下学会处理不同类型的数据分布，涵盖联合生成、可控生成和图像感知等多种应用场景。
线性扩散Transformer：采用线性扩散Transformer作为基础架构，利用线性注意力机制显著降低了计算成本，使模型具备处理大规模多视觉领域数据的能力。此外，还加入了掩码线性注意力和领域不变的位置嵌入技术，进一步提升了不同视觉领域间的一致性和对齐效果。
数据集构建：为了满足多视觉领域联合建模的需求，Jodi 创建了一个名为 Joint-1.6M 的数据集，其中包含了超过 20 万张高质量图像及其对应的 7 类视觉领域的自动标注，为模型训练提供了充足且多样化的数据资源。