热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > 热点新闻 >DeepSeek发布多模态模型技术报告 提出创新视觉原语推理框架

DeepSeek发布多模态模型技术报告 提出创新视觉原语推理框架

来源:互联网 更新时间:2026-05-01 11:50

4月30日,DeepSeek在GitHub平台正式发布多模态大模型及配套技术报告。报告提出基于“视觉原语”的创新推理框架,旨在解决多模态大语言模型在空间参照任务中的核心瓶颈问题。

技术报告指出,当前主流链式思维推理范式主要局限于语言学领域,现有研究多聚焦于提升模型对视觉细节的识别能力。DeepSeek团队认为,这忽视了更为根本的“参照鸿沟”问题,即自然语言的模糊性难以对复杂空间布局提供精确指引。

针对这一问题,DeepSeek提出“基于视觉原语的思考”框架,将点、边界框等空间标记提升为推理过程中的基本思维单元。该框架使模型在推理过程中具备“指代”能力,能够将认知轨迹锚定到图像的具体物理坐标上。

测试显示,该模型在计数和空间推理基准测试上表现优异,与多个前沿模型性能相当。DeepSeek此前已上线具备多模态识别能力的“识图模式”。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc