热门搜索：和平精英　原神　街篮2　

您的位置：首页 > > 教程攻略 > 热点新闻 >京东开源全球首个全栈视觉交互模型，实现AI边看边说实时响应

京东开源全球首个全栈视觉交互模型，实现AI边看边说实时响应

来源:互联网 更新时间:2026-06-26 19:57

近日，京东正式开源了名为JoyAI-VL-Interaction的实时视频视觉语言交互模型及其整套部署系统，标志着全球首个全栈开源的视觉交互解决方案诞生。这一创新旨在彻底改变传统多模态模型被动问答的交互模式，赋予AI持续观看、自主判断与主动响应的流式交互能力，为安防、看护、直播等多个实时场景带来变革。

京东开源全球首个全栈视觉交互模型，实现AI边看边说实时响应

传统图文或视频大模型通常需要用户主动提问才会分析画面，这种被动模式难以满足实时监控、动态实景等对即时性要求极高的场景需求。而此次开源的模型实现了三重核心革新，从根本上提升了AI在实时视频流处理中的实用性。

主动判断与低延迟响应

该模型能够持续读取来自摄像头、监控或直播的实时视频流，并自主识别其中的关键事件。例如，在监控场景中识别到火情或老人摔倒，系统可即时发出预警，而在无事件发生时则自动保持静默，无需任何人工触发指令。这种

主动自主判断能力

是其区别于传统模型的关键。

同时，模型采用流式处理方式，面向正在发生的画面进行实时分析，而非等待完整视频上传后再进行复盘。这使得它能够满足安防预警、实时翻译、直播同步解说等对

低延迟有极高要求

的场景。

前后台分工协作架构

面对复杂推理、代码生成或工具调用等计算密集型任务时，模型设计了独特的前后台分工协作机制。前台模型可以持续不间断地观测画面，而将重任务委托给后台的Agent进行处理。待后台任务完成后，前台模型能够无缝接续交互，确保了观测的连续性。

本次开源并非仅提供模型权重，而是包含了

模型权重、专属交互数据集、完整训练方案以及全套可部署的工程框架

。系统支持灵活替换语音模块、可视化界面，并兼容第三方Agent与业务接口的接入。它能够兼容多路视频输入，并自带长期记忆、语音收发以及基于vLLM的快速部署能力。

基于这些特性，开发者可以快速搭建各类实景AI应用，例如居家老人儿童看护系统、安防自动预警平台、直播实时解说助手、电商导购、智能眼镜无障碍辅助以及工业现场操作指导等。在覆盖监控预警、实时计数、实时翻译、直播解说等58组真人盲测案例中，该模型对比市场同类产品展现出显著优势，

整体胜率达到77.6%至87.9%

，尤其在安防预警场景中对竞品实现了100%的胜率。

热门资讯

热门手游

1

网名带郑和霍字的网名女有哪些

角色扮演 | 1

详情

相关攻略

热门专题

手机号码测吉凶
本站所有软件，都由网友上传，如有侵犯你的版权，请发邮件haolingcc@hotmail.com 联系删除。版权所有 Copyright@2012-2013 haoling.cc