热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > 热点新闻 >京东开源全球首个全栈视觉交互模型,实现AI边看边说实时响应

京东开源全球首个全栈视觉交互模型,实现AI边看边说实时响应

来源:互联网 更新时间:2026-06-26 19:57

近日,京东正式开源了名为JoyAI-VL-Interaction的实时视频视觉语言交互模型及其整套部署系统,标志着全球首个全栈开源的视觉交互解决方案诞生。这一创新旨在彻底改变传统多模态模型被动问答的交互模式,赋予AI持续观看、自主判断与主动响应的流式交互能力,为安防、看护、直播等多个实时场景带来变革。

京东开源全球首个全栈视觉交互模型,实现AI边看边说实时响应

传统图文或视频大模型通常需要用户主动提问才会分析画面,这种被动模式难以满足实时监控、动态实景等对即时性要求极高的场景需求。而此次开源的模型实现了三重核心革新,从根本上提升了AI在实时视频流处理中的实用性。

主动判断与低延迟响应

该模型能够持续读取来自摄像头、监控或直播的实时视频流,并自主识别其中的关键事件。例如,在监控场景中识别到火情或老人摔倒,系统可即时发出预警,而在无事件发生时则自动保持静默,无需任何人工触发指令。这种

主动自主判断能力

是其区别于传统模型的关键。

同时,模型采用流式处理方式,面向正在发生的画面进行实时分析,而非等待完整视频上传后再进行复盘。这使得它能够满足安防预警、实时翻译、直播同步解说等对

低延迟有极高要求

的场景。

前后台分工协作架构

面对复杂推理、代码生成或工具调用等计算密集型任务时,模型设计了独特的前后台分工协作机制。前台模型可以持续不间断地观测画面,而将重任务委托给后台的Agent进行处理。待后台任务完成后,前台模型能够无缝接续交互,确保了观测的连续性。

本次开源并非仅提供模型权重,而是包含了

模型权重、专属交互数据集、完整训练方案以及全套可部署的工程框架

。系统支持灵活替换语音模块、可视化界面,并兼容第三方Agent与业务接口的接入。它能够兼容多路视频输入,并自带长期记忆、语音收发以及基于vLLM的快速部署能力。

基于这些特性,开发者可以快速搭建各类实景AI应用,例如居家老人儿童看护系统、安防自动预警平台、直播实时解说助手、电商导购、智能眼镜无障碍辅助以及工业现场操作指导等。在覆盖监控预警、实时计数、实时翻译、直播解说等58组真人盲测案例中,该模型对比市场同类产品展现出显著优势,

整体胜率达到77.6%至87.9%

,尤其在安防预警场景中对竞品实现了100%的胜率。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc