来源:互联网 更新时间:2026-06-26 07:21
说实话,DeepSeek出了识图模式这个消息,乍一听还挺让人懵的——识图?这东西不是本来就有的功能吗?我之前可是没少拿照片让它帮忙提取文字。
幸亏这话没说出口,不然真要闹笑话了。
后来在X上刷到了陈小康的推文才发现,事情远没有那么简单。
陈小康是DeepSeek多模态团队的带头人,北大本博毕业。DeepSeek V4发布后没几天,识图模式其实就上线了,只不过当时只对少部分用户开放灰度测试。而到了今天,这个功能终于大范围开放了——Web端和App端都能用。
为了验证效果,我立马让它分析了一张图。
整个识图过程流畅得惊人。它先是判断出这是夜间足球比赛现场,位置大概率是VIP包厢或高级看台区域;接着分析人物——一位穿米色套装、手持墨镜、靠在护栏上的女士。然后,最关键的来了:它注意到了右下角护栏上的葡萄牙队徽。
这个细节才是真正见功夫的地方。因为如果只是粗略地看,谁都能说出一句“有个女士在球场”。但能注意到队徽,说明它在局部细节上有足够的敏感度。最终给出的结论也很有分寸:“很可能是里斯本的光明球场或巨龙球场”——没有武断地下定论,知道留下余地和假设空间。现在最怕的其实不是AI犯错,而是犯错之后还一本正经地胡说八道,那个纠错成本太高了。
更让我意外的是后面这段。
它直接判断出这张图很可能是AI生成的。理由给得很具体:画面过于干净、光影效果太电影化、人物皮肤与背景边缘的融合过于平滑。现在网上的AI图越来越多,很多第一眼看过去已经看不出明显破绽了。即便是人肉眼来看,很多时候也只能说“感觉有点怪”,但很难给出像这样清晰、可验证的判断逻辑。
相比之下,之前ChatGPT检测AI图主要是从源头入手——通过检测SynthID水印或者内容凭证来判断。而DeepSeek这条路更直接:从图像本身的视觉特征出发做判断。
这种基于图像本身的推理能力,在另一个场景下同样表现抢眼。我拿了一张充满戏谑意味的图让它来解释。
推理过程实在太长,用图文完全展示效果不好,录了个视频可以感受一下。
整个推理链条的流畅度相当高,不过也犯了两个错误:一是把Claude 3.5错认成了Fable 5,二是把被封禁的原因归结为“无法向中国大陆用户提供服务”。但这类问题说到底不是能力不行,而是知识库训练时间的问题——目前的训练数据截止时间还比较早。
如果需要查询最近的消息,得依靠联网搜索能力。但尴尬的是,识图功能目前不支持联网搜索——这就成了一个死锁。也就是说,目前的识图功能更擅长判断一张图是不是AI生成的,以及从图像本身出发做分析和解释,但还无法实时地理解今天刚发生的事情。
不过,正是这个限制,反而让我更清楚地看到了它现阶段最擅长的事情是什么。它不是“看图搜索引擎”,更像一个“看图推理器”。给它一张图,它能拆解出画面里的元素、人物、文字、空间关系和画面质感,然后给出有逻辑的解释。但如果这张图背后依赖的是昨天刚上的新闻,或者今天刚火起来的梗,它的表现就会打折扣。
但不管怎么说,这次更新至少说明了一件事:DeepSeek终于把多模态这个入口补上了。接下来要拼的,是“看见”之后,能不能真正把问题想明白、把事做下去。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
美好的简约网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
腾讯元宝怎么用来分析股票基金的基本面信息?
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
《金铲铲之战》高校赛夏季赛总决赛观赛指南来袭 还有铲铲教学一同献上
动漫《情色漫画老师OVA》剧情介绍
wallpaper壁纸声音怎么开启
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc