来源:互联网 更新时间:2025-06-08 18:03
6月8日消息,苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。
有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。
苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。
并且,这些评估大都缺乏对“思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。
为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、跳棋交换、过河问题、积木世界,并且这4类谜题的难度可以精确控制.
随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算,它们却在最需要深入思考时选择了放弃!
并且,当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。
对此,有网友讽刺到:“苹果拥有最多的资金,2年了也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。”
据悉,Apple Intelligence在2024年WWDC正式亮相,在这一年里,苹果宣传中的许多功能都经历延期、不够完善甚至被下架。
不过也有人指出,这篇论文没有看上去那么消极,而是呼吁设立更好的推理机制和评估办法。
ao3官方官网链接入口中文
蚂蚁庄园今日最新答案7.10
《伊苏X -诺曼荣光-》加长版预告公开 8月21日发售!
怎么用deepseek生成ppt?deepseek生成ppt教程
如何在iPhone中清理缓存 iPhone系统缓存清理方法介绍
剪映人像虚化怎么使用 剪映人像虚化使用方法
iPhone15 Pro Max屏幕一直亮着是什么原因
Edge浏览器怎么关闭某个进程
百度网盘mkv格式如何播放
qq音乐怎么免费听歌?qq音乐免费听歌教程
传闻称新一代Xbox或将取消对旧款游戏的兼容支持
Claude怎么下载 Claude网页和第三方工具的打开方法
铁路12306怎么改签?铁路12306改签教程
疑似小米YU7 Ultra实车曝光:双风道前舱盖+大面积尾翼
Gemini能同时支持多个语言吗 多语言输入与翻译能力解读
iPhone 17处理器成谜:连分析师都懵了
PotPlayer怎么设置皮肤 PotPlayer界面美化自定义教程
铁路12306怎么核验手机号 铁路12306核验手机号方法
东北持续高温 黑龙江空调线下销售额暴涨800%
魔兽世界虚空汇聚之地任务攻略
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc