来源:互联网 更新时间:2025-06-08 18:03
6月8日消息,苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。
有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。
苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。
并且,这些评估大都缺乏对“思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。
为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、跳棋交换、过河问题、积木世界,并且这4类谜题的难度可以精确控制.
随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算,它们却在最需要深入思考时选择了放弃!
并且,当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。
对此,有网友讽刺到:“苹果拥有最多的资金,2年了也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。”
据悉,Apple Intelligence在2024年WWDC正式亮相,在这一年里,苹果宣传中的许多功能都经历延期、不够完善甚至被下架。
不过也有人指出,这篇论文没有看上去那么消极,而是呼吁设立更好的推理机制和评估办法。
b站永不收费2025入口在哪里 b站永不收费进入在线进入
yandex大片免费高清观看入口 yandex大片免费播放高清在线
英勇之地雷域狼尊打法技巧攻略分享
美图秀秀如何给照片加白边 照片边框添加教程
iOS17小技巧:如何自动清理iPhone验证码信息
蚂蚁庄园2025年5月10日答案
GTA6男主让男同沦陷吗 海外编辑都顶不住
我的世界瞬间伤害指令是什么 状态效果指令使用指南
蚂蚁庄园答案2025年5月11日
蚂蚁庄园小课堂2025年5月10日最新题目答案
开发者表示《火焰之刃》当前暂无登陆Steam平台的计划
豆包AI如何生成3D模型?建模功能初体验
蚂蚁新村今日答案5.11
盛色新款27寸显示器上市:硬件低蓝光、2K 200Hz屏到手799元
蚂蚁庄园今日答案
死域Rogue怎么联机的
和平精英幻星舰长怎么样
国产轿车市区道路上狂飙240km/h 失控后发动机都被撞飞
excel如何生成条形码 制作商品条码的图文指南
阴阳师狩日神墟结界皮肤好看吗
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc