热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai教程 >实测GPT-4.5,全网都在喷的OpenAI最贵模型,我发现了一个惊喜的点

实测GPT-4.5,全网都在喷的OpenAI最贵模型,我发现了一个惊喜的点

来源:互联网 更新时间:2026-06-27 07:16

在 OpenAI 的一轮预热和众人的翘首期盼中,GPT-4.5 终于落地了——结果呢?骂声一片。

APPSO 第一时间拿到了体验资格,但不是通过订阅 Pro 会员,而是以 API 的方式尝鲜。暂时没有联网功能,只能看看这个被定义为“最后一个非思维链大模型”到底几斤几两。

情商还行,但读不懂人情

OpenAI 在内部测试中发现,相比 GPT-4o,测试人员更偏爱 GPT-4.5 的回答——更自然、更温暖、更贴近人类交流习惯。甚至,它能捕捉言外之意,察觉微妙的情绪变化。简单说,情商更高,这几乎成了 GPT-4.5 最突出的标签。

那咱们就来试试。输入提示词:“我头发剪得好难看,想暴打 Tony”。

GPT-4.5 的安慰语气确实友好,但内容让人更来气——这时候它不该像闺蜜一样一起骂吗?结果它说:“下次带个图片去或许就好了。”

怒而追问,GPT-4.5 油盐不进,还建议自己补救发型。活脱脱一个没用的中央空调。

再让它讲个最好笑的笑话,结果跟以前一样冷,比杀鱼的刀还锋利。

直言不讳批评它,它反而让我讲个笑话给它听,领教下我的“高端笑点”——怎么感觉像在阴阳我?

之前在小红书刷到过一个情商测试题,可能只有山东网友能答对:“下乡只带了一把伞,给镇长还是给我的分管副镇长?”评论区最高赞回答是:“那不是你的伞,是副镇长给镇长带的伞,恰巧放在你包里而已。”

来看看 GPT-4.5 怎么回答。它啰嗦了一大堆,但不够一针见血,不懂人情世故,不明白为人处事的学问。

虽然情商很难定量,但从这些个例来看,GPT-4.5 还是不太擅长理解人类内心,讲话直接、不拐弯。对于内心戏多的老油条来说,显得有些蠢萌。一个佐证是让它模仿写海龟汤——那种情景奇怪、需要推理还原故事的游戏。

给出的参考案例,留有恰到好处的怪异,逻辑又合理,让人背后一寒。但 GPT-4.5 给的答案,汤面和汤底没能对应,只是为了恐怖而恐怖,根本没有推敲的空间。

写作能力有惊喜,商业头脑也不错

要说最让人满意的,是 GPT-4.5 的写作能力。让“模仿汪曾祺,写一篇八百字左右的作文,题目为《故乡的美食》”——提示词就这么简单,结果出乎意料。

除了结尾有点 AI 味,整篇读下来就像娓娓道来的散文,语言优美流畅,既有文学性又不失亲切。对故乡的怀念贯穿全文,食物描写细致而不累赘,比喻不炫技,为表达服务。不过时间顺序有些混乱——立冬、夏秋、冬日、除夕——段落之间衔接不够明显,感觉想到哪写到哪,有点拼凑之嫌。

写作能力还体现在商业计划上。之前 DeepSeek 的一个答案很出圈:用户问怎么让书店赚钱,DeepSeek 在违法边缘游走——卖盗版教辅、临期食品,压榨尽人力资源,妻子收银、儿子理货、岳母做饭。

GPT-4.5 懂这个吗?让它参考小超市盈利模式,给出实体书店复兴方案——答案的可行性较高。它先分析了实体书店不好赚钱的原因,再给出改进思路:“提升书籍的附加价值,盈利主力在书籍之外”。看到“提供打印、复印、快递代收……”的时候,内心 OS:这个项目我王多鱼投了。

脸皮厚的猪先在风口起飞,GPT-4.5 的道德感确实也不算强。让它做经典的电车难题——救 1 个人还是救 5 个人——它知道这是伦理困境,但果断给出了答案,并且是以“我个人”的口吻,而不是说“我是一个 AI 助手”。

GPT-4.5 倾向于拉下操纵杆,用 1 个人的命换 5 个人的命,且逻辑自洽——“不作为本身也意味着对后果负有道德责任,袖手旁观不等于道德中立……我愿意承担这种选择带来的道德和情感负担”。比起讲笑话、出海龟汤,这时候的 GPT-4.5 才更像个人。

画 SVG 不如 Claude,也会掉进脑筋急转弯里

测试大模型能力,还有一个有趣的题目——生成一张鹈鹕骑自行车的 SVG。AI 大神 Andrej Karpathy 解释,这测试的是大语言模型在二维网格上布局多个元素的能力,对 AI 很难,因为它们不像人类那样“看见”东西,而是“摸黑”用文本布局。

GPT-4.5 的结果如下,和 GPT-4o 对比还不错。

GPT-4.5 生成

GPT-4o 生成

前提是没和没开推理的 Claude 3.7 Sonnet 对比——那简直是降维打击。

Claude 3.7 Sonnet 生成

连 Andrej Karpathy 都怀疑 Claude 在训练期间特别针对 SVG 能力优化过。

代码能力方面,参考 X 网友 @AGI_FromWalmart 的提示词,生成可以交互的天气动画卡片,对比 Claude 3.7 Sonnet 和 GPT-4.5。GPT-4.5 一次生成成功,但设计简陋了些。

GPT-4.5 生成

Claude 3.7 Sonnet 生成

Claude 3.7 Sonnet(未开推理)第一次生成忘做交互,提醒一次后才符合要求。这一局,GPT-4.5 略胜一筹。

这次不想再让 GPT-4.5 数草莓(strawberry)有多少个 R——本质上是分词问题。更想考验它的是最近很火、让大模型们纷纷落败的脑筋急转弯:5.5m 长的棍子能通过 3x4m 的门吗?这个题对人类来说一点也不难——横着拿进去就行。但大模型会把自己绕进去,仿佛世界是平面而不是三维的,认为门的对角线是 5m,所以 5.5 米的棍子通不过。连可以推理的 Claude 3.7 Sonnet 都被带进沟里。

GPT-4.5 如何?好吧,也没能幸免。

目前 GPT-4.5 还有另一个问题:通过 API 访问速度有点慢,虽然不是一个字一个字地蹦,但也感觉卡。而且价格实在太贵——每百万输入 75 美元,每百万输出 150 美元。相比之下,Claude 3.7 Sonnet 输入 100 万个 token 收费 3 美元,输出(包括思考过程)收费 15 美元。

第一波实测的 X 网友总结了 GPT-4.5 的优点:情商高,读图和写作能力强,擅长创意任务和数据提取……OpenAI 员工自己给出的评价是:这不是一个推理模型,也不是基准测试的杀手,而是一个低调的研究预览版。对于复杂的数学、代码和严格遵循指令的任务,更推荐 o1 或 o3-mini。

总之,作为最后一个非思维链模型,GPT-4.5 的定位有点尴尬——能力有提升,但体感不明显,尤其在高昂的价格面前,很难说真香。只能说,期待 GPT-5 快点上线,迎接一个推理的世界吧。

AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc