热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >国产AI编程冲上全球第二,实测五大模型,谁才是Vibe Coding神器

国产AI编程冲上全球第二,实测五大模型,谁才是Vibe Coding神器

来源:互联网 更新时间:2026-05-28 13:47

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里最新旗舰模型 Qwen3.7 Max 在编程竞技榜上拿下了第二名,仅次于 Claude Opus 4.7。

5.26 榜单截图

除了真实场景的用户选择,在传统的大模型固定评测榜单上——比如终端能力 Terminal Bench、编程能力 SWE Bench——Qwen3.7 Max 的表现也拿下了国产模型的冠军。

大模型四年,排行榜刷新早已是家常便饭,但这款能超越 GPT 5.5 的 Qwen 模型,实际能力到底如何?还是忍不住想亲测一下。

要知道,当下最火的 Coding Agent 组合,大概是搭配了 GPT 5.5 的 Codex。如果把 Codex 里的默认模型换成 Qwen3.7 Max,用它来完成日常任务,会不会比 GPT 5.5 更好用?

获取 Qwen3.7 Max

趁着各家都在推 Token 优惠,阿里云也提供了 100 万 Token 的免费额度,可以在阿里云百炼平台使用。

Qwen3.7 Max 的定价,目前限时五折:输入 6 元/每百万 tokens,输出 18 元/每百万 tokens。新用户还能再以五折充值节省计划,花 10 元每月获得 20 元的 Token 额度,而 Token Plan 标准档是 198 元/月。

根据大模型聚合平台 OpenRouter 的数据,Qwen3.7 Max 的价格属于中规中矩的一档。比 DeepSeek 的骨折价贵不少,但和 Opus 4.7、GPT 5.5 相比,还是优惠很多。

直接充值了「入门首选」这档(全模型通用抵扣 20 元)。这里需要提醒一下:五折优惠仅支持一个套餐,买了 10 元档,就不能再买 50、250 的半价优惠计划了。

DeepSeek、Claude、GPT、Gemini、Qwen 一起来测试

拿到 API Key 和百万免费 Token 后,先在阿里云百炼平台以及千问官网,用 Qwen3.7 Max 试了一些常见的前端网页开发任务。

比较直观的物理模拟测试:用一句简单的提示词——「用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画,拖动容器可以改变倾斜角度。」

Qwen3.7-Max,千问官网生成

Qwen3.7 Max 顺利完成了模拟挑战,还额外增加了颜色自定义、摇晃、液体量调节等功能。

DeepSeek 则比较简单,但没出错。

DeepSeek V4,官网生成

GPT-5.5 生成的液体有点奇怪——虽然做到了随角度切换流向对应方向,但波浪效果很出戏。

GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 生成的网页似乎有点 Bug,瓶子一直藏在控制面板后面,必须手动拖出来。不过它提供的自定义选项是真的多:瓶子类型、液体颜色、各种设置都能调。

Gemini 3.5 Flash,官网生成,选择 Canvas 选项

Claude Opus 4.7 的瓶子过于简陋,模拟的液体晃动效果在剧烈状态下,很像音波跳动。

Claude Opus 4.7,使用 Claude Code 应用生成

接着试试生成一个小游戏。虽然游戏测试已经是去年 Vibe Coding 的常见项目,但这次要求 AI 做一个六宫格的 2048 游戏——提示词:「做一个可以玩的 2048,但格子是六边形的。」

Qwen3.7 Max 生成的页面挺好看,参考来源 10 条信息里大部分是 CSDN 的 2048 游戏教程。游戏能玩,但偶尔会出现同一方向上相同数字没有叠加到该有的位置的情况。

Qwen3.7 Max,官网生成

DeepSeek V4 表现和上一轮差不多,但明明是六边形,键盘控制却只有 WASD。

DeepSeek V4,官网生成

这一轮表现最好的是 Claude Opus 4.7——它真正理解了蜂巢格子的移动规则,不会让人找不着北。

Claude Opus 4.7,使用 Claude Code 应用生成

GPT 5.5 依托 Codex 的能力,生成游戏后能自动打开浏览器预览、抓取控制台信息修复代码,最终网页也很优秀。不过对鼠标移动方向的监控,还是不如 Opus 4.7。

GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 一如既往地加了很多料:赛博、暗金、马卡三种背景主题,还内置了“高品质合音器”。

游玩过程配有原生 Web Audio 生成的复古 8-bit 太空音效(合并、滑动、过关、死亡),体验感瞬间拉满。

Gemini 3.5 Flash,官网生成,选择 Canvas 选项

再试一个普通网页设计:要求做一个地铁博物馆的网站,提示词只有一句话——「设计一个名为地铁博物馆的主题网站,要求沉浸感强。」

本意是希望大模型尽可能多地罗列不同城市的地铁信息、世界地铁 Logo,整个网站风格偏向艺术性,有专门的风格和充分的特效。

先看 Qwen3.7 Max:说实话有点难评,文字竖排放置确实像地铁列车,但整个网站看起来比较乱。

Qwen3.7-Max,千问官网生成

Gemini 继续做得很丰富,音效再次用上,还做了一个地铁文创——定制纪念票根生成器,输入名字、选择车站,就能实时生成一张复古风的地铁纪念乘车票。

上下滑动查看更多内容|Gemini 3.5 Flash,官网生成,选择 Canvas 选项

DeepSeek 选择的项目和 Gemini 类似——也有票务纪念和驾驶体验,但最终交付的成果里似乎没能呈现这些功能。

DeepSeek V4,官网生成

GPT 5.5 生成的网页风格不错,虽然有明显模板痕迹,但整体设计在线,遗憾是信息量太少——它似乎没理解地铁博物馆应该介绍地铁信息。

GPT-5.5 超高,使用 Codex 生成

继续用之前的提示词让它做一个浏览器操作系统——「用 HTML 构建一个完整的浏览器操作系统。」

DeepSeek V4 表现简单,Qwen3.7 Max 同样简单,不过这次额外给了一张不错的桌面风景图片。

DeepSeek V4,官网生成

Qwen3.7-Max,千问官网生成

这个测试中真正让人满意的是 Gemini 3.5 Flash 和 GPT 5.5。和 Gemini 一样,GPT 5.5 也对整个 OS 做了详细设计,有专门的风格。

在 Codex 里使用 Qwen3.7 Max

一轮测试下来,Qwen3.7 Max 在通过对话生成小网页项目时,很难说每次都超越 Gemini、GPT 5.5,但对比前代确实有了很大提升。

千问官网展示了一些代码案例,比如 3D 地球、食物链排序、可视化、个人博客等,但这些项目的提示词都比较长,不是测试用的简单一句话。

输入提示词后,千问也提供了「优化指令」的选项

把 3D 地球这个项目的提示词也扔给 DeepSeek V4、Gemini 3.5 Flash,得到的效果几乎和 Qwen3.7 Max 一样。

这意味着,在当前阶段,提示词对能否发挥 Qwen3.7 Max 的能力仍然至关重要。而减少用户优化提示词压力的方式,就是接入 Agent 产品,利用 Skills 以及 Agent 协作等能力,来释放模型的真实实力。

按照阿里云官方教程,把 Qwen3.7 Max 成功接入到了 Codex 终端助手里。

不过这里容易出现 Bug——Codex 会不断提示「CODEX Missing environment variable」。按照官方教程,修改完 ~/.codex/config.toml 配置文件后,还需要修改电脑的环境变量。也就是说,模型的 API KEY 信息保存在电脑的环境变量(需要根据 Shell 类型修改对应的 .bash_profile 或 .zshrc)中,而不是在 Codex 的 config.toml 里。

修改完成后,在终端输入 Codex 就能看到 Qwen3.7 Max,重新打开 Codex App,主界面模型也会从 GPT-5.5 切换为自定义的 Custom。

用同样的方法,可以把 DeepSeek、MiniMax、Kimi、智谱等模型都接入 Codex。

前段时间 GitHub 上有一个前端 Skill 收获了 2 万多个 Star,主打让 AI 生成的前端界面更好看,这和 Qwen3.7 Max 拿下第二名的榜单任务类似。先安装这个 Skill 到 Codex,然后结合它试试效果。

输入同样的提示词,Codex 会自动调用前端设计、头脑风暴等 Skill 完成设计定位和构思,并严格按 Codex 的流程控制监控项目生成。

最后,同一个模型在 Codex 里的表现比在千问官网好上不少。但这里容易遇到一个问题:「stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format.」

当模型需要调用专门工具时,就无法再保持连接。网络上相关案例指出,原因可归结为“模型部署厂商针对流式输出格式有问题,不是标准 OpenAI 协议,所以不支持 API 调用,出现 400 报错。”让 Codex 解释时,它也说是模型的问题。

不是你配置错了,而是 Qwen3.7 Max / 百炼 Responses API 对 Codex agent 工具调用还不够稳。能对话不代表能稳定跑 Codex,长任务、改代码、频繁读文件时,切回 OpenAI 官方模型会稳定很多。

所以如果遇到这个问题,大概只能等 Qwen 团队自己修复,或者重新开一个会话试试。

阿里云官方有不同错误码的解决方案指南

去年我们还在说“模型即产品”——一个足够好的模型就是一个好产品。现在看来,单靠模型远远不够。记忆、Harness、Agent 编排、验证、推理的可持续性……随着模型能力增加,这套架构也在持续扩充。只有都做好了,或许才称得上“这是一个好模型”。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc