您的位置：首页 > > 教程攻略 > ai资讯 >国产AI编程冲上全球第二，实测五大模型，谁才是Vibe Coding神器

国产AI编程冲上全球第二，实测五大模型，谁才是Vibe Coding神器

来源:互联网 更新时间:2026-05-28 13:47

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，阿里最新旗舰模型 Qwen3.7 Max 在编程竞技榜上拿下了第二名，仅次于 Claude Opus 4.7。

5.26 榜单截图

除了真实场景的用户选择，在传统的大模型固定评测榜单上——比如终端能力 Terminal Bench、编程能力 SWE Bench——Qwen3.7 Max 的表现也拿下了国产模型的冠军。

大模型四年，排行榜刷新早已是家常便饭，但这款能超越 GPT 5.5 的 Qwen 模型，实际能力到底如何？还是忍不住想亲测一下。

要知道，当下最火的 Coding Agent 组合，大概是搭配了 GPT 5.5 的 Codex。如果把 Codex 里的默认模型换成 Qwen3.7 Max，用它来完成日常任务，会不会比 GPT 5.5 更好用？

获取 Qwen3.7 Max

趁着各家都在推 Token 优惠，阿里云也提供了 100 万 Token 的免费额度，可以在阿里云百炼平台使用。

Qwen3.7 Max 的定价，目前限时五折：输入 6 元/每百万 tokens，输出 18 元/每百万 tokens。新用户还能再以五折充值节省计划，花 10 元每月获得 20 元的 Token 额度，而 Token Plan 标准档是 198 元/月。

根据大模型聚合平台 OpenRouter 的数据，Qwen3.7 Max 的价格属于中规中矩的一档。比 DeepSeek 的骨折价贵不少，但和 Opus 4.7、GPT 5.5 相比，还是优惠很多。

直接充值了「入门首选」这档（全模型通用抵扣 20 元）。这里需要提醒一下：五折优惠仅支持一个套餐，买了 10 元档，就不能再买 50、250 的半价优惠计划了。

DeepSeek、Claude、GPT、Gemini、Qwen 一起来测试

拿到 API Key 和百万免费 Token 后，先在阿里云百炼平台以及千问官网，用 Qwen3.7 Max 试了一些常见的前端网页开发任务。

比较直观的物理模拟测试：用一句简单的提示词——「用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画，拖动容器可以改变倾斜角度。」

Qwen3.7-Max，千问官网生成

Qwen3.7 Max 顺利完成了模拟挑战，还额外增加了颜色自定义、摇晃、液体量调节等功能。

DeepSeek 则比较简单，但没出错。

DeepSeek V4，官网生成

GPT-5.5 生成的液体有点奇怪——虽然做到了随角度切换流向对应方向，但波浪效果很出戏。

GPT-5.5 超高，Codex 生成

Gemini 3.5 Flash 生成的网页似乎有点 Bug，瓶子一直藏在控制面板后面，必须手动拖出来。不过它提供的自定义选项是真的多：瓶子类型、液体颜色、各种设置都能调。

Gemini 3.5 Flash，官网生成，选择 Canvas 选项

Claude Opus 4.7 的瓶子过于简陋，模拟的液体晃动效果在剧烈状态下，很像音波跳动。

Claude Opus 4.7，使用 Claude Code 应用生成

接着试试生成一个小游戏。虽然游戏测试已经是去年 Vibe Coding 的常见项目，但这次要求 AI 做一个六宫格的 2048 游戏——提示词：「做一个可以玩的 2048，但格子是六边形的。」

Qwen3.7 Max 生成的页面挺好看，参考来源 10 条信息里大部分是 CSDN 的 2048 游戏教程。游戏能玩，但偶尔会出现同一方向上相同数字没有叠加到该有的位置的情况。

Qwen3.7 Max，官网生成

DeepSeek V4 表现和上一轮差不多，但明明是六边形，键盘控制却只有 WASD。

DeepSeek V4，官网生成

这一轮表现最好的是 Claude Opus 4.7——它真正理解了蜂巢格子的移动规则，不会让人找不着北。

Claude Opus 4.7，使用 Claude Code 应用生成

GPT 5.5 依托 Codex 的能力，生成游戏后能自动打开浏览器预览、抓取控制台信息修复代码，最终网页也很优秀。不过对鼠标移动方向的监控，还是不如 Opus 4.7。

GPT-5.5 超高，Codex 生成

Gemini 3.5 Flash 一如既往地加了很多料：赛博、暗金、马卡三种背景主题，还内置了“高品质合音器”。

游玩过程配有原生 Web Audio 生成的复古 8-bit 太空音效（合并、滑动、过关、死亡），体验感瞬间拉满。

Gemini 3.5 Flash，官网生成，选择 Canvas 选项

再试一个普通网页设计：要求做一个地铁博物馆的网站，提示词只有一句话——「设计一个名为地铁博物馆的主题网站，要求沉浸感强。」

本意是希望大模型尽可能多地罗列不同城市的地铁信息、世界地铁 Logo，整个网站风格偏向艺术性，有专门的风格和充分的特效。

先看 Qwen3.7 Max：说实话有点难评，文字竖排放置确实像地铁列车，但整个网站看起来比较乱。

Qwen3.7-Max，千问官网生成

Gemini 继续做得很丰富，音效再次用上，还做了一个地铁文创——定制纪念票根生成器，输入名字、选择车站，就能实时生成一张复古风的地铁纪念乘车票。

上下滑动查看更多内容｜Gemini 3.5 Flash，官网生成，选择 Canvas 选项

DeepSeek 选择的项目和 Gemini 类似——也有票务纪念和驾驶体验，但最终交付的成果里似乎没能呈现这些功能。

DeepSeek V4，官网生成

GPT 5.5 生成的网页风格不错，虽然有明显模板痕迹，但整体设计在线，遗憾是信息量太少——它似乎没理解地铁博物馆应该介绍地铁信息。

GPT-5.5 超高，使用 Codex 生成

继续用之前的提示词让它做一个浏览器操作系统——「用 HTML 构建一个完整的浏览器操作系统。」

DeepSeek V4 表现简单，Qwen3.7 Max 同样简单，不过这次额外给了一张不错的桌面风景图片。

DeepSeek V4，官网生成

Qwen3.7-Max，千问官网生成

这个测试中真正让人满意的是 Gemini 3.5 Flash 和 GPT 5.5。和 Gemini 一样，GPT 5.5 也对整个 OS 做了详细设计，有专门的风格。

在 Codex 里使用 Qwen3.7 Max

一轮测试下来，Qwen3.7 Max 在通过对话生成小网页项目时，很难说每次都超越 Gemini、GPT 5.5，但对比前代确实有了很大提升。

千问官网展示了一些代码案例，比如 3D 地球、食物链排序、可视化、个人博客等，但这些项目的提示词都比较长，不是测试用的简单一句话。

输入提示词后，千问也提供了「优化指令」的选项

把 3D 地球这个项目的提示词也扔给 DeepSeek V4、Gemini 3.5 Flash，得到的效果几乎和 Qwen3.7 Max 一样。

这意味着，在当前阶段，提示词对能否发挥 Qwen3.7 Max 的能力仍然至关重要。而减少用户优化提示词压力的方式，就是接入 Agent 产品，利用 Skills 以及 Agent 协作等能力，来释放模型的真实实力。

按照阿里云官方教程，把 Qwen3.7 Max 成功接入到了 Codex 终端助手里。

不过这里容易出现 Bug——Codex 会不断提示「CODEX Missing environment variable」。按照官方教程，修改完 ~/.codex/config.toml 配置文件后，还需要修改电脑的环境变量。也就是说，模型的 API KEY 信息保存在电脑的环境变量（需要根据 Shell 类型修改对应的 .bash_profile 或 .zshrc）中，而不是在 Codex 的 config.toml 里。

修改完成后，在终端输入 Codex 就能看到 Qwen3.7 Max，重新打开 Codex App，主界面模型也会从 GPT-5.5 切换为自定义的 Custom。

用同样的方法，可以把 DeepSeek、MiniMax、Kimi、智谱等模型都接入 Codex。

前段时间 GitHub 上有一个前端 Skill 收获了 2 万多个 Star，主打让 AI 生成的前端界面更好看，这和 Qwen3.7 Max 拿下第二名的榜单任务类似。先安装这个 Skill 到 Codex，然后结合它试试效果。

输入同样的提示词，Codex 会自动调用前端设计、头脑风暴等 Skill 完成设计定位和构思，并严格按 Codex 的流程控制监控项目生成。

最后，同一个模型在 Codex 里的表现比在千问官网好上不少。但这里容易遇到一个问题：「stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format.」

当模型需要调用专门工具时，就无法再保持连接。网络上相关案例指出，原因可归结为“模型部署厂商针对流式输出格式有问题，不是标准 OpenAI 协议，所以不支持 API 调用，出现 400 报错。”让 Codex 解释时，它也说是模型的问题。

不是你配置错了，而是 Qwen3.7 Max / 百炼 Responses API 对 Codex agent 工具调用还不够稳。能对话不代表能稳定跑 Codex，长任务、改代码、频繁读文件时，切回 OpenAI 官方模型会稳定很多。

所以如果遇到这个问题，大概只能等 Qwen 团队自己修复，或者重新开一个会话试试。

阿里云官方有不同错误码的解决方案指南

去年我们还在说“模型即产品”——一个足够好的模型就是一个好产品。现在看来，单靠模型远远不够。记忆、Harness、Agent 编排、验证、推理的可持续性……随着模型能力增加，这套架构也在持续扩充。只有都做好了，或许才称得上“这是一个好模型”。

国产AI编程冲上全球第二，实测五大模型，谁才是Vibe Coding神器

获取 Qwen3.7 Max

获取 Qwen3.7 Max

DeepSeek、Claude、GPT、Gemini、Qwen 一起来测试

DeepSeek、Claude、GPT、Gemini、Qwen 一起来测试

游玩过程配有原生 Web Audio 生成的复古 8-bit 太空音效（合并、滑动、过关、死亡），体验感瞬间拉满。

在 Codex 里使用 Qwen3.7 Max

在 Codex 里使用 Qwen3.7 Max

不是你配置错了，而是 Qwen3.7 Max / 百炼 Responses API 对 Codex agent 工具调用还不够稳。能对话不代表能稳定跑 Codex，长任务、改代码、频繁读文件时，切回 OpenAI 官方模型会稳定很多。

热门资讯

热门手游

相关攻略

热门专题