2026年6月,JetBrains做了个决定——把OpenAI的Codex设为AI助手的“默认推荐”。这可不是随随便便拍脑袋的合作,背后是实打实的数据验证,以及JetBrains一以贯之的产品哲学在做支撑。
为什么要设置一个“推荐的智能体”?
在Codex被推上C位之前,JetBrains IDE里的AI用户得自己从一堆智能体里挑着用——Junie、Claude Agent,或者自带的ACP兼容智能体。自由度是挺高,但选择本身也成了负担。
JetBrains发现,随着模型能力越来越强,智能体(Agent)能帮用户干的事儿,比单纯聊个天要多得多、复杂得多。所以,
直接推荐一个开箱即用、能力又均衡的智能体,能大幅降低新用户的上手门槛,让ta们立刻感受到AI辅助编程的核心价值
。这背后,其实就是JetBrains一直强调的“开箱即用、体验优先”的设计理念。
如何做出选择?基于“真实世界”的数据
JetBrains选谁,不是靠印象分或者合作关系,而是建立在一个叫
的开放基准测试上,把离线基准测试和线上A/B测试结合起来。
1. 评估标准:三个核心指标
JetBrains从三个维度给候选智能体打分:
- • :智能体在真实代码库里,能不能成功搞定Bug修复、功能开发这些任务,并且通过所有自动化测试。这是衡量能力的关键指标。
- • :完成一项任务平均要消耗多少token。这能确保推荐的智能体在提供高价值的同时,使用成本对用户来说也算合理。
- • :从发出指令到拿到最终结果,平均要等多久。这直接影响开发者的工作流畅度。
JetBrains把“成本”和“延迟”跟“解决率”并列为核心指标,这个思路相当务实。它说明JetBrains追求的是一种面向真实开发者的
,而不是在实验室里刷极限性能。
下面是Codex的数据。

2. 严谨的测试流程
- • :数据集覆盖了三大生态,包含几百个来自真实代码库的任务,确保了评估够广、够有代表性。
- • :离线数据之外,JetBrains还搞了真实用户参与的A/B测试。通过分析用户行为(比如有没有切换智能体、有没有退回纯聊天模式),来验证离线结论,让决策更有说服力。
数据驱动的选择:Codex vs. Junie
最终候选者Codex(GPT-5.4-mini medium)和Junie(Gemini 3 Flash)之间的数据表现,差距非常小。从侧面也说明,当前AI智能体的竞争已经进入白热化阶段。
从表格能看出来,Codex在综合解决率上略胜一筹,但Junie在延迟和成本上表现更好。两个智能体在不同语言上各有优势(比如Codex在C#上解决率更高,Junie在Ja va上领先)。
来自线上A/B测试中的
这些行为数据。在这些更能反映真实长期价值的指标上,
。
从战略层面来看,JetBrains选择Codex作为推荐智能体,是一个集“用户、数据与战略”于一体的决策。
-
- :通过数据驱动,为用户选出了当下综合体验最好的智能体,降低了用户的选择成本,提升了即时满足感。
-
- :通过建立DPAIA基准测试,JetBrains向整个行业展示了一套。这增强了JetBrains AI平台的可信度,也为未来持续、客观地评估新模型/智能体打下了基础。
-
- :关键点在于,推荐是“动态”的。JetBrains明确表示,这不是永久决定,未来会基于新数据更新推荐。而且,用户始终可以自由切换到其他智能体。这种**“推荐但不强制”**的姿态,既尊重了高级用户的选择权,也维护了JetBrains作为开放平台的形象。
总结
JetBrains把Codex设为推荐AI智能体,本质上是一次产品、数据与战略的完美结合。它基于严谨的测试,做出了一个对当前用户最友好的选择,同时通过公开的基准测试和开放的切换机制,展现了作为平台构建者的成熟心态。对开发者来说,这意味着在JetBrains IDE里,可以以一个更低的起点,体验到当前最优秀的AI辅助编程能力,同时还拥有不被锁定的自由。