Grok 4— 马斯克旗下xAI推出的新一代大模型
来源:互联网
更新时间:2025-07-11 14:27
Grok 4简介
grok 4 是由 xai 发布的最新人工智能大模型,其推理能力较上一代提升了 10 倍。该模型拥有出色的推理表现,在 sat、gre 等高难度考试中接近满分,并在多个基准测试中超越其他顶尖模型。grok 4 支持多模态功能,可理解主观概念、生成代码和可视化内容,并在语音交互方面进行了重大升级。它分为两个版本:grok 4 为单代理(single agent)版本,而 grok 4 heavy 是多代理(multi agents)版本,支持最多四个代理同时运行,上下文窗口最高可达 256k tokens。

Grok 4的核心特性
- 超强推理能力:在 SAT、GRE 等高难度考试中接近满分,展现出远超人类水平的逻辑推理能力。
- 多模态理解能力:能理解抽象概念,并具备图片搜索与分析能力。
- 信息整合与提炼:能够从社交媒体等渠道收集信息,提取关键事件并按时间线排序。
- 代码与图形生成:根据科学提示生成复杂动画,例如模拟黑洞碰撞过程。
- 语音交互优化:新增五种语音选项,对话更自然流畅,情感表达更丰富。
- 处理复杂任务:在模拟经营类任务中表现出色,具备优秀的战略规划与执行能力。
- 智能体协同运作:SuperGrok Heavy 版本支持多个智能体并行工作,提升问题解决效率。
Grok 4的性能测试结果
- 官方测试数据:
- Humanity’s Last Exam:包含 2500 个跨学科专家级问题。Grok 4 Heavy 在调用工具的情况下得分达 44.4%,优化后可提升至 50.7%。
- AIME25(数学竞赛):Grok 4 Heavy 获得满分 100%,大幅领先其他模型。
- GPQA(研究生级别问答):Grok 4 Heavy 得分 88.9%,超过 Gemini 2.5 Pro(86.4%)和 Claude 4 Opus(79.6%)。
- HMMT25(高中数学竞赛):Grok 4 Heavy 得分 96.7%,远高于 Gemini 2.5 Pro 的 82.5%。
- USAMO25(美国数学奥林匹克):Grok 4 Heavy 得分 61.9%,显著优于 Gemini DeepThink(49.4%)和 Gemini 2.5 Pro(34.5%)。
- ARC-AGI(抽象推理):Grok 4 得分 15.9%,几乎是此前商业 SOTA 模型的两倍。
- Vending-Bench(模拟经营):Grok 4 净收益 $4694,远超 Claude Opus 4($2077)和人类玩家($844)。

- 第三方评测结果(基于Artificial Analysis平台):
- 人工智能综合指数:Grok 4 得分 73,高于 OpenAI o3(70)、谷歌 Gemini 2.5 Pro(70)、Anthropic Claude 4 Opus(64)及 DeepSeek R1 0528(68)。
- 编码与数学专项指数:Grok 4 均位列第一。
- GPQA Diamond 分数:创纪录达到 88%,超过 Gemini 2.5 Pro 的 84%。
- Humanity’s Last Exam 成绩:刷新记录至 24%,领先于 Gemini 2.5 Pro 的 21%。
- 响应速度:Grok 4 达到 75 token/秒,虽低于 o3(188 token/秒)和 Gemini 2.5 Pro(142 token/秒),但优于 Claude 4 Opus Thinking(66 token/秒)。

Grok 4的价格体系
- 订阅服务定价:
- SuperGrok:年费 300 美元,月费 30 美元。
- SuperGrok Heavy:年费 3000 美元,月费 300 美元。
- API 调用费用:
- 输入内容:3 美元 / 百万 token。
- 输出内容:15 美元 / 百万 token。

Grok 4的官方网站
Grok 4的实际应用领域
- 教育辅导:提供个性化学习计划,解答学术难题,帮助学生深入掌握知识。
- 科研辅助:分析大量实验数据,预测科学趋势,推动新理论与技术的发现。
- 商业金融:进行市场分析与预测,为企业制定战略决策提供数据支持,提升运营效率。
- 创意内容制作:协助广告、影视、游戏等行业完成剧本创作与动画制作,提高创作效率。
- 智能助手:作为语音助手处理多模态信息,协助用户完成日常事务,提升生活便捷度。