您的位置：首页 > > 教程攻略 > 手游攻略 >Grok 4— 马斯克旗下xAI推出的新一代大模型

Grok 4— 马斯克旗下xAI推出的新一代大模型

来源:互联网 更新时间:2025-07-11 14:27

Grok 4简介

grok 4 是由 xai 发布的最新人工智能大模型，其推理能力较上一代提升了 10 倍。该模型拥有出色的推理表现，在 sat、gre 等高难度考试中接近满分，并在多个基准测试中超越其他顶尖模型。grok 4 支持多模态功能，可理解主观概念、生成代码和可视化内容，并在语音交互方面进行了重大升级。它分为两个版本：grok 4 为单代理（single agent）版本，而 grok 4 heavy 是多代理（multi agents）版本，支持最多四个代理同时运行，上下文窗口最高可达 256k tokens。

Grok 4的核心特性

超强推理能力：在 SAT、GRE 等高难度考试中接近满分，展现出远超人类水平的逻辑推理能力。
多模态理解能力：能理解抽象概念，并具备图片搜索与分析能力。
信息整合与提炼：能够从社交媒体等渠道收集信息，提取关键事件并按时间线排序。
代码与图形生成：根据科学提示生成复杂动画，例如模拟黑洞碰撞过程。
语音交互优化：新增五种语音选项，对话更自然流畅，情感表达更丰富。
处理复杂任务：在模拟经营类任务中表现出色，具备优秀的战略规划与执行能力。
智能体协同运作：SuperGrok Heavy 版本支持多个智能体并行工作，提升问题解决效率。

Grok 4的性能测试结果

官方测试数据：
- Humanity’s Last Exam：包含 2500 个跨学科专家级问题。Grok 4 Heavy 在调用工具的情况下得分达 44.4%，优化后可提升至 50.7%。
- AIME25（数学竞赛）：Grok 4 Heavy 获得满分 100%，大幅领先其他模型。
- GPQA（研究生级别问答）：Grok 4 Heavy 得分 88.9%，超过 Gemini 2.5 Pro（86.4%）和 Claude 4 Opus（79.6%）。
- HMMT25（高中数学竞赛）：Grok 4 Heavy 得分 96.7%，远高于 Gemini 2.5 Pro 的 82.5%。
- USAMO25（美国数学奥林匹克）：Grok 4 Heavy 得分 61.9%，显著优于 Gemini DeepThink（49.4%）和 Gemini 2.5 Pro（34.5%）。
- ARC-AGI（抽象推理）：Grok 4 得分 15.9%，几乎是此前商业 SOTA 模型的两倍。
- Vending-Bench（模拟经营）：Grok 4 净收益 $4694，远超 Claude Opus 4（$2077）和人类玩家（$844）。

- 第三方评测结果（基于Artificial Analysis平台）：

人工智能综合指数：Grok 4 得分 73，高于 OpenAI o3（70）、谷歌 Gemini 2.5 Pro（70）、Anthropic Claude 4 Opus（64）及 DeepSeek R1 0528（68）。
编码与数学专项指数：Grok 4 均位列第一。
GPQA Diamond 分数：创纪录达到 88%，超过 Gemini 2.5 Pro 的 84%。
Humanity’s Last Exam 成绩：刷新记录至 24%，领先于 Gemini 2.5 Pro 的 21%。
响应速度：Grok 4 达到 75 token/秒，虽低于 o3（188 token/秒）和 Gemini 2.5 Pro（142 token/秒），但优于 Claude 4 Opus Thinking（66 token/秒）。