导读 埃隆·马斯克的 AI 创业公司 xAI 发布了 Grok 2 模型的早期预览版,令人惊讶的是,它的表现甚至超过了Claude、Gemini甚至 ChatGPT...
埃隆·马斯克的 AI 创业公司 xAI 发布了 Grok 2 模型的早期预览版,令人惊讶的是,它的表现甚至超过了Claude、Gemini甚至 ChatGPT。早期的Grok-1.5模型并没有受到好评,但 Grok-2 在 LMSYS 排行榜上表现出色。xAI 发布了两个新模型:Grok-2 和较小的 Grok-2 迷你模型。
xAI 表示,Grok-2 在推理、遵循指令以及提供准确和事实信息等关键领域取得了显著进步。在传统的 AI 基准测试中,Grok-2 在 MMLU 中的得分高达 87.5%,在 HumanEval 中的得分高达 88.4%。这尤其有趣,因为 MMLU 分数是使用 0-shot CoT 得出的。
Grok-2 在 LMSYS 上以“sus-column-r”的名称进行了测试。它获得了约 12,000 票,排名第三,仅次于 ChatGPT-4o-latest、Gemini-1.5-Pro-Experimental 和 GPT-40-2024-05-13。但是,它的表现优于 GPT-4o-mini、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama 3.1 405B。