拿20万块GPU，马斯克上演“AI复仇记”

艺都花坊 2025-02-19 行业报 58 次浏览 0个评论

文 | kiki

「一个追求极致真理的AI。」

北京时间2月18日中午，马斯克和xAI发布了其最新旗舰模型Grok-3系列和最新聊天机器人Grok，凭借着马斯克的强大光环，尽管xAI作为这场AI竞赛中的后发者，但其一举一动都备受关注。

在不到一个小时、百万人围观的发布会中，xAI展现了Grok-3令人印象深刻的模型能力——从马斯克的最强数据集群到直接的评测数据对比，似乎在回应他此前对Grok-3的评价——「地表最强AI」。

马斯克和xAI发布最新旗舰模型图源：xAI

但据前OpenAI联合创始人Anderj Karpathy的评价，「Grok-3+Thinking」感觉与OpenAl最强模型o1-pro相差无几，但取得同等能力需要加上一个前提：Grok-2和Grok-3之间，才过去了六个月而已。“达到最先进领域的时间表是前所未有的”。Anderj Karpathy说。

Grok-3的发布符合马斯克的竞争观——他总是习惯用最快的时间表、推动团队完成创新，这也是他擅长讲述的故事——用巨大的算力（20万张GPU，Grok-3使用了超出DeepSeek-V3百倍的算力）、规模小的团队（xAI最初成立只有12人），做不下牌桌的人。

一、「地表最强AI」Grok 3表现如何？

直播中xAI团队将Grok-2形容为「玩具」，这当然是为了突出Grok-3的强大。

xAI发布的Grok-3是一个模型系列，包括了推理模型和mini模型。

在模型能力上，Grok-3在推理、数学、代码、数学等多方面，都取得了新的突破，Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在 AIME上取得了96分，在GPQA上取得了85分，跑赢了o3 mini、DeepSeek-R1等。

Grok-3在数学、科学和代码领域的表现图源：xAI

在AIME 2025最新的数学基准测试中，Grok-3 Reasoning超越了o3-mini的最佳版本o3-mini high。

Grok-3在AIME 2025最新的数学基准测试的表现图源：xAI

在大模型竞技场LMSYS上，Grok-3早期版本（巧克力）在总榜上位列排名第一，也是首个评分突破1400分的模型，尤其在「编码」类别中，Grok-3超越了o1和Gemini-thinking等顶级推理模型。

Grok-3位列LMSYS第一图源：lmarena.ai

xAI现场演示了Grok-3的推理和创意编程能力，例如让Grok-3生成一段从地球发射、着陆火星再到返回地球的3D动画代码，还有涉及推理能力的升级版俄罗斯方块小游戏。

用Grok生成代码图源：xAI

这些模型核心能力升级也被马斯克融进了新的Grok应用中，以Agent形式集成了DeepSearch、Think和Big Brain三种模式，针对用户搜索场景，提供编程、数学等高阶能力。DeepSearch可以联网和扫描X来分析信息、提供查询和摘要，Big Brain则可以进行更多、更仔细的分布推理编程。

Grok具备 DeepSearch、Think和Big Brain三种模式图源：xAI

除此以外，马斯克还透露后续语音交互、多模态交互等新功能将上线，xAI还将成立一个AI游戏社区，马斯克此刻曾透露将开设AI游戏工作室。

Grok-3不会马上向所有用户开放，针对X的Premium+订阅用户就首先获解锁，在Grok独立的APP端也会推出会员服务「SuperGrok」——价格为每月30美元或每年300美元。

会员服务「SuperGrok」图源：xAI

今天早些时候获得Grok-3的早期使用权的前OpenAI联合创始人Anderj Karpathy表示Grok-3是拥有最先进的思考模型之一，性能与o1-pro相当，“我们需要实际的、真实的评估来观察。”他举了一个例子，他通过Grok-3 Think模式上传了GPT-2论文，在问了一堆简单的查找问题，要求其估计训练GPT-2所需的训练flops数量，这考验模型将查找、数学和知识相结合，根据他的测试结果，GPT-4o未能完成这项任务，o1 pro也失败了，但Grok-3 with Thinking 很好地解决了这个问题。

Anderj Karpathy的评价图源：@Anderj Karpathy

过去，Grok还给人留下的印象是，更幽默的，有意思的AI，直播中xAI也强调了这一点，但据Anderj Karpathy测试，模型的幽默感似乎没有明显改善，对「复杂的伦理问题」也过于敏感。

客观来看，作为后发者，xAI用不到一年时间推出Grok-3，再度印证了马斯克「大力出奇迹」的优势，但评估模型实际能力和落地依旧要看后续的产品功能情况。

二、马斯克的AI筹码

在全球大模型的竞逐中，马斯克寄希望于xAI走一条典型的「后发先至」路线。

在发布Grok-3前，xAI在过去两年之间内对Grok系列的旗舰模型进行了三次大迭代，在模型能力上，Grok系列在推理、阅读理解、数学、科学、写代码等方面都呈现出不错的表现。而在模型轻量化、多模态方向上，xAI也曾发布首个多模态模型Grok-1.5V和Grok-2mini，不断丰富其模型家族。

在产品交互形式和商业模式上，马斯克也一直针对Grok进行优化，在产品交互形式上，一方面更新界面、功能和产品组件。如将X的实时洞察和网络搜索结合，推出新的引文功能，提升回答的准确性。今年1月，不同于内嵌于X内部，xAI还宣布上线独立的iOS应用程序，并围绕体育、金融等场景推出新内容组件，提升用户内容体验。

而在商业模式上，通过免费和开放API，降低模型使用门槛，去年年底，xAI宣布 Grok-2模型对X平台用户免费开放（当然也有使用限制），同步推出了企业API公开测试版。「硅基研究室」查询发现，目前xAI提供Grok-2-1212和Grok-2-vision-1212两种模型调用，以Grok-2-1212为例，其API定价为2.00美元/百万输入、10美元/百万输出，同时xAI还推出了数据共享计划，为参与团队提供每月获得150美元的免费API积分。

xAI API定价图源：xAI

直播中，xAI称Grok-3模型将与DeepSearch功能一起出现在xAI的企业API 中，对于人们关注的开源问题上，当Grok-3成熟稳定时，可能在几个月内会开源Grok -2。

在大模型竞争、估值水涨船高的今天，坚信Grok和马斯克能突围的人，相信的是Grok自身的独特优势，即数据、卡、钱和「反OpenAI故事」。

首先，是数据。Grok与X高度绑定，是一个闭环的内容生态，高质量的数据和稳定的场景，这本身就是先天优势。马斯克多次强调，Grok通过合成数据，绕过了困扰其他AI模型的数据隐私和知识产权相关的法律挑战，同时确保用户的数据隐私安全。

其次，是卡，即算力。特斯拉和xAI储备了大量的英伟达H100系列芯片，马斯克此前曾质疑机构给将「Meta列为囤积全球最多的H100 GPU」的排行榜，指出「如果计算正确，特斯拉应该是第二名，xAI将是第三名」，他还用122天将一个家电厂房改造为集合10万张H100芯片的超级算力集群，就连英伟达创始人黄仁勋也忍不住感叹：“在如此短的时间里内完成，这简直是超人的成就”。

直播演示中，马斯克在Grok-3发布前，也率先展示他的最强数据集群，团队表示，他们在今年2月遇到很多问题，如冷却和能耗等，也浪费了很多算力，但最终还是以Grok-2的10倍算力资源，用六个月时间推出了Grok-3。

马斯克的数据集群图源：xAI

xAI也似乎不缺钱，据媒体报道，xAI正以750亿美元的估值筹集100亿美元，红杉资本、Andreessen Horowitz和Valor Equity Partners等现有投资者，均参与了此次谈判。

再者，还有「人」，xAI的团队核心成员曾在Google DeepMind、特斯拉、OpenAI和微软等公司工作。

出现在直播中的两位华人为Jimmy Ba和Yuhuai Wu 图源：xAI

最后，马斯克「反OpenAI」的故事也得到了不少人的拥趸。一直以来，马斯克的人工智能观就是反OpenAI而行，他频繁以政治中立、安全来强调xAI的不同。

三、Grok 野心能成吗？

不过，马斯克野心勃勃的计划背后，Grok也面临「内忧外患」。

首先，就Grok自身而言，一方面，就B端，企业API调用上，Grok目前还没有完备的服务企业的能力，而我们看到在服务企业上，用编码等能力吸引企业级客户，OpenAI和Anthropic均有更快的进展。据媒体此前报道，Anthropic从使用其模型进行软件开发和代码生成的客户那里获得的年化收入增长了10倍。另一方面在C端，目前Grok和X的集成度还不够多，特别是尚未上线的语音、视频等功能。

有业内人士产生的困惑是，在OpenAI已集成了语音、视频等功能下，包括豆包在内的中国公司也做得不错，Grok还能在这方面和X联合作出哪些新的创意？“如果只是一个TTS（文本转语音技术），那不会有改变”。（虽然直播中，xAI说不会是TTS）。

其次，在外部，在DeepSeek等中国模型公司的冲击下，更激烈的竞争已经开启，OpenAI已发布GPT-4.5和GPT-5路线图，Anthropic也宣布将推出Claude 4 系列。

某种程度上，在AI上的探索和尝试反映出的是马斯克从一而终的「竞争观」——用令人惊讶的时间表，推着团队不顾一切的前进，从而逼近自己的预期目标，这在特斯拉、SpaceX身上都有过验证。

在社交媒体上，人们大多对马斯克的尝试表示兴奋，这也发生在DeepSeek所掀起的浪潮中——一位人工智能创业者这样写：“新的LLM比赛已经火爆起来了，一周后谁会赢？”

转载请注明来自创新模拟，本文标题：《拿20万块GPU，马斯克上演“AI复仇记”》

艺都花坊 79篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！