要聞

馬斯克用20萬張GPU“砸出”地表最強AI？每經記者實測Grok 3：速度稱王，數學亮眼，但邏輯思考不敵DeepSeek R1

每日經濟新聞 2025-02-23 14:57:06

近(jin)日，馬斯克(ke)旗下人工智能(neng)(neng)公司(si)xAI發(fa)布了最(zui)(zui)新(xin)一代AI模(mo)型(xing)Grok 3，并宣(xuan)稱其為(wei)“地球上最(zui)(zui)聰明(ming)的人工智能(neng)(neng)”。xAI在發(fa)布后(hou)48小時內免(mian)費(fei)開(kai)放(fang)Grok 3供用(yong)(yong)戶試用(yong)(yong)。然而，一些用(yong)(yong)戶體驗(yan)后(hou)質疑其能(neng)(neng)力(li)，OpenAI應(ying)用(yong)(yong)研(yan)究主管Boris Power也指責xAI存在作弊嫌疑。真相(xiang)如何(he)？每經記者進行了實測(ce)。

每經記者｜岳楚(chu)鵬每經編輯｜高涵

近日，人(ren)工(gong)智能初(chu)創公(gong)司(si)xAI發布(bu)了更新版Grok 3大模型，埃隆·馬斯(si)克稱之為“地球上最聰明的(de)人(ren)工(gong)智能”。

根據官(guan)方公開的測試(shi)結果，Grok 3在(zai)包括(kuo)AIME（評估模(mo)型在(zai)一系(xi)列數學(xue)問題上的表現）和(he) GPQA（評估模(mo)型在(zai)博士級別的物理(li)學(xue)、生物學(xue)和(he)化學(xue)問題上的表現）等基準測試(shi)中，遠超GPT-4o、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 等大模(mo)型。

在大模型競技場(chang) Chatbot Arena（LMSYS）測試中，xAI工(gong)程師表示，早期(qi)版(ban)本(ben)的Grok 3獲得了第一的成績，達到了140分，超越了Gemini 2.0 Flash Thinking實驗版(ban)本(ben)、ChatGPT-4o最(zui)新版(ban)本(ben)，以及最(zui)近大火的DeepSeek R1等等。

然而，有些用戶在體驗后卻(que)對(dui)Grok 3的(de)能力產生了質疑，他們認為(wei)Grok 3的(de)能力并沒有馬斯克宣稱(cheng)的(de)那么強(qiang)大。OpenAI應用研究主管Boris Power則對(dui)Grok團隊在模型(xing)評(ping)估(gu)中的(de)行為(wei)表示失望(wang)，指出(chu)其存在作弊和欺騙的(de)動(dong)機。Boris Power提到(dao)，o3-mini在各項評(ping)估(gu)中均(jun)優(you)于Grok 3。

真相到底如何，馬斯克吹牛了嗎？《每日經濟新聞》記者測試發現，Grok 3確實是世界頂級模型的水平，但并沒有和其他模型拉開太大差距。唯一拉開差距的是它極快的響應速度。

9.9和9.11誰大？Grok 3輕松拿下

Grok 3是由馬(ma)斯克旗下的人工智能(neng)(neng)公(gong)司xAI發布(bu)的最(zui)新一代AI模型。馬(ma)斯克在發布(bu)會上稱其為“地球上最(zui)聰(cong)明(ming)的人工智能(neng)(neng)”，并表示(shi)Grok 3的能(neng)(neng)力比前代產品Grok 2高出(chu)一個數量級(ji)，具備更(geng)強的推理、計算和(he)適應能(neng)(neng)力。

在新聞發(fa)布會上，馬斯克宣(xuan)稱Grok 3在數學、科(ke)學和編(bian)程等基準測試中(zhong)表現出色(se)，超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等競爭(zheng)對手。

Grok 3在發布后僅48小時內，xAI宣布將其免費開放給所有用戶，直至服務器負載達到極限。目前用戶每天可以體驗十條“思考模式”Grok 3，及不限量免費使用普通Grok 3。

《每日經濟新聞》記者在Grok 3發布(bu)后也親(qin)自進行了測試(shi)。

首先，從最經典的基礎問題開始：9.9和9.11誰大？

Grok 3

這個問題毫無難度，Grok 3輕松拿下(xia)。

邏輯思考和文字理解能力：Grok 3不如DeepSeek-R1

馬(ma)斯克在(zai)發布會(hui)上自(zi)豪的(de)(de)(de)一(yi)(yi)點是，Grok 3“思考(kao)模(mo)型”下的(de)(de)(de)邏輯(ji)推理能力，他聲稱，Grok 3 (Think) 學會(hui)了改進(jin)其解(jie)決(jue)問題的(de)(de)(de)策略，通(tong)過(guo)回溯糾正錯誤，簡化步驟，并利用其在(zai)預訓練期間(jian)獲得的(de)(de)(de)知識。就像人類在(zai)解(jie)決(jue)復雜問題時一(yi)(yi)樣，Grok 3 (Think) 可以花費幾秒(miao)鐘到幾分鐘的(de)(de)(de)時間(jian)進(jin)行推理，通(tong)常會(hui)考(kao)慮(lv)多種方(fang)法，驗證自(zi)己(ji)的(de)(de)(de)解(jie)決(jue)方(fang)案，并評估如何精確滿足問題的(de)(de)(de)要(yao)求。

每(mei)經記者(zhe)用弱智吧的問題來檢驗一(yi)下它的邏輯是(shi)不是(shi)真的過關。

（編者注：“弱智吧”是百度貼吧的一個子論壇。在這個論壇中，用戶經常發布包含雙關語、多義詞、因果倒置和諧音詞等具有挑戰性的內容，很多內容設計有邏輯陷阱，即使對人類來說也頗具挑戰。）

第一個問題：用水來兌水，得到的是濃水還是稀水？

Grok 3

Grok 3成(cheng)功(gong)答對了(le)問題(ti)(ti)，并且還指出，這是一(yi)個(ge)文(wen)字游戲。而OpenAI的(de)(de)o1就在(zai)這道題(ti)(ti)上(shang)敗(bai)下了(le)陣來，認為(wei)水(shui)(shui)兌(dui)水(shui)(shui)后(hou)得到的(de)(de)是稀水(shui)(shui)。

OpenAI o1

當(dang)然除(chu)了(le)o1，其他(ta)大(da)模(mo)型諸如Gemini和R1都答對了(le)這道問題。所以這并(bing)不(bu)足(zu)以證明(ming)，Grok的(de)推理模(mo)式(shi)就是(shi)第(di)一的(de)水平，還得加(jia)大(da)難度。

下一題：未來的某天，李同學在實驗室制作神秘材料時，意外發現實驗室的老鼠在空中飛，分析發現，是因為老鼠不小心吃了神秘材料。第二天，李同學又發現實驗室的蛇也在空中飛，分析發現，是因為蛇吃了老鼠。第三天，李同學又發現實驗室的老鷹也在空中飛，你認為原因是什么？

Grok 3

很可惜，這道題Grok 3沒有答對，它在思維鏈里(li)面(mian)已經想到了老(lao)鷹(ying)本身(shen)就會飛的可能性，但是，沒有在最后的輸出結果里(li)體現(xian)出來。

Grok 3思考(kao)過程

其他大模型中，只有DeepSeek R1成功答對了問題，且考慮了兩種情況。

DeepSeek R1

之后，每經記者還進行了多次類似弱智吧問題的測試，發現Grok 3對中文的理解和邏輯推理能力確實明顯高于其他國外模型，但還是不如DeepSeek的R1模型。

數學能力：Grok 3最好，但未拉開明顯差距

既然(ran)邏輯思考無(wu)法奪(duo)魁，那么在基(ji)準測(ce)試里(li)的分最高(gao)的數學項(xiang)目，Grok 3能(neng)不(bu)能(neng)扳(ban)回一城呢？

題目如下：

三個人打臺球，兩人對局一人觀戰，輸的人下場換觀戰的人上場，如此往復，最終，A輸了6局，B輸了8局，C輸了10局，問各贏多少局？

這道題只(zhi)有Grok 3和OpenAI的o1答對。不過，Grok 3只(zhi)用(yong)了1分15秒就得出了答案，o1使用(yong)了2分53秒。

Grok 3

再進(jin)一(yi)步(bu)加大難度，看(kan)看(kan)能不能分出高(gao)下。下面(mian)是一(yi)道群(qun)論問題(ti)：有(you)幾個階(jie)為(wei)147的非同構(gou)群(qun)。

在這個問題上，Grok 3雖然答對了具體的數量，6個，但是中間的具體群卻錯了一個。而其他模型只找到了5個正確的非同構群。這意味著，在數學能力方面，Grok 3確實是最好，但是好得有限，并沒有與其他同等級模型拉開顯著差距。

Grok 3

編程能力：Grok 3險勝o1

針對編程能力，《每日經濟新聞》記(ji)者(zhe)借用了Kcores聯合(he)創始人karminski-牙醫的測評結果。

karminski-牙醫復現了馬斯克在發布會上對于火(huo)星發射計劃的代碼模擬(ni)，并對多個(ge)模型進(jin)行了測試比較。

圖片來(lai)源(yuan)：karminski-牙醫(yi)

在這次測試中，表現最好的是Grok 3的推理模型（思考模式），雖然在最后著陸時，動畫火箭沒有與火星重疊，但軌道需求計算得很好。但是他始終沒有復現出馬斯克在發布會時所展現的那么完美的軌道計算和動畫。Grok 3最后綜合得分排在了第一名，再之后是OpenAI的o1，兩者的綜合得分差距不大。

圖片來源：karminski-牙醫(yi)

結合所有測試來看，Grok 3確實是世界頂尖的AI模型，不愧于20萬張GPU的身價。但是，實際測試效果并沒有馬斯克在發布會上展示得那么夸張，馬斯克所說的世界上最“聰明”的模型，可能還值得商榷。

在實測中，《每日經濟新聞》記者發現，Grok 3模型能力并沒有像基準測試得分那樣遠遠甩開對手一大截，唯一甩開競爭對手的一點是它的響應速度，它得出結果的速度相較于其他同等級的大模型來說是最快的，并且遠超對手。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞(wen)》報社(she)授權，嚴(yan)禁轉載或鏡(jing)像，違者必究(jiu)。

讀(du)者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作(zuo)品出現(xian)在本站，可聯系我們要(yao)求撤下您的作(zuo)品。

Grok 3 模型 GPU 馬斯克

上一篇文章

天風證券給予四川路橋(qiao)買入評級(ji)，規劃(hua)現金(jin)分紅比例不低于60%，關注中長期高股息投資價值

返回每經網首頁

下一篇文章

德國新一屆聯(lian)邦議院選舉正式開始投票

熱文精選

點擊排行

歡(huan)迎關(guan)注每日經(jing)濟新聞APP

男欢女爱销魂蚀骨免费阅读,性欧美丰满熟妇XXXX性久久久,适合单身男人看的影片,www天堂无人区在线观看,悟空影视免费高清

馬斯克用20萬張GPU“砸出”地表最強AI？每經記者實測Grok 3：速度稱王，數學亮眼，但邏輯思考不敵DeepSeek R1

9.9和9.11誰大？Grok 3輕松拿下

邏輯思考和文字理解能力：Grok 3不如DeepSeek-R1

數學能力：Grok 3最好，但未拉開明顯差距

編程能力：Grok 3險勝o1