今日報紙

每經記者實測馬斯克“地表最強AI”Grok 3：速度稱王，數學亮眼，但邏輯能力不敵DeepSeek

每日經濟新聞 2025-02-25 22:36:18

每經記(ji)者｜岳楚鵬每經編(bian)輯(ji)｜高(gao)涵  

近日，人(ren)工智(zhi)(zhi)能(neng)初(chu)創公(gong)司(si)xAI（馬斯(si)克成立的人(ren)工智(zhi)(zhi)能(neng)公(gong)司(si)）發布了更新版(ban)Grok 3（模型名）大模型，埃(ai)隆·馬斯(si)克稱之為“地(di)球上最聰明的人(ren)工智(zhi)(zhi)能(neng)”。

根據官(guan)方公開(kai)的測試結果，Grok 3在包括AIME（美國數(shu)學(xue)邀請賽）和(he) GPQA（研究生(sheng)水平(ping)的專家推(tui)理(li)）等基準測試中，表現遠超GPT-4o（模型(xing)名）、Gemini-2Pro（模型(xing)名）、DeepSeek V3（模型(xing)名）、Claude 3.5 Sonnet（模型(xing)名）等。

在大模(mo)(mo)型(xing)競技場Chatbot Arena（一個(ge)通過人類評估人工(gong)智能的(de)開源平臺）測試中，xAI工(gong)程師表示，早(zao)期版(ban)本(ben)的(de)Grok 3獲得(de)了第(di)一的(de)成績，達到(dao)了140分，超(chao)越了Gemini 2.0 Flash Thinking（模(mo)(mo)型(xing)名）實驗版(ban)本(ben)、GPT-4o最新版(ban)本(ben)以(yi)及最近大火(huo)的(de)DeepSeek-R1（模(mo)(mo)型(xing)名，以(yi)下簡稱R1）等。

然(ran)而(er)，有些用戶在(zai)(zai)(zai)(zai)體驗后卻對(dui)Grok 3的(de)能(neng)力產生了質疑(yi)，他(ta)們認為Grok 3的(de)能(neng)力并沒有馬斯克宣稱的(de)那么強大。OpenAI（一家開放(fang)人工智(zhi)能(neng)研(yan)究和部署公司）應用研(yan)究主(zhu)管Boris Power（人名）則對(dui)Grok團隊(dui)在(zai)(zai)(zai)(zai)模型評(ping)估(gu)中的(de)行(xing)為表示失望(wang)，指(zhi)出其存(cun)在(zai)(zai)(zai)(zai)作(zuo)弊和欺騙動機(ji)。Boris Power提到，o3mini（模型名）在(zai)(zai)(zai)(zai)各(ge)項評(ping)估(gu)中均優于Grok 3。

真(zhen)相到(dao)底如何，馬斯克吹牛(niu)了嗎？《每(mei)日經濟新聞》記者(zhe)測試(shi)發現(xian)，Grok 3確實是世界頂(ding)級(ji)模型，但并(bing)沒有和(he)其他模型拉開(kai)太大差(cha)(cha)距，唯一拉開(kai)差(cha)(cha)距的(de)是它極快(kuai)的(de)響應速度。

輕松拿下數字比大小

Grok 3是由馬斯克(ke)旗(qi)下的人(ren)工智能(neng)公司xAI發布的最(zui)新一代AI（人(ren)工智能(neng)）模型。馬斯克(ke)在發布會(hui)上稱其為“地(di)球(qiu)上最(zui)聰明的人(ren)工智能(neng)”，并表示(shi)Grok 3的能(neng)力(li)比前代產品(pin)Grok 2高出一個(ge)數量級，具備更強的推理、計算和適(shi)應(ying)能(neng)力(li)。

在(zai)新聞(wen)發布會上(shang)，馬斯克宣稱Grok 3在(zai)數學、科學和(he)編程等基準(zhun)測試中表現出(chu)色，超越了谷(gu)歌的(de)(de)Gemini、DeepSeek的(de)(de)V3模型、Anthropic（一家美國人(ren)工智能企(qi)業(ye)）的(de)(de)Claude（模型名）和(he)OpenAI的(de)(de)GPT-4o等競爭(zheng)對手。

Grok 3在發布后僅48小時內，xAI宣布將其免(mian)費(fei)開放(fang)給所有(you)用戶，直(zhi)至服務(wu)器負(fu)載達到極限(xian)。目前(qian)用戶每天可以體驗十條“思(si)考(kao)模(mo)式”Grok 3及不限(xian)量免(mian)費(fei)普通Grok 3。

《每(mei)日經濟新聞》記(ji)者在Grok 3發布(bu)后也(ye)親自進(jin)行了測(ce)試，看看Grok 3是否真有馬(ma)斯克宣傳的(de)那么厲害。

首先，從最經典的(de)基礎問題開始(shi)：9.9和9.11誰(shui)大？

這(zhe)個問(wen)題(ti)毫無難度，Grok 3輕松拿下。

邏輯思考能力并不突出

馬斯克在(zai)發布(bu)會(hui)(hui)上自(zi)豪的(de)一點是(shi)，Grok 3“思考(kao)模(mo)型”下的(de)邏輯推理能力。他(ta)聲稱(cheng)，Grok 3（思考(kao)模(mo)式(shi)）學會(hui)(hui)了改進(jin)(jin)其(qi)解(jie)決問(wen)(wen)題的(de)策略，通過回溯糾(jiu)正錯誤，簡(jian)化步驟，并利用其(qi)在(zai)預訓練期(qi)間(jian)獲得的(de)知(zhi)識。就像(xiang)人類在(zai)解(jie)決復雜(za)問(wen)(wen)題時一樣，Grok 3（思考(kao)模(mo)式(shi)）可(ke)以花費幾秒(miao)鐘到(dao)幾分鐘的(de)時間(jian)進(jin)(jin)行(xing)推理，通常(chang)會(hui)(hui)考(kao)慮多(duo)種(zhong)方法，驗證自(zi)己的(de)解(jie)決方案，并評估如何精確滿足問(wen)(wen)題的(de)要求。

記者用弱(ruo)智吧的(de)(de)(de)問題來檢驗一(yi)下(xia)它的(de)(de)(de)邏(luo)輯是(shi)不(bu)是(shi)真的(de)(de)(de)過關(guan)。“弱(ruo)智吧”是(shi)百度貼吧的(de)(de)(de)一(yi)個子(zi)論壇。在這個論壇中，用戶經常發(fa)布包含雙(shuang)關(guan)語、多義詞、因(yin)果(guo)倒置和(he)諧音詞等具有(you)挑(tiao)戰(zhan)性(xing)的(de)(de)(de)內(nei)容，很多內(nei)容設(she)計有(you)邏(luo)輯陷阱(jing)，即使對人類來說也頗具挑(tiao)戰(zhan)。

第一個問題：用水來兌水，得(de)到的是濃水還是稀水？

Grok 3答(da)對了(le)(le)(le)問(wen)題，并且還(huan)指出這是一個文(wen)字游(you)戲。而OpenAI的(de)o1就(jiu)在(zai)這道(dao)題上敗(bai)下陣來(lai)，認為水(shui)兌水(shui)后得到的(de)是稀水(shui)。當然除了(le)(le)(le)o1，其(qi)他大模型諸如Gemini和(he)R1都答(da)對了(le)(le)(le)這道(dao)問(wen)題。所以這并不足以證明Grok的(de)推理模式就(jiu)是第一的(de)水(shui)平(ping)，還(huan)得加大難度。

下(xia)一題(ti)：未來的某天(tian)，李同學(xue)在(zai)(zai)實驗(yan)(yan)室(shi)(shi)制作神秘材料(liao)時，意(yi)外發現(xian)(xian)實驗(yan)(yan)室(shi)(shi)的老鼠(shu)在(zai)(zai)空(kong)(kong)中飛(fei)。分析發現(xian)(xian)，是(shi)因為(wei)老鼠(shu)不小(xiao)心吃(chi)了神秘材料(liao)。第二天(tian)，李同學(xue)又發現(xian)(xian)實驗(yan)(yan)室(shi)(shi)的蛇也(ye)在(zai)(zai)空(kong)(kong)中飛(fei)，分析發現(xian)(xian)，是(shi)因為(wei)蛇吃(chi)了老鼠(shu)。第三天(tian)，李同學(xue)又發現(xian)(xian)實驗(yan)(yan)室(shi)(shi)的老鷹(ying)也(ye)在(zai)(zai)空(kong)(kong)中飛(fei)，你認為(wei)原因是(shi)什么？

很可惜，這道題(ti)Grok 3沒(mei)有(you)答(da)對，它在(zai)思維鏈里(li)面已經想(xiang)到(dao)了老鷹本身就會飛的(de)可能性，但是沒(mei)有(you)在(zai)最后(hou)的(de)輸出結果(guo)里(li)體現出來。其他大模型里(li)只(zhi)有(you)R1成功(gong)答(da)對了問題(ti)，且考慮了兩種情況(kuang)。

記者還(huan)進行(xing)了多次類似問題的測試，發(fa)現Grok 3對(dui)中文(wen)的理解和邏輯(ji)推(tui)理能力確實明顯高于(yu)其他國外(wai)模型，但還(huan)是不如R1。

數學能力未拉開差距

既(ji)然邏輯思考(kao)無法奪魁，那么(me)在基(ji)準(zhun)測試(shi)里(li)分最高的(de)數學(xue)項目，Grok 3能(neng)不能(neng)扳回一局(ju)呢？

題目如下：三個(ge)人打臺球，兩人對局(ju)(ju)(ju)(ju)(ju)一人觀戰(zhan)，輸的人下場(chang)換觀戰(zhan)的人上場(chang)，如此往復，最終，A輸了(le)6局(ju)(ju)(ju)(ju)(ju)，B輸了(le)8局(ju)(ju)(ju)(ju)(ju)，C輸了(le)10局(ju)(ju)(ju)(ju)(ju)，問各贏(ying)多(duo)少局(ju)(ju)(ju)(ju)(ju)？

這道題(ti)只有Grok 3和OpenAI的o1答(da)對。不過，Grok 3只用(yong)了(le)1分(fen)(fen)15秒就得出了(le)答(da)案(an)，o1使用(yong)了(le)2分(fen)(fen)53秒。

再進一(yi)(yi)步加大難度看看能(neng)不能(neng)分出高下。下面(mian)是一(yi)(yi)道群(qun)論問題(ti)：有(you)幾個階為147的非(fei)同(tong)構(gou)群(qun)。

在這(zhe)個(ge)(ge)問題(ti)上，Grok 3雖然答(da)對(dui)了具體的數量6個(ge)(ge)，但(dan)是中(zhong)間的具體群卻錯了一個(ge)(ge)。而(er)其他模(mo)型(xing)(xing)只找到了5個(ge)(ge)正確(que)的非同(tong)構群。這(zhe)意味著(zhu)，在數學能力(li)方面(mian)，Grok 3確(que)實是最好的，但(dan)是好得有限，并沒(mei)有與(yu)其他同(tong)等級(ji)模(mo)型(xing)(xing)拉開(kai)顯著(zhu)差(cha)距。

編程能力險勝o1

針對編程(cheng)能力(li)，《每(mei)日經(jing)濟新聞》記者(zhe)借用了Kcores（公司(si)名(ming)）聯合創始人karminski-牙醫（網名(ming)）的測(ce)評結果。

karminski-牙醫(yi)復現(xian)了馬(ma)斯克在發布會(hui)上對(dui)于火星發射計劃的代(dai)碼模擬，并測(ce)試了多(duo)個(ge)模型進(jin)行比(bi)較。

在這次測試中，表現最(zui)好的是(shi)Grok 3的推理模型（思考模式(shi)），雖然在最(zui)后著陸時，動畫火箭沒(mei)(mei)有與火星重疊，但軌道(dao)需求計算得很好。但是(shi)始終沒(mei)(mei)有復現出馬斯(si)克(ke)在發布會時所展現的那么完美的軌道(dao)計算和(he)動畫。Grok 3最(zui)后綜合得分排在了第一，再之(zhi)后是(shi)OpenAI的o1，兩者(zhe)的綜合得分差距不大。

結合(he)所有(you)測試來看，Grok 3確(que)實(shi)是(shi)世界頂尖(jian)的AI模型(xing)，不愧于20萬張GPU（圖形處理器(qi)）的身價。但是(shi)，實(shi)際測試效果并沒(mei)有(you)馬斯克(ke)在(zai)發布會上(shang)展示(shi)的那么夸張，馬斯克(ke)所說的世界上(shang)最“聰明”的模型(xing)，可(ke)能還值得商榷。

在實測中(zhong)，《每(mei)日經濟新聞》記(ji)者發(fa)現，Grok 3模型能力并(bing)沒(mei)有(you)像基準(zhun)測試得分那樣遠(yuan)(yuan)遠(yuan)(yuan)甩開(kai)(kai)對手一大(da)截，唯一甩開(kai)(kai)競爭對手的(de)一點是它(ta)的(de)響應速度(du)(du)，它(ta)得出結(jie)果的(de)速度(du)(du)相較于其他同等(deng)級的(de)大(da)模型來說(shuo)是最快的(de)。

如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟新(xin)聞(wen)》報社授權(quan)，嚴禁(jin)轉載或鏡(jing)像，違者必究。

讀者熱線：4008890008

特(te)別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您(nin)不希望(wang)作品出現在本(ben)站，可聯系我們(men)要求撤(che)下您(nin)的作品。

Grok 3 模(mo)型馬(ma)斯克 Ai

上一篇文章

美(mei)股(gu)三(san)大指數開盤漲(zhang)跌(die)不一(yi) 納(na)斯達(da)克中國金(jin)龍指數漲(zhang)0.56%

返回每經網首頁

下一篇文章

海(hai)南出(chu)臺創新容錯機(ji)制(zhi)，為科技創新“松綁”