每日經濟新聞 2025-02-25 22:36:18
每經記(ji)者|岳楚鵬 每經編(bian)輯(ji)|高(gao)涵
近日,人(ren)工智(zhi)(zhi)能(neng)初(chu)創公(gong)司(si)xAI(馬斯(si)克成立的人(ren)工智(zhi)(zhi)能(neng)公(gong)司(si))發布了更新版(ban)Grok 3(模型名)大模型,埃(ai)隆·馬斯(si)克稱之為“地(di)球上最聰明的人(ren)工智(zhi)(zhi)能(neng)”。
根據官(guan)方公開(kai)的測試結果,Grok 3在包括AIME(美國數(shu)學(xue)邀請賽)和(he) GPQA(研究生(sheng)水平(ping)的專家推(tui)理(li))等基準測試中,表現遠超GPT-4o(模型(xing)名)、Gemini-2Pro(模型(xing)名)、DeepSeek V3(模型(xing)名)、Claude 3.5 Sonnet(模型(xing)名)等。
在大模(mo)(mo)型(xing)競技場Chatbot Arena(一個(ge)通過人類評估人工(gong)智能的(de)開源平臺)測試中,xAI工(gong)程師表示,早(zao)期版(ban)本(ben)的(de)Grok 3獲得(de)了第(di)一的(de)成績,達到(dao)了140分,超(chao)越了Gemini 2.0 Flash Thinking(模(mo)(mo)型(xing)名)實驗版(ban)本(ben)、GPT-4o最新版(ban)本(ben)以(yi)及最近大火(huo)的(de)DeepSeek-R1(模(mo)(mo)型(xing)名,以(yi)下簡稱R1)等。
然(ran)而(er),有些用戶在(zai)(zai)(zai)(zai)體驗后卻對(dui)Grok 3的(de)能(neng)力產生了質疑(yi),他(ta)們認為Grok 3的(de)能(neng)力并沒有馬斯克宣稱的(de)那么強大。OpenAI(一家開放(fang)人工智(zhi)能(neng)研(yan)究和部署公司)應用研(yan)究主(zhu)管Boris Power(人名)則對(dui)Grok團隊(dui)在(zai)(zai)(zai)(zai)模型評(ping)估(gu)中的(de)行(xing)為表示失望(wang),指(zhi)出其存(cun)在(zai)(zai)(zai)(zai)作(zuo)弊和欺騙動機(ji)。Boris Power提到,o3mini(模型名)在(zai)(zai)(zai)(zai)各(ge)項評(ping)估(gu)中均優于Grok 3。
真(zhen)相到(dao)底如何,馬斯克吹牛(niu)了嗎?《每(mei)日經濟新聞》記者(zhe)測試(shi)發現(xian),Grok 3確實是世界頂(ding)級(ji)模型,但并(bing)沒有和(he)其他模型拉開(kai)太大差(cha)(cha)距,唯一拉開(kai)差(cha)(cha)距的(de)是它極快(kuai)的(de)響應速度。
輕松拿下數字比大小
Grok 3是由馬斯克(ke)旗(qi)下的人(ren)工智能(neng)公司xAI發布的最(zui)新一代AI(人(ren)工智能(neng))模型。馬斯克(ke)在發布會(hui)上稱其為“地(di)球(qiu)上最(zui)聰明的人(ren)工智能(neng)”,并表示(shi)Grok 3的能(neng)力(li)比前代產品(pin)Grok 2高出一個(ge)數量級,具備更強的推理、計算和適(shi)應(ying)能(neng)力(li)。
在(zai)新聞(wen)發布會上(shang),馬斯克宣稱Grok 3在(zai)數學、科學和(he)編程等基準(zhun)測試中表現出(chu)色,超越了谷(gu)歌的(de)(de)Gemini、DeepSeek的(de)(de)V3模型、Anthropic(一家美國人(ren)工智能企(qi)業(ye))的(de)(de)Claude(模型名)和(he)OpenAI的(de)(de)GPT-4o等競爭(zheng)對手。
Grok 3在發布后僅48小時內,xAI宣布將其免(mian)費(fei)開放(fang)給所有(you)用戶,直(zhi)至服務(wu)器負(fu)載達到極限(xian)。目前(qian)用戶每天可以體驗十條“思(si)考(kao)模(mo)式”Grok 3及不限(xian)量免(mian)費(fei)普通Grok 3。
《每(mei)日經濟新聞》記(ji)者在Grok 3發布(bu)后也(ye)親自進(jin)行了測(ce)試,看看Grok 3是否真有馬(ma)斯克宣傳的(de)那么厲害。
首先,從最經典的(de)基礎問題開始(shi):9.9和9.11誰(shui)大?
這(zhe)個問(wen)題(ti)毫無難度,Grok 3輕松拿下。
邏輯思考能力并不突出
馬斯克在(zai)發布(bu)會(hui)(hui)上自(zi)豪的(de)一點是(shi),Grok 3“思考(kao)模(mo)型”下的(de)邏輯推理能力。他(ta)聲稱(cheng),Grok 3(思考(kao)模(mo)式(shi))學會(hui)(hui)了改進(jin)(jin)其(qi)解(jie)決問(wen)(wen)題的(de)策略,通過回溯糾(jiu)正錯誤,簡(jian)化步驟,并利用其(qi)在(zai)預訓練期(qi)間(jian)獲得的(de)知(zhi)識。就像(xiang)人類在(zai)解(jie)決復雜(za)問(wen)(wen)題時一樣,Grok 3(思考(kao)模(mo)式(shi))可(ke)以花費幾秒(miao)鐘到(dao)幾分鐘的(de)時間(jian)進(jin)(jin)行(xing)推理,通常(chang)會(hui)(hui)考(kao)慮多(duo)種(zhong)方法,驗證自(zi)己的(de)解(jie)決方案,并評估如何精確滿足問(wen)(wen)題的(de)要求。
記者用弱(ruo)智吧的(de)(de)(de)問題來檢驗一(yi)下(xia)它的(de)(de)(de)邏(luo)輯是(shi)不(bu)是(shi)真的(de)(de)(de)過關(guan)。“弱(ruo)智吧”是(shi)百度貼吧的(de)(de)(de)一(yi)個子(zi)論壇。在這個論壇中,用戶經常發(fa)布包含雙(shuang)關(guan)語、多義詞、因(yin)果(guo)倒置和(he)諧音詞等具有(you)挑(tiao)戰(zhan)性(xing)的(de)(de)(de)內(nei)容,很多內(nei)容設(she)計有(you)邏(luo)輯陷阱(jing),即使對人類來說也頗具挑(tiao)戰(zhan)。
第一個問題:用水來兌水,得(de)到的是濃水還是稀水?
Grok 3答(da)對了(le)(le)(le)問(wen)題,并且還(huan)指出這是一個文(wen)字游(you)戲。而OpenAI的(de)o1就(jiu)在(zai)這道(dao)題上敗(bai)下陣來(lai),認為水(shui)兌水(shui)后得到的(de)是稀水(shui)。當然除了(le)(le)(le)o1,其(qi)他大模型諸如Gemini和(he)R1都答(da)對了(le)(le)(le)這道(dao)問(wen)題。所以這并不足以證明Grok的(de)推理模式就(jiu)是第一的(de)水(shui)平(ping),還(huan)得加大難度。
下(xia)一題(ti):未來的某天(tian),李同學(xue)在(zai)(zai)實驗(yan)(yan)室(shi)(shi)制作神秘材料(liao)時,意(yi)外發現(xian)(xian)實驗(yan)(yan)室(shi)(shi)的老鼠(shu)在(zai)(zai)空(kong)(kong)中飛(fei)。分析發現(xian)(xian),是(shi)因為(wei)老鼠(shu)不小(xiao)心吃(chi)了神秘材料(liao)。第二天(tian),李同學(xue)又發現(xian)(xian)實驗(yan)(yan)室(shi)(shi)的蛇也(ye)在(zai)(zai)空(kong)(kong)中飛(fei),分析發現(xian)(xian),是(shi)因為(wei)蛇吃(chi)了老鼠(shu)。第三天(tian),李同學(xue)又發現(xian)(xian)實驗(yan)(yan)室(shi)(shi)的老鷹(ying)也(ye)在(zai)(zai)空(kong)(kong)中飛(fei),你認為(wei)原因是(shi)什么?
很可惜,這道題(ti)Grok 3沒(mei)有(you)答(da)對,它在(zai)思維鏈里(li)面已經想(xiang)到(dao)了老鷹本身就會飛的(de)可能性,但是沒(mei)有(you)在(zai)最后(hou)的(de)輸出結果(guo)里(li)體現出來。其他大模型里(li)只(zhi)有(you)R1成功(gong)答(da)對了問題(ti),且考慮了兩種情況(kuang)。
記者還(huan)進行(xing)了多次類似問題的測試,發(fa)現Grok 3對(dui)中文(wen)的理解和邏輯(ji)推(tui)理能力確實明顯高于(yu)其他國外(wai)模型,但還(huan)是不如R1。
數學能力未拉開差距
既(ji)然邏輯思考(kao)無法奪魁,那么(me)在基(ji)準(zhun)測試(shi)里(li)分最高的(de)數學(xue)項目,Grok 3能(neng)不能(neng)扳回一局(ju)呢?
題目如下:三個(ge)人打臺球,兩人對局(ju)(ju)(ju)(ju)(ju)一人觀戰(zhan),輸的人下場(chang)換觀戰(zhan)的人上場(chang),如此往復,最終,A輸了(le)6局(ju)(ju)(ju)(ju)(ju),B輸了(le)8局(ju)(ju)(ju)(ju)(ju),C輸了(le)10局(ju)(ju)(ju)(ju)(ju),問各贏(ying)多(duo)少局(ju)(ju)(ju)(ju)(ju)?
這道題(ti)只有Grok 3和OpenAI的o1答(da)對。不過,Grok 3只用(yong)了(le)1分(fen)(fen)15秒就得出了(le)答(da)案(an),o1使用(yong)了(le)2分(fen)(fen)53秒。
再進一(yi)(yi)步加大難度看看能(neng)不能(neng)分出高下。下面(mian)是一(yi)(yi)道群(qun)論問題(ti):有(you)幾個階為147的非(fei)同(tong)構(gou)群(qun)。
在這(zhe)個(ge)(ge)問題(ti)上,Grok 3雖然答(da)對(dui)了具體的數量6個(ge)(ge),但(dan)是中(zhong)間的具體群卻錯了一個(ge)(ge)。而(er)其他模(mo)型(xing)(xing)只找到了5個(ge)(ge)正確(que)的非同(tong)構群。這(zhe)意味著(zhu),在數學能力(li)方面(mian),Grok 3確(que)實是最好的,但(dan)是好得有限,并沒(mei)有與(yu)其他同(tong)等級(ji)模(mo)型(xing)(xing)拉開(kai)顯著(zhu)差(cha)距。
編程能力險勝o1
針對編程(cheng)能力(li),《每(mei)日經(jing)濟新聞》記者(zhe)借用了Kcores(公司(si)名(ming))聯合創始人karminski-牙醫(網名(ming))的測(ce)評結果。
karminski-牙醫(yi)復現(xian)了馬(ma)斯克在發布會(hui)上對(dui)于火星發射計劃的代(dai)碼模擬,并測(ce)試了多(duo)個(ge)模型進(jin)行比(bi)較。
在這次測試中,表現最(zui)好的是(shi)Grok 3的推理模型(思考模式(shi)),雖然在最(zui)后著陸時,動畫火箭沒(mei)(mei)有與火星重疊,但軌道(dao)需求計算得很好。但是(shi)始終沒(mei)(mei)有復現出馬斯(si)克(ke)在發布會時所展現的那么完美的軌道(dao)計算和(he)動畫。Grok 3最(zui)后綜合得分排在了第一,再之(zhi)后是(shi)OpenAI的o1,兩者(zhe)的綜合得分差距不大。
結合(he)所有(you)測試來看,Grok 3確(que)實(shi)是(shi)世界頂尖(jian)的AI模型(xing),不愧于20萬張GPU(圖形處理器(qi))的身價。但是(shi),實(shi)際測試效果并沒(mei)有(you)馬斯克(ke)在(zai)發布會上(shang)展示(shi)的那么夸張,馬斯克(ke)所說的世界上(shang)最“聰明”的模型(xing),可(ke)能還值得商榷。
在實測中(zhong),《每(mei)日經濟新聞》記(ji)者發(fa)現,Grok 3模型能力并(bing)沒(mei)有(you)像基準(zhun)測試得分那樣遠(yuan)(yuan)遠(yuan)(yuan)甩開(kai)(kai)對手一大(da)截,唯一甩開(kai)(kai)競爭對手的(de)一點是它(ta)的(de)響應速度(du)(du),它(ta)得出結(jie)果的(de)速度(du)(du)相較于其他同等(deng)級的(de)大(da)模型來說(shuo)是最快的(de)。
如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟新(xin)聞(wen)》報社授權(quan),嚴禁(jin)轉載或鏡(jing)像,違者必究。
讀者熱線:4008890008
特(te)別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您(nin)不希望(wang)作品出現在本(ben)站,可聯系我們(men)要求撤(che)下您(nin)的作品。
歡(huan)迎關注每(mei)日經濟新聞(wen)APP