要聞

WWDC前夕，蘋果論文“炮轟”AI推理模型“假思考”，測試方法遭質疑

每日經濟新聞 2025-06-09 19:01:49

近日，蘋果機器(qi)學習研(yan)究中心發表(biao)論文指(zhi)(zhi)出(chu)，現有(you)的推(tui)理(li)模(mo)型(xing)看似(si)會“思(si)(si)考(kao)”，但其實并沒有(you)穩(wen)定、可理(li)解的思(si)(si)維過程，所謂的推(tui)理(li)思(si)(si)考(kao)只是一(yi)種“幻象”。這一(yi)觀點引發AI圈熱議，有(you)研(yan)究人(ren)員認為蘋果的測試方法存在(zai)問(wen)題，輸出(chu)token限制可能是推(tui)理(li)模(mo)型(xing)表(biao)現不佳的原(yuan)因(yin)。也(ye)有(you)部分觀點指(zhi)(zhi)責蘋果因(yin)其AI進展不順，“吃(chi)不到葡(pu)萄說(shuo)葡(pu)萄酸”。

每經(jing)記(ji)者｜宋欣悅 ; 每經(jing)編輯｜高(gao)涵

當地時(shi)間(jian)6月6日，蘋果機(ji)器學習研究中心發表(biao)論文《思考(kao)的幻象：通過問題復(fu)雜性的視角理(li)解推理(li)模型的優勢與局限》。論文作者包括谷(gu)歌大腦聯合創始人Samy Bengio（圖靈獎得主Yoshua Bengio的弟(di)弟(di)）。

該(gai)論(lun)文認為，現有的(de)推(tui)理模型看似(si)會“思考(kao)”，但其(qi)實(shi)并沒(mei)有穩定、可理解的(de)思維過(guo)程，所謂的(de)推(tui)理思考(kao)只是一種“幻象”。

論文發布后(hou)引發AI圈熱議，被部分觀點解讀為(wei)“蘋(pin)果(guo)(guo)否定所有大模(mo)型的推理能力(li)”。也有研究人員提出(chu)反駁，認為(wei)蘋(pin)果(guo)(guo)的測(ce)試方(fang)法存在(zai)問題。AI研究者Lisan al Gaib在(zai)復現論文中的漢諾塔測(ce)試后(hou)發現，模(mo)型根本不是(shi)因(yin)(yin)為(wei)推理能力(li)不佳而(er)失(shi)敗(bai)，而(er)是(shi)因(yin)(yin)為(wei)輸(shu)出(chu)token限制。

圖(tu)片來源：論文《思考的幻象：通(tong)過問題復(fu)雜性的視角理(li)解推(tui)理(li)模型的優勢與局限》

蘋果“炮轟”AI推理模型：所謂的思考只是一種“幻象”

論(lun)文指出，OpenAI、Anthropic、谷歌和(he)DeepSeek等公司紛紛推(tui)出帶(dai)有“鏈式思考”（Chain-of-Thought，CoT）能(neng)力的模型(xing)，并聲稱它們更接(jie)近“類人思維”。

然而，該論文認為，現有的推理模型看似會“思考”，但其實并沒有穩定、可理解的思維過程，所謂的推理思考只是一種“幻象”。

蘋果團(tuan)隊認為，在實驗設計上(shang)，現有(you)評估主要(yao)集中在既(ji)定的(de)(de)數學和編碼(ma)基準上(shang)，通過(guo)判斷(duan)模(mo)型最(zui)終答案是(shi)否(fou)正確來評估其能(neng)力，這種方(fang)式可(ke)能(neng)存在數據(ju)污染(ran)，即模(mo)型在訓練時可(ke)能(neng)見過(guo)類似題目(mu)。此外，這些評估大都缺乏對“思考過(guo)程質(zhi)量(liang)”的(de)(de)分析。

為此，蘋果團隊設計了四類謎題環境，包括漢諾塔、跳棋交換、過河問題和積木世界，通過精確控制謎題難度，來測試推理模型的推理能力。

圖片來(lai)源：《思(si)考的(de)幻象(xiang)：通過問題復雜性的(de)視角理(li)解推(tui)理(li)模型的(de)優勢與局(ju)限(xian)》

推理模型并未解決模型能力瓶頸

實(shi)驗結果顯示，面對(dui)低復雜度任務，非推(tui)(tui)理模型比與之對(dui)應的推(tui)(tui)理模型更準確高效。當(dang)問(wen)題復雜度適度增加，推(tui)(tui)理模型優勢顯現，性(xing)能超過(guo)非推(tui)(tui)理模型。

但當問題難度超過一定臨界點時，兩類模型性能均嚴重下降，準確率為零。這(zhe)表明，推(tui)理(li)模(mo)型(xing)并沒有實際性地(di)解決模(mo)型(xing)的能力瓶(ping)頸。

圖片來源(yuan)：《思考(kao)的(de)幻象：通過(guo)問題復(fu)雜性(xing)的(de)視角理解推理模型的(de)優勢與局限》

面對難題，直接“躺平”

同時，研究還發現，隨著問題復雜度的增加，推理模型在初期會投入更多的思考token。然而，當問題難度達到某個臨界點時，模型推理能力就會發生崩潰，思考不增反降。

這表明，推理模型似乎存在一個(ge)內在的“縮放限制”。當它預感到問題過于困難無法解決時，即便有充足的計算(suan)預算(suan)（token limit），它也會(hui)選擇“躺平(ping)”，減(jian)少思考的努力(li)。

過度思考，連“抄作業”都不會

此外，研究人員不僅關注最終答案，還分析了推理痕跡——即給出答案之前生成的逐步“思考”過程。他們發現，在簡單的問題中，模型往往在早期就找到了正確的解決方案，但隨后繼續進行不必要的思考。

在(zai)中(zhong)等(deng)復(fu)(fu)雜(za)度的問題(ti)中(zhong)，模型往(wang)往(wang)在(zai)推理過程中(zhong)走錯路徑，最終在(zai)“思考”的后期才找到正確的答案。但在(zai)高(gao)復(fu)(fu)雜(za)度的問題(ti)中(zhong)，準確度為零，推理變得混(hun)亂或不(bu)連貫。

更令人(ren)擔(dan)憂的(de)(de)是，在漢諾(nuo)塔任(ren)務中(zhong)，研(yan)究人(ren)員直接在提示詞中(zhong)提供了完整的(de)(de)解(jie)題算法，要求模型(xing)僅(jin)僅(jin)是“執行”這(zhe)個算法。但模型(xing)的(de)(de)表現沒有任(ren)何改善，依然在相同(tong)的(de)(de)復(fu)雜(za)度上(shang)崩潰。

蘋果論文引爭議：測試設計存在缺陷？

蘋果此次(ci)發(fa)布的論文(wen)在AI圈引(yin)發(fa)了不小的爭議。

AI研究者Lisan al Gaib在復現論文中的漢諾塔測試后發現，模型根本不是因為推理能力不佳而失敗，而是因為輸出token限制。

也就是(shi)說，不(bu)是(shi)模(mo)型不(bu)會解答，而是(shi)無法輸出如此多的內(nei)容。

GitHub軟件工程師Sean Goedecke稱，存在復雜性閾值并不意味著推理模型“實際上并不推理”。

Sean表示(shi)，即使(shi)沒有推(tui)理(li)到第十(shi)一(yi)步，但前(qian)十(shi)步仍是(shi)在(zai)推(tui)理(li)。“根據我自己測試(shi)的結果，模(mo)型(xing)很早(zao)就決定數百(bai)個(ge)算法(fa)步驟太多(duo)了，根本無法(fa)嘗(chang)試(shi)，因此(ci)它們干脆不開(kai)始(shi)。”

Sean舉(ju)了(le)一個例子，“有(you)(you)多(duo)(duo)少人(ren)(ren)能坐下來正確地算(suan)出一千步(bu)漢諾(nuo)塔？有(you)(you)很多(duo)(duo)人(ren)(ren)能做到，但也有(you)(you)很多(duo)(duo)做不到。那(nei)么，那(nei)些算(suan)不出答案的(de)人(ren)(ren)就沒有(you)(you)推(tui)理能力(li)嗎？當然有(you)(you)！他們只是(shi)沒有(you)(you)足夠的(de)認真和(he)耐心去手動完成一千次算(suan)法的(de)迭(die)代。”

著名AI越獄提示詞專家(jia)Plenny the Liberator直言，如果我(wo)是蘋果CEO，看到我(wo)的(de)團隊(dui)發表(biao)一篇只專注于記錄當前方法局限性(xing)的(de)論文，我(wo)會當場解雇所有參與者。

AI博主henry表示，“蘋果(guo)作為世界(jie)上最富(fu)有的公司，擁有無與倫(lun)比的優勢(shi)，全力押(ya)注人工(gong)智(zhi)能，許下無數(shu)承諾，但被所(suo)有人瞬(shun)間超越。賽(sai)程已(yi)進行兩年，卻一(yi)無所(suo)獲，于是(shi)寫了這篇論文說這一(yi)切都是(shi)不重要的。”

WWDC在即，蘋果“酸了”？

圖片來源：蘋果官網截圖

部分觀點(dian)認為(wei)，蘋果(guo)發布質疑推(tui)理模型能力的論文(wen)是“吃不到葡萄(tao)說葡萄(tao)酸(suan)”。

北京時(shi)間(jian)6月10日凌晨1點，蘋果年度開發(fa)者(zhe)大會(hui)（WWDC 2025）即將拉開帷幕。然而，外界(jie)普遍認(ren)為，這次活動在AI方面的進展可能(neng)有限，備受(shou)期(qi)待的Siri升級也將繼續缺席。

據外媒報道，此次WWDC上蘋果在AI方面的更新不會帶來太多驚喜。科技記者馬克·古爾曼發文透露，蘋果今年WWDC中關于AI的內容預計會比較少，甚至可能“令人失望”。

在去年WWDC上發(fa)布(bu)蘋(pin)果(guo)智(zhi)能（Apple Intelligence）時，蘋(pin)果(guo)曾高(gao)調宣布(bu)對語音助(zhu)手Siri進行(xing)(xing)“徹底重構”，新Siri應該更(geng)聰明、更(geng)懂用戶(hu)、能夠(gou)理解并執行(xing)(xing)復雜任務。然而，一年過去，Siri的(de)升級卻遲(chi)遲(chi)未見實質性進展。

據多位前蘋果員工透露，蘋果AI領域的進展不順，部分原因在于公司內部領導風格的差異和組織間的協作問題。

另一方面，蘋果在AI領域的探索，也受到了技術路線選擇和隱私政策帶來的雙重影響。蘋果一直以來引以為傲的“隱私至上”原則，在AI時代給其帶來了一些新的負擔。一位熟悉蘋(pin)果AI和(he)軟件開發工作的(de)人表示：“在(zai)蘋(pin)果公司(si)開發AI的(de)過程中，做任(ren)何事情都可(ke)能遇到很多‘不’，你必(bi)須與負責隱私的(de)部門反復溝通協(xie)調才(cai)能推進工作。”

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟(ji)新聞》報社授權，嚴禁(jin)轉載或鏡像(xiang)，違(wei)者必(bi)究(jiu)。

讀者熱線：4008890008

特(te)別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬(chou)。如您(nin)(nin)不希望作(zuo)品出現在本站，可聯(lian)系我們要求撤下您(nin)(nin)的作(zuo)品。

模型蘋果(guo) Ai

上一篇文章

工信(xin)部：扎實(shi)推進“綜合整治新(xin)能(neng)源汽車行業‘內卷(juan)’問(wen)題”等3項(xiang)集(ji)中整治

返回每經網首頁

下一篇文章

萊伯泰科：控股(gu)(gu)股(gu)(gu)東擬詢價轉讓3%公司股(gu)(gu)份