男欢女爱销魂蚀骨免费阅读,性欧美丰满熟妇XXXX性久久久,适合单身男人看的影片,www天堂无人区在线观看,悟空影视免费高清

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

WWDC前夕,蘋果論文“炮轟”AI推理模型“假思考”,測試方法遭質疑

每日經濟新聞 2025-06-09 19:01:49

近日,蘋果機器(qi)學習研(yan)究中心發表(biao)論文指(zhi)(zhi)出(chu),現有(you)的推(tui)理(li)模(mo)型(xing)看似(si)會“思(si)(si)考(kao)”,但其實并沒有(you)穩(wen)定、可理(li)解的思(si)(si)維過程,所謂的推(tui)理(li)思(si)(si)考(kao)只是一(yi)種“幻象”。這一(yi)觀點引發AI圈熱議,有(you)研(yan)究人(ren)員認為蘋果的測試方法存在(zai)問(wen)題,輸出(chu)token限制可能是推(tui)理(li)模(mo)型(xing)表(biao)現不佳的原(yuan)因(yin)。也(ye)有(you)部分觀點指(zhi)(zhi)責蘋果因(yin)其AI進展不順,“吃(chi)不到葡(pu)萄說(shuo)葡(pu)萄酸”。

每經(jing)記(ji)者|宋欣悅   ; 每經(jing)編輯|高(gao)涵    

當地時(shi)間(jian)6月6日,蘋果機(ji)器學習研究中心發表(biao)論文《思考(kao)的幻象:通過問題復(fu)雜性的視角理(li)解推理(li)模型的優勢與局限》。論文作者包括谷(gu)歌大腦聯合創始人Samy Bengio(圖靈獎得主Yoshua Bengio的弟(di)弟(di))。

該(gai)論(lun)文認為,現有的(de)推(tui)理模型看似(si)會“思考(kao)”,但其(qi)實(shi)并沒(mei)有穩定、可理解的(de)思維過(guo)程,所謂的(de)推(tui)理思考(kao)只是一種“幻象”。

論文發布后(hou)引發AI圈熱議,被部分觀點解讀為(wei)“蘋(pin)果(guo)(guo)否定所有大模(mo)型的推理能力(li)”。也有研究人員提出(chu)反駁,認為(wei)蘋(pin)果(guo)(guo)的測(ce)試方(fang)法存在(zai)問題。AI研究者Lisan al Gaib在(zai)復現論文中的漢諾塔測(ce)試后(hou)發現,模(mo)型根本不是(shi)因(yin)(yin)為(wei)推理能力(li)不佳而(er)失(shi)敗(bai),而(er)是(shi)因(yin)(yin)為(wei)輸(shu)出(chu)token限制。

圖(tu)片來源:論文《思考的幻象:通(tong)過問題復(fu)雜性的視角理(li)解推(tui)理(li)模型的優勢與局限》

蘋果“炮轟”AI推理模型:所謂的思考只是一種“幻象”

論(lun)文指出,OpenAI、Anthropic、谷歌和(he)DeepSeek等公司紛紛推(tui)出帶(dai)有“鏈式思考”(Chain-of-Thought,CoT)能(neng)力的模型(xing),并聲稱它們更接(jie)近“類人思維”。

然而,該論文認為,現有的推理模型看似會“思考”,但其實并沒有穩定、可理解的思維過程,所謂的推理思考只是一種“幻象”

蘋果團(tuan)隊認為,在實驗設計上(shang),現有(you)評估主要(yao)集中在既(ji)定的(de)(de)數學和編碼(ma)基準上(shang),通過(guo)判斷(duan)模(mo)型最(zui)終答案是(shi)否(fou)正確來評估其能(neng)力,這種方(fang)式可(ke)能(neng)存在數據(ju)污染(ran),即模(mo)型在訓練時可(ke)能(neng)見過(guo)類似題目(mu)。此外,這些評估大都缺乏對“思考過(guo)程質(zhi)量(liang)”的(de)(de)分析。

為此,蘋果團隊設計了四類謎題環境,包括漢諾塔、跳棋交換、過河問題和積木世界,通過精確控制謎題難度,來測試推理模型的推理能力

圖片來(lai)源:《思(si)考的(de)幻象(xiang):通過問題復雜性的(de)視角理(li)解推(tui)理(li)模型的(de)優勢與局(ju)限(xian)》

推理模型并未解決模型能力瓶頸

實(shi)驗結果顯示,面對(dui)低復雜度任務,非推(tui)(tui)理模型比與之對(dui)應的推(tui)(tui)理模型更準確高效。當(dang)問(wen)題復雜度適度增加,推(tui)(tui)理模型優勢顯現,性(xing)能超過(guo)非推(tui)(tui)理模型。

當問題難度超過一定臨界點時,兩類模型性能均嚴重下降,準確率為零。這(zhe)表明,推(tui)理(li)模(mo)型(xing)并沒有實際性地(di)解決模(mo)型(xing)的能力瓶(ping)頸。

圖片來源(yuan):《思考(kao)的(de)幻象:通過(guo)問題復(fu)雜性(xing)的(de)視角理解推理模型的(de)優勢與局限》

面對難題,直接“躺平”

同時,研究還發現,隨著問題復雜度的增加,推理模型在初期會投入更多的思考token。然而,當問題難度達到某個臨界點時,模型推理能力就會發生崩潰,思考不增反降。

這表明,推理模型似乎存在一個(ge)內在的“縮放限制”。當它預感到問題過于困難無法解決時,即便有充足的計算(suan)預算(suan)(token limit),它也會(hui)選擇“躺平(ping)”,減(jian)少思考的努力(li)。

過度思考,連“抄作業”都不會

此外,研究人員不僅關注最終答案,還分析了推理痕跡——即給出答案之前生成的逐步“思考”過程。他們發現,在簡單的問題中,模型往往在早期就找到了正確的解決方案,但隨后繼續進行不必要的思考

在(zai)中(zhong)等(deng)復(fu)(fu)雜(za)度的問題(ti)中(zhong),模型往(wang)往(wang)在(zai)推理過程中(zhong)走錯路徑,最終在(zai)“思考”的后期才找到正確的答案。但在(zai)高(gao)復(fu)(fu)雜(za)度的問題(ti)中(zhong),準確度為零,推理變得混(hun)亂或不(bu)連貫。

更令人(ren)擔(dan)憂的(de)(de)是,在漢諾(nuo)塔任(ren)務中(zhong),研(yan)究人(ren)員直接在提示詞中(zhong)提供了完整的(de)(de)解(jie)題算法,要求模型(xing)僅(jin)僅(jin)是“執行”這(zhe)個算法。但模型(xing)的(de)(de)表現沒有任(ren)何改善,依然在相同(tong)的(de)(de)復(fu)雜(za)度上(shang)崩潰。

蘋果論文引爭議:測試設計存在缺陷?

蘋果此次(ci)發(fa)布的論文(wen)在AI圈引(yin)發(fa)了不小的爭議。

AI研究者Lisan al Gaib在復現論文中的漢諾塔測試后發現,模型根本不是因為推理能力不佳而失敗,而是因為輸出token限制

也就是(shi)說,不(bu)是(shi)模(mo)型不(bu)會解答,而是(shi)無法輸出如此多的內(nei)容。

GitHub軟件工程師Sean Goedecke稱,存在復雜性閾值并不意味著推理模型“實際上并不推理”

Sean表示(shi),即使(shi)沒有推(tui)理(li)到第十(shi)一(yi)步,但前(qian)十(shi)步仍是(shi)在(zai)推(tui)理(li)。“根據我自己測試(shi)的結果,模(mo)型(xing)很早(zao)就決定數百(bai)個(ge)算法(fa)步驟太多(duo)了,根本無法(fa)嘗(chang)試(shi),因此(ci)它們干脆不開(kai)始(shi)。”

Sean舉(ju)了(le)一個例子,“有(you)(you)多(duo)(duo)少人(ren)(ren)能坐下來正確地算(suan)出一千步(bu)漢諾(nuo)塔?有(you)(you)很多(duo)(duo)人(ren)(ren)能做到,但也有(you)(you)很多(duo)(duo)做不到。那(nei)么,那(nei)些算(suan)不出答案的(de)人(ren)(ren)就沒有(you)(you)推(tui)理能力(li)嗎?當然有(you)(you)!他們只是(shi)沒有(you)(you)足夠的(de)認真和(he)耐心去手動完成一千次算(suan)法的(de)迭(die)代。”

著名AI越獄提示詞專家(jia)Plenny the Liberator直言,如果我(wo)是蘋果CEO,看到我(wo)的(de)團隊(dui)發表(biao)一篇只專注于記錄當前方法局限性(xing)的(de)論文,我(wo)會當場解雇所有參與者。

AI博主henry表示,“蘋果(guo)作為世界(jie)上最富(fu)有的公司,擁有無與倫(lun)比的優勢(shi),全力押(ya)注人工(gong)智(zhi)能,許下無數(shu)承諾,但被所(suo)有人瞬(shun)間超越。賽(sai)程已(yi)進行兩年,卻一(yi)無所(suo)獲,于是(shi)寫了這篇論文說這一(yi)切都是(shi)不重要的。”

WWDC在即,蘋果“酸了”?

圖片來源:蘋果官網截圖

部分觀點(dian)認為(wei),蘋果(guo)發布質疑推(tui)理模型能力的論文(wen)是“吃不到葡萄(tao)說葡萄(tao)酸(suan)”。

北京時(shi)間(jian)6月10日凌晨1點,蘋果年度開發(fa)者(zhe)大會(hui)(WWDC 2025)即將拉開帷幕。然而,外界(jie)普遍認(ren)為,這次活動在AI方面的進展可能(neng)有限,備受(shou)期(qi)待的Siri升級也將繼續缺席。

據外媒報道,此次WWDC上蘋果在AI方面的更新不會帶來太多驚喜。科技記者馬克·古爾曼發文透露,蘋果今年WWDC中關于AI的內容預計會比較少,甚至可能“令人失望”

在去年WWDC上發(fa)布(bu)蘋(pin)果(guo)智(zhi)能(Apple Intelligence)時,蘋(pin)果(guo)曾高(gao)調宣布(bu)對語音助(zhu)手Siri進行(xing)(xing)“徹底重構”,新Siri應該更(geng)聰明、更(geng)懂用戶(hu)、能夠(gou)理解并執行(xing)(xing)復雜任務。然而,一年過去,Siri的(de)升級卻遲(chi)遲(chi)未見實質性進展。

據多位前蘋果員工透露,蘋果AI領域的進展不順,部分原因在于公司內部領導風格的差異和組織間的協作問題

另一方面,蘋果在AI領域的探索,也受到了技術路線選擇和隱私政策帶來的雙重影響。蘋果一直以來引以為傲的“隱私至上”原則,在AI時代給其帶來了一些新的負擔。一位熟悉蘋(pin)果AI和(he)軟件開發工作的(de)人表示:“在(zai)蘋(pin)果公司(si)開發AI的(de)過程中,做任(ren)何事情都可(ke)能遇到很多‘不’,你必(bi)須與負責隱私的(de)部門反復溝通協(xie)調才(cai)能推進工作。”

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟(ji)新聞》報社授權,嚴禁(jin)轉載或鏡像(xiang),違(wei)者必(bi)究(jiu)。

讀者熱線:4008890008

特(te)別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬(chou)。如您(nin)(nin)不希望作(zuo)品出現在本站,可聯(lian)系我們要求撤下您(nin)(nin)的作(zuo)品。

模型 蘋果(guo) Ai

歡迎關注每日經濟新(xin)聞APP

每經經濟新聞官方APP

2

0