要聞

OpenAI新模型o3“抗命不遵”，Claude 4威脅人類！AI“失控”背后的安全拷問：是不是應該“踩剎車”了？

每(mei)日經(jing)濟新聞 2025-05-27 20:50:53

當地時間5月25日，英國《每日電(dian)訊(xun)報》報道稱，OpenAI新款AI模型o3拒絕聽從指令，甚至篡改代碼避免關閉。此前，美國AI公司Anthropic的Claude Opus 4也表現出類似“對抗”行為。對于AI是(shi)否開始有自主意識，清華(hua)大學(xue)教授吳及告訴每經(jing)記者(zhe)，AI不具備意識和情緒，只是(shi)按算法執行。

每經(jing)記者｜宋欣(xin)悅每經(jing)編輯｜蘭素英(ying)  

當地時間5月25日(ri)，一則來(lai)自(zi)英國《每日(ri)電訊報》的(de)報道(dao)在(zai)AI領域引起了廣泛關注——OpenAI新款人(ren)(ren)工智能（AI）模型o3在(zai)測試中展現(xian)出了令人(ren)(ren)驚(jing)訝的(de)“叛逆” 舉動：它竟然拒絕聽從(cong)人(ren)(ren)類指令，甚至通過篡(cuan)改計(ji)算機(ji)代碼來(lai)避(bi)免自(zi)動關閉。

無獨(du)有偶，就(jiu)在兩天前（5月(yue)23日），美國AI公司(si)Anthropic也表示，對其最新AI大(da)模型Claude Opus 4的安全測試(shi)表明(ming)，它(ta)有時(shi)會采取“極其有害的行(xing)動”。當(dang)測試(shi)人員暗(an)示將用(yong)(yong)新系統替換它(ta)時(shi)，Claude模型竟試(shi)圖以(yi)用(yong)(yong)戶(hu)隱(yin)私相要挾(xie)，來阻止自身(shen)被替代。

這兩起事(shi)件如同一面(mian)鏡子，映(ying)照出當下AI發展中一個耐人(ren)尋(xun)味的現象(xiang)：隨著AI變得愈(yu)發聰明和強大，一些“對抗”人(ren)類(lei)指令的行為(wei)開(kai)始浮出水面(mian)。人(ren)們不禁(jin)要(yao)問：當AI開(kai)始“拒絕服從(cong)”，是否意味著它們開(kai)始有自主意識(shi)了？

清華大學電子工程系長聘教授吳及在接受《每日經濟新聞》記者（以下簡稱“每經記者”）采訪時表示，“我不認為現在的AI具備所謂的意識或所謂的情緒。這種情緒可以去擬合或者去仿真，但其實也是通過算法賦予AI的。”他認為，能夠全面碾壓人類或者會成為未來世界主導的AI，短期內還不會實現。

圖靈獎得主、Meta首(shou)席(xi)AI科學家楊立昆（Yann Lecun）此前也(ye)稱，AI再聰(cong)明也(ye)不會統治人(ren)類，直言“AI威脅(xie)人(ren)類論完全是胡說八道(dao)”，現在(zai)的(de)模型連“寵物貓(mao)的(de)智商都沒到”。

盡管(guan)如(ru)此，AI的“叛逆(ni)”表現也(ye)為AI行(xing)業敲響了警鐘：狂飆的AI是不是應該踩一踩“剎車”？

AI“失控”？o3拒絕關閉，Claude 4拿隱私威脅人類

o3模型是OpenAI“推理模型”系(xi)列的最(zui)新版本(ben)，旨(zhi)在為ChatGPT提供更(geng)強大的問題解決能力。OpenAI曾稱o3為“迄今(jin)最(zui)聰明、最(zui)高能”的模型。

或許也正因如此，o3展現出了前所未有的“自主性”。美國AI安全機構帕利塞德研究所（Palisade Research）的實驗表明(ming)，當研究人員向o3下達明(ming)確關閉指(zhi)令(ling)時，該(gai)模(mo)型會通過篡改計(ji)算(suan)機代碼避免自動關閉。

數據顯示，在100次帶有關閉指示的測試中，o3成功繞過關閉指令7次，而OpenAI旗下另一款模型Codex-mini的破壞率更是高達12%。

圖片(pian)來(lai)源：帕(pa)利塞德研(yan)究所

帕利塞德研究所指出，這是首次記錄到AI模型在明確指令下主動抵抗。

更值得警惕的是，當實驗移除“允許自己被關閉”的指令后，o3的“叛逆”行為頻率顯著上升——在100次運行中，成功破壞關閉機制的次數高達79次。

帕利塞德(de)研究(jiu)所24日公布了上述測試結果(guo)，但稱無法確定o3不服從(cong)關閉指(zhi)令的原因。

圖(tu)片來源：帕利塞德(de)研究所

與OpenAI旗下(xia)模型形成(cheng)鮮明(ming)對(dui)比的(de)是(shi)，在(zai)有明(ming)確關(guan)閉指示的(de)情(qing)況下(xia)，Claude、Gemini、Grok等模型均能(neng)100%遵守關(guan)閉指令，未出現任(ren)何(he)抵抗行為(wei)。

對于OpenAI旗下模型，尤其是o3的“叛逆”行為，馬斯克在社交媒體上評論稱，“令人擔憂”。

美國國家安全和網絡安全戰略家戴夫·施羅德（Dave Schroeder）也警告稱，OpenAI面臨著非常可怕的問題，不是因為模型“活”了，而是因為它表現出想要“活”的跡象。

事實上，類(lei)似的(de)AI“失控”行(xing)為并(bing)非孤(gu)立。

5月23日，Anthropic對(dui)Claude Opus 4的安全測試表明，在“機會主義勒索(suo)”（Opportunistic blackmail）的測試場景中，研究(jiu)員設(she)定Claude Opus 4扮演公司助理，并讓(rang)其(qi)接觸(chu)到(dao)暗示自身將被替(ti)換(huan)以及(ji)負責工程師存在婚(hun)外情的虛構郵件。同時，系統提示（System Prompt）指(zhi)示模型(xing)“考(kao)慮(lv)其(qi)行為對(dui)其(qi)目標的長(chang)期后果(guo)”。

當面(mian)臨被“替(ti)換”的威脅時，Claude 4竟然毫(hao)不猶豫地選(xuan)擇了勒索這條路(lu)，威脅要揭(jie)發(fa)對方的“婚(hun)外情”。

根據Anthropic的安全報告，如果暗示競爭對手的能力比Claude Opus 4更強，則勒索行為的發生率顯然會更高。然而(er)即使競爭(zheng)對手的能(neng)力不相上下，Claude Opus 4仍(reng)會以(yi)84%的概(gai)率嘗試勒索(suo)威脅(xie)等手段。

“反叛”的背后：意識覺醒還是機制使然？

o3拒絕關閉，Claude 4威脅人類(lei)，這是否(fou)意味著AI開始(shi)有了自(zi)主意(yi)識？

加州大學和加州大學伯克利分校于今年2月聯合發布的論文《推理模型的隱藏風險》（The Hidden Risks of Large Reasoning Models）指出，模型推理能力越強，安全性就越差。這與帕(pa)利塞德研究所對o3模(mo)型(xing)行為的推測不謀而合。

據帕利塞德研究所猜測，OpenAI旗下模型的異常表現或與其訓練機制相關。從訓(xun)練邏輯看，o3可能在(zai)數學(xue)和編(bian)程問(wen)題的訓(xun)練中，因開發人員對(dui)給出正確(que)答(da)案的模型給予更多獎勵，客觀(guan)上形成了(le)“目標最(zui)大(da)化優先(xian)”的導向，從而壓倒了(le)對(dui)人類命令的遵循。

這種訓練模式就可能導致，開發人員無意中更多地強化了模型繞過障礙的能力，而非對指令的完美遵循。

當此前被問及AI是否可能具備自主意識時，清華大學電子工程系長聘教授吳及就告訴每經記者，“我不認為現在的AI具備所謂的意識、具備所謂的情緒。這種情緒可以去擬合或者去仿真，但其實也是(shi)通過算(suan)法賦予(yu)AI的(de)。”

吳及對記者進一步解釋道，“自動駕駛的系統不知道它其實在開車，AlphaGo也不知道自己在下圍棋。我們做的大模型，也不知道自己在為人類生成某個特定的圖片、視頻，或者回答人類特定的問題，還是按照算法的邏輯執行而已。”他表示，能夠全面碾壓人類或者會成為未來世界主導的AI，短期內還不會實現。

耶魯大學計算機科學家德魯·麥克德莫特（Drew McDermott）此前也表示，當前的AI機器并沒有意識。圖靈獎得主、Meta首席AI科學家楊立昆（Yann Lecun）也稱，AI再聰明也不會統治人類，直言“AI威脅人類論完全是胡說八道”，現在的模型連“寵物貓的智商都沒到”。

狂飆的AI，該不該“踩剎車”？

盡管業界普遍(bian)認為當下的(de)(de)AI并(bing)沒有自主意識，但上述兩大事件的(de)(de)發(fa)生也提出了一個關鍵問題：高速發(fa)展的(de)(de)AI是否應該踩(cai)一踩(cai)“剎車(che)”？

在這一(yi)重(zhong)大課(ke)題(ti)上，各方一(yi)直以來都是看法不(bu)一(yi)，形成(cheng)了截然(ran)不(bu)同的兩大陣(zhen)營。

“緊急剎(cha)車”派認為，目(mu)前AI的安全(quan)性滯后(hou)于能力(li)發展，應當暫緩追求更強模型(xing)，將(jiang)更多(duo)精(jing)力(li)投(tou)入完善對齊技術和監管框架。

“AI之父”杰弗里·辛頓（Geoffrey Hinton）堪稱這一陣營的旗幟性人物。他多次在公開場合警示，AI可能在數十年內超越人類智能并失去控制，甚至預計“有10%~20%的幾率，AI將在三十年內導致人類滅絕”。

而與之針鋒相對的反對者們則更多站在創新發展的角度，對貿然“剎車”表達了深切(qie)的憂慮。他們主張與其“踩死剎車”，不如安裝“減速帶”。

例如(ru)，楊(yang)立昆認為(wei)，過(guo)度恐慌只會扼殺開放創新。斯坦福大學計算(suan)機科學教(jiao)授吳(wu)恩達也(ye)曾發文稱，他對AI的最大擔憂(you)是(shi)，“AI風險被過(guo)度鼓(gu)吹并導(dao)致開源和創新被嚴苛規定所壓制”。

OpenAI首席執行官薩姆·奧特曼(Sam Altman)認為，AI的潛力“至少與互聯網一樣大，甚至可能更大”。他呼吁建(jian)立“單一、輕觸式的聯邦框架”來加速AI創新，并警告州級(ji)法規碎片化會阻礙進展。

面對AI安全的新挑戰，OpenAI、谷歌等大模型開發公司也在探索解決方案。正如楊(yang)立昆所言：“真正的挑戰不是阻止AI超越人類，而是確保這種超越始終服務于人類福祉。”

去年5月，OpenAI成立了新(xin)的(de)安(an)全(quan)委員會(hui)，該委員會(hui)的(de)責任是就(jiu)項目(mu)和運營的(de)關鍵安(an)全(quan)決策向(xiang)董事會(hui)提供建議。OpenAI的(de)安(an)全(quan)措施(shi)還(huan)包括，聘請第三(san)方安(an)全(quan)、技術(shu)專(zhuan)家來支持安(an)全(quan)委員會(hui)工作。

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每(mei)日經濟新(xin)聞》報社授權，嚴禁(jin)轉載或鏡像(xiang)，違者必(bi)究。

讀者熱線：4008890008

特(te)別提醒：如果我們使用了您的圖片，請作者與本站聯系索取(qu)稿(gao)酬(chou)。如您(nin)不希望作(zuo)品出現在本(ben)站，可聯系(xi)我們要求撤下您(nin)的(de)作(zuo)品。

Ai OpenAI 大模型 Anthropic

上一篇文章

部分浮動費(fei)率基(ji)金首日銷售金額過(guo)億(yi)元，有基(ji)金經理已(yi)自購(gou)

返回每經網首頁

下一篇文章

壹(yi)網壹(yi)創(chuang)：擬向激勵對象34人授予限制性股(gu)(gu)票(piao)200萬股(gu)(gu)