男欢女爱销魂蚀骨免费阅读,性欧美丰满熟妇XXXX性久久久,适合单身男人看的影片,www天堂无人区在线观看,悟空影视免费高清

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

OpenAI新模型o3“抗命不遵”,Claude 4威脅人類!AI“失控”背后的安全拷問:是不是應該“踩剎車”了?

每(mei)日經(jing)濟新聞 2025-05-27 20:50:53

當地時間5月25日,英國《每日電(dian)訊(xun)報》報道稱,OpenAI新款AI模型o3拒絕聽從指令,甚至篡改代碼避免關閉。此前,美國AI公司Anthropic的Claude Opus 4也表現出類似“對抗”行為。對于AI是(shi)否開始有自主意識,清華(hua)大學(xue)教授吳及告訴每經(jing)記者(zhe),AI不具備意識和情緒,只是(shi)按算法執行。

每經(jing)記者|宋欣(xin)悅    每經(jing)編輯|蘭素英(ying)    

當地時間5月25日(ri),一則來(lai)自(zi)英國《每日(ri)電訊報》的(de)報道(dao)在(zai)AI領域引起了廣泛關注——OpenAI新款人(ren)(ren)工智能(AI)模型o3在(zai)測試中展現(xian)出了令人(ren)(ren)驚(jing)訝的(de)“叛逆” 舉動:它竟然拒絕聽從(cong)人(ren)(ren)類指令,甚至通過篡(cuan)改計(ji)算機(ji)代碼來(lai)避(bi)免自(zi)動關閉。

無獨(du)有偶,就(jiu)在兩天前(5月(yue)23日),美國AI公司(si)Anthropic也表示,對其最新AI大(da)模型Claude Opus 4的安全測試(shi)表明(ming),它(ta)有時(shi)會采取“極其有害的行(xing)動”。當(dang)測試(shi)人員暗(an)示將用(yong)(yong)新系統替換它(ta)時(shi),Claude模型竟試(shi)圖以(yi)用(yong)(yong)戶(hu)隱(yin)私相要挾(xie),來阻止自身(shen)被替代。

這兩起事(shi)件如同一面(mian)鏡子,映(ying)照出當下AI發展中一個耐人(ren)尋(xun)味的現象(xiang):隨著AI變得愈(yu)發聰明和強大,一些“對抗”人(ren)類(lei)指令的行為(wei)開(kai)始浮出水面(mian)。人(ren)們不禁(jin)要(yao)問:當AI開(kai)始“拒絕服從(cong)”,是否意味著它們開(kai)始有自主意識(shi)了?

清華大學電子工程系長聘教授吳及在接受《每日經濟新聞》記者(以下簡稱“每經記者”)采訪時表示,“我不認為現在的AI具備所謂的意識或所謂的情緒。這種情緒可以去擬合或者去仿真,但其實也是通過算法賦予AI的。”他認為,能夠全面碾壓人類或者會成為未來世界主導的AI,短期內還不會實現

圖靈獎得主、Meta首(shou)席(xi)AI科學家楊立昆(Yann Lecun)此前也(ye)稱,AI再聰(cong)明也(ye)不會統治人(ren)類,直言“AI威脅(xie)人(ren)類論完全是胡說八道(dao)”,現在(zai)的(de)模型連“寵物貓(mao)的(de)智商都沒到”。

盡管(guan)如(ru)此,AI的“叛逆(ni)”表現也(ye)為AI行(xing)業敲響了警鐘:狂飆的AI是不是應該踩一踩“剎車”?

AI“失控”?o3拒絕關閉,Claude 4拿隱私威脅人類

o3模型是OpenAI“推理模型”系(xi)列的最(zui)新版本(ben),旨(zhi)在為ChatGPT提供更(geng)強大的問題解決能力。OpenAI曾稱o3為“迄今(jin)最(zui)聰明、最(zui)高能”的模型。

或許也正因如此,o3展現出了前所未有的“自主性”。美國AI安全機構帕利塞德研究所(Palisade Research)的實驗表明(ming),當研究人員向o3下達明(ming)確關閉指(zhi)令(ling)時,該(gai)模(mo)型會通過篡改計(ji)算(suan)機代碼避免自動關閉。

數據顯示,在100次帶有關閉指示的測試中,o3成功繞過關閉指令7次,而OpenAI旗下另一款模型Codex-mini的破壞率更是高達12%

圖片(pian)來(lai)源:帕(pa)利塞德研(yan)究所

帕利塞德研究所指出,這是首次記錄到AI模型在明確指令下主動抵抗

更值得警惕的是,當實驗移除“允許自己被關閉”的指令后,o3的“叛逆”行為頻率顯著上升——在100次運行中,成功破壞關閉機制的次數高達79次

帕利塞德(de)研究(jiu)所24日公布了上述測試結果(guo),但稱無法確定o3不服從(cong)關閉指(zhi)令的原因。

圖(tu)片來源:帕利塞德(de)研究所

與OpenAI旗下(xia)模型形成(cheng)鮮明(ming)對(dui)比的(de)是(shi),在(zai)有明(ming)確關(guan)閉指示的(de)情(qing)況下(xia),Claude、Gemini、Grok等模型均能(neng)100%遵守關(guan)閉指令,未出現任(ren)何(he)抵抗行為(wei)。

對于OpenAI旗下模型,尤其是o3的“叛逆”行為,馬斯克在社交媒體上評論稱,“令人擔憂”

美國國家安全和網絡安全戰略家戴夫·施羅德(Dave Schroeder)也警告稱,OpenAI面臨著非常可怕的問題,不是因為模型“活”了,而是因為它表現出想要“活”的跡象。

事實上,類(lei)似的(de)AI“失控”行(xing)為并(bing)非孤(gu)立。

5月23日,Anthropic對(dui)Claude Opus 4的安全測試表明,在“機會主義勒索(suo)”(Opportunistic blackmail)的測試場景中,研究(jiu)員設(she)定Claude Opus 4扮演公司助理,并讓(rang)其(qi)接觸(chu)到(dao)暗示自身將被替(ti)換(huan)以及(ji)負責工程師存在婚(hun)外情的虛構郵件。同時,系統提示(System Prompt)指(zhi)示模型(xing)“考(kao)慮(lv)其(qi)行為對(dui)其(qi)目標的長(chang)期后果(guo)”。

當面(mian)臨被“替(ti)換”的威脅時,Claude 4竟然毫(hao)不猶豫地選(xuan)擇了勒索這條路(lu),威脅要揭(jie)發(fa)對方的“婚(hun)外情”。

根據Anthropic的安全報告,如果暗示競爭對手的能力比Claude Opus 4更強,則勒索行為的發生率顯然會更高。然而(er)即使競爭(zheng)對手的能(neng)力不相上下,Claude Opus 4仍(reng)會以(yi)84%的概(gai)率嘗試勒索(suo)威脅(xie)等手段。

“反叛”的背后:意識覺醒還是機制使然?

o3拒絕關閉,Claude 4威脅人類(lei),這是否(fou)意味著AI開始(shi)有了自(zi)主意(yi)識?

加州大學和加州大學伯克利分校于今年2月聯合發布的論文《推理模型的隱藏風險》(The Hidden Risks of Large Reasoning Models)指出,模型推理能力越強,安全性就越差。這與帕(pa)利塞德研究所對o3模(mo)型(xing)行為的推測不謀而合。

據帕利塞德研究所猜測,OpenAI旗下模型的異常表現或與其訓練機制相關。從訓(xun)練邏輯看,o3可能在(zai)數學(xue)和編(bian)程問(wen)題的訓(xun)練中,因開發人員對(dui)給出正確(que)答(da)案的模型給予更多獎勵,客觀(guan)上形成了(le)“目標最(zui)大(da)化優先(xian)”的導向,從而壓倒了(le)對(dui)人類命令的遵循。

這種訓練模式就可能導致,開發人員無意中更多地強化了模型繞過障礙的能力,而非對指令的完美遵循

當此前被問及AI是否可能具備自主意識時,清華大學電子工程系長聘教授吳及就告訴每經記者,“我不認為現在的AI具備所謂的意識、具備所謂的情緒這種情緒可以去擬合或者去仿真,但其實也是(shi)通過算(suan)法賦予(yu)AI的(de)。”

吳及對記者進一步解釋道,“自動駕駛的系統不知道它其實在開車,AlphaGo也不知道自己在下圍棋。我們做的大模型,也不知道自己在為人類生成某個特定的圖片、視頻,或者回答人類特定的問題,還是按照算法的邏輯執行而已。”他表示,能夠全面碾壓人類或者會成為未來世界主導的AI,短期內還不會實現

耶魯大學計算機科學家德魯·麥克德莫特(Drew McDermott)此前也表示,當前的AI機器并沒有意識。圖靈獎得主、Meta首席AI科學家楊立昆(Yann Lecun)也稱,AI再聰明也不會統治人類,直言“AI威脅人類論完全是胡說八道”,現在的模型連“寵物貓的智商都沒到”

狂飆的AI,該不該“踩剎車”?

盡管業界普遍(bian)認為當下的(de)(de)AI并(bing)沒有自主意識,但上述兩大事件的(de)(de)發(fa)生也提出了一個關鍵問題:高速發(fa)展的(de)(de)AI是否應該踩(cai)一踩(cai)“剎車(che)”?

在這一(yi)重(zhong)大課(ke)題(ti)上,各方一(yi)直以來都是看法不(bu)一(yi),形成(cheng)了截然(ran)不(bu)同的兩大陣(zhen)營。

“緊急剎(cha)車”派認為,目(mu)前AI的安全(quan)性滯后(hou)于能力(li)發展,應當暫緩追求更強模型(xing),將(jiang)更多(duo)精(jing)力(li)投(tou)入完善對齊技術和監管框架。

“AI之父”杰弗里·辛頓(Geoffrey Hinton)堪稱這一陣營的旗幟性人物。他多次在公開場合警示,AI可能在數十年內超越人類智能并失去控制,甚至預計“有10%~20%的幾率,AI將在三十年內導致人類滅絕”

而與之針鋒相對的反對者們則更多站在創新發展的角度,對貿然“剎車”表達了深切(qie)的憂慮。他們主張與其“踩死剎車,不如安裝“減速帶”。

例如(ru),楊(yang)立昆認為(wei),過(guo)度恐慌只會扼殺開放創新。斯坦福大學計算(suan)機科學教(jiao)授吳(wu)恩達也(ye)曾發文稱,他對AI的最大擔憂(you)是(shi),“AI風險被過(guo)度鼓(gu)吹并導(dao)致開源和創新被嚴苛規定所壓制”。

OpenAI首席執行官薩姆·奧特曼(Sam Altman)認為,AI的潛力“至少與互聯網一樣大,甚至可能更大”。他呼吁建(jian)立“單一、輕觸式的聯邦框架”來加速AI創新,并警告州級(ji)法規碎片化會阻礙進展。

面對AI安全的新挑戰,OpenAI、谷歌等大模型開發公司也在探索解決方案。正如楊(yang)立昆所言:“真正的挑戰不是阻止AI超越人類,而是確保這種超越始終服務于人類福祉。”

去年5月,OpenAI成立了新(xin)的(de)安(an)全(quan)委員會(hui),該委員會(hui)的(de)責任是就(jiu)項目(mu)和運營的(de)關鍵安(an)全(quan)決策向(xiang)董事會(hui)提供建議。OpenAI的(de)安(an)全(quan)措施(shi)還(huan)包括,聘請第三(san)方安(an)全(quan)、技術(shu)專(zhuan)家來支持安(an)全(quan)委員會(hui)工作。

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每(mei)日經濟新(xin)聞》報社授權,嚴禁(jin)轉載或鏡像(xiang),違者必(bi)究。

讀者熱線:4008890008

特(te)別提醒:如果我們使用了您的圖片,請作者與本站聯系索取(qu)稿(gao)酬(chou)。如您(nin)不希望作(zuo)品出現在本(ben)站,可聯系(xi)我們要求撤下您(nin)的(de)作(zuo)品。

Ai OpenAI 大模型 Anthropic

歡迎關(guan)注每日經(jing)濟新聞APP

每經經濟新聞官方APP

2

0