每日經(jing)濟新聞 2024-06-23 21:46:03
每經記者(zhe)|蔡(cai)鼎 每經編輯|蘭素英
自英(ying)國(guo)計算(suan)機科學家阿蘭·圖靈(ling)(Alan Turing)于1950年提出關(guan)于判(pan)斷機器是(shi)否(fou)能夠(gou)思(si)考的(de)(de)著名(ming)試驗“圖靈(ling)測試”以來,該測試就(jiu)被視為判(pan)斷計算(suan)機是(shi)否(fou)具有(you)模擬人類思(si)維能力的(de)(de)關(guan)鍵。近期(qi),OpenAI開發(fa)的(de)(de)GPT-4模型完成了(le)這項聞名(ming)全球的(de)(de)測試,再度引發(fa)廣泛關(guan)注。
加州大學圣地亞哥分校認知科學系博士生 Cameron R. Jones和教授Benjamin K. Bergen在預印(yin)本arXiv上發表(biao)的(de)最新論文表(biao)明,越(yue)來(lai)越(yue)多的(de)人難以在圖靈(ling)測試中區(qu)分GPT-4和人類。
兩位研(yan)究(jiu)人員以真(zhen)人、初代(dai)聊天(tian)(tian)機(ji)器人ELIZA、GPT- 3.5和GPT-4為(wei)研(yan)究(jiu)對象(xiang)。其中,ELIZA是(shi)由麻(ma)省理工團隊在1964年至(zhi)1966年期間開發的史上第一個聊天(tian)(tian)機(ji)器人,上世(shi)紀60年代(dai)曾參與圖靈測試(shi),但宣告失(shi)敗。該機(ji)器人沒有(you)大語(yu)言模型或神經網絡(luo)支持。
結(jie)果顯示,多達54%的(de)(de)參與者將GPT-4誤認為真人(ren),是(shi)迄(qi)今為止首次有(you)AI模(mo)型(xing)以如此(ci)高的(de)(de)結(jie)果通過圖靈(ling)測試。還需(xu)要指(zhi)出的(de)(de)是(shi),上(shang)述研究開(kai)展之(zhi)時,OpenAI尚未宣布新一代的(de)(de)旗(qi)艦模(mo)型(xing)GPT-4o,如果參與測試的(de)(de)是(shi)GPT-4o,這一比例(li)可能還會(hui)更(geng)高。
研究人員在(zai)進行(xing)實驗時(shi),OpenAI尚未宣布新(xin)一代的旗艦模型(xing)GPT-4o。圖(tu)為(wei)OpenAI首席執行(xing)官薩姆·阿爾特(te)曼。 視覺中國圖(tu)
500名參與者進行測試
研究人員招募了500名參與者,讓他們與四位(wei)“對(dui)話(hua)者”進行五分(fen)鐘(zhong)的交(jiao)流,這四位(wei)“對(dui)話(hua)者”分(fen)別是(shi)真人、初代(dai)聊天機器人ELIZA、GPT-3.5和(he)GPT-4。參與者在對(dui)話(hua)結束后(hou)需判斷對(dui)方是(shi)人還(huan)是(shi)機器。
雙方(fang)將(jiang)通過(guo)一(yi)個類(lei)似即(ji)時(shi)通訊應用的界面進行交流。界面底部有(you)一(yi)個聊(liao)天輸入框,屏幕中央為對話(hua)記錄,頂部有(you)一(yi)個計時(shi)器和(he)觸發(fa)(fa)幫助和(he)報告的按鈕。招(zhao)募到的參與者首先發(fa)(fa)送(song)消息,雙方(fang)交替發(fa)(fa)送(song),每條消息限制在一(yi)定的字符數內。
針(zhen)對(dui)AI語言(yan)模型(xing),研究人(ren)員基于表(biao)現最好的(de)GPT-4命令集(提示(shi)(shi)詞)進行了修改(gai),指示(shi)(shi)其(qi)表(biao)現得像一(yi)個年(nian)輕人(ren),不要太認真對(dui)待(dai)游戲,使用口語化表(biao)述,且不要出(chu)現拼寫和語法錯誤。此外,AI模型(xing)也(ye)不能提供(gong)太多的(de)知(zhi)識,尤其(qi)是語文和數(shu)學方面的(de)知(zhi)識。每輪(lun)測試開始時,還會添(tian)加一(yi)些額外的(de)信息(xi),如(ru)姓名、地點和時間戳。
而且,為了(le)模擬真(zhen)實的(de)交流延遲,AI的(de)回復會根據(ju)消息的(de)長(chang)度人(ren)為地延遲發送。這(zhe)種設置旨(zhi)在模擬正常(chang)的(de)人(ren)際交流節奏,增(zeng)(zeng)加(jia)實驗(yan)的(de)現實感。研究小組解(jie)釋稱,人(ren)類之所以(yi)不能百(bai)分之百(bai)地識(shi)別同類,是因(yin)為提問者認(ren)為AI的(de)效(xiao)率(lv)越(yue)來越(yue)高。這(zhe)增(zeng)(zeng)加(jia)了(le)他們將人(ren)類錯誤地識(shi)別為機器的(de)可能性。
為了深(shen)入了解影響參與者(zhe)最(zui)后作出(chu)決定的(de)(de)定性因素,研(yan)究(jiu)小(xiao)組對其使用的(de)(de)策(ce)略(lve)和(he)(he)判斷的(de)(de)理由進行了分類(lei)(lei)。36%的(de)(de)參與者(zhe)與“對話者(zhe)”進行閑聊,詢(xun)問個人細節(jie)或他們(men)的(de)(de)日常活動;第二(er)類(lei)(lei)策(ce)略(lve)是社交和(he)(he)情(qing)感(25%),例(li)如詢(xun)問“對話者(zhe)”的(de)(de)意見、經歷并分析(xi)判斷它(ta)們(men)的(de)(de)幽(you)默感;第三類(lei)(lei)是知識和(he)(he)推理(13%),包括數(shu)學、邏輯和(he)(he)常識問題。
結果顯示,有54%的參(can)與者將(jiang)GPT-4誤認為是真(zhen)人。相比(bi)之下,預先(xian)設定好回(hui)復(fu)的ELIZA只有22%的人將(jiang)其認作(zuo)真(zhen)人,GPT-3.5則(ze)(ze)為50%,而“真(zhen)人對話者”被正確辨認的比(bi)例則(ze)(ze)為67%。
社交情感能力是關鍵
《每日經濟新(xin)聞(wen)》記者注意到,研(yan)究人(ren)員在論文中對“真人(ren)對話者”被正確辨認的比例只有67%感到震驚(jing)。
他(ta)們指出(chu),這可(ke)能反映(ying)出(chu)參與者認(ren)為AI系(xi)(xi)統質量在(zai)不斷進化(hua),這一結果也與近(jin)年來其(qi)他(ta)類似的(de)圖(tu)靈測試(shi)呈現的(de)情況(kuang)類似。當AI系(xi)(xi)統能力很差(cha)時(shi),真人是很容易被(bei)辨別(bie)出(chu)來的(de),而隨著參與者對AI系(xi)(xi)統能力的(de)信(xin)心(xin)增強,他(ta)們便更有(you)可(ke)能將真人誤認(ren)為AI。
作者在(zai)論文中(zhong)指(zhi)出,他(ta)們的(de)(de)(de)(de)(de)結果為(wei)圖(tu)靈測(ce)試提供了(le)一些經驗(yan)性證(zheng)據。就他(ta)們使用的(de)(de)(de)(de)(de)策略和給出的(de)(de)(de)(de)(de)決策理由而言(yan),被招募(mu)的(de)(de)(de)(de)(de)參與者在(zai)測(ce)試中(zhong)更關注的(de)(de)(de)(de)(de)是研究對象在(zai)對話中(zhong)的(de)(de)(de)(de)(de)風(feng)格和社交情感因(yin)素,而不是更傳統的(de)(de)(de)(de)(de)智力類(lei)回答(da),例如知識和推理能力。他(ta)們認(ren)為(wei),這可能是因(yin)為(wei)參與者認(ren)為(wei),社交能力是機器最無法模仿(fang)的(de)(de)(de)(de)(de)人類(lei)特征。
GPT-4和GPT-3.5在(zai)測試中的(de)表現雖然未達(da)到“真人(ren)對話(hua)者”的(de)水平,但目前AI研(yan)究者普遍認(ren)(ren)為(wei),只(zhi)要有30%的(de)回答被誤認(ren)(ren)為(wei)是(shi)人(ren)類,那就算通過測試。不過也(ye)有觀(guan)點(dian)認(ren)(ren)為(wei),50%的(de)基線更(geng)加合(he)理,因為(wei)它更(geng)能證(zheng)明(ming)人(ren)類在(zai)識別(bie)AI方面(mian)并不具有偶然性(xing)。
在(zai)上(shang)述研究中,參與者(zhe)的置(zhi)信度(du)得(de)分和決策(ce)依(yi)據都表明他們并(bing)非隨意猜測(ce):GPT-4是(shi)人類的平(ping)均置(zhi)信度(du)為(wei)73%。
還需要指出的是,由于研究人員在(zai)進行(xing)上述實驗時,OpenAI尚未宣布(bu)新一代的旗艦模(mo)(mo)型GPT-4o。這一全新模(mo)(mo)型可以(yi)利用語音、視頻(pin)和文本信息(xi)進行(xing)實時推理(li),如果參與測試,被參與者誤認(ren)為人類的概率可能就會(hui)更高。
圖(tu)(tu)靈(ling)(ling)(ling)測試是由英國計(ji)(ji)算機科學家阿蘭·圖(tu)(tu)靈(ling)(ling)(ling)(Alan Turing)于1950年(nian)(nian)在其論文《計(ji)(ji)算機器(qi)與智能(neng)》中提出的(de)一個(ge)關于判斷機器(qi)是否(fou)(fou)能(neng)夠思考的(de)著(zhu)名試驗,測試某(mou)機器(qi)是否(fou)(fou)能(neng)表現出與人等同或無法區分的(de)智能(neng)水(shui)平。1966年(nian)(nian),美國計(ji)(ji)算機協會(ACM)還以圖(tu)(tu)靈(ling)(ling)(ling)的(de)名字設(she)立了(le)圖(tu)(tu)靈(ling)(ling)(ling)獎(jiang),被(bei)譽為“計(ji)(ji)算機界的(de)諾貝爾獎(jiang)”,旨在獎(jiang)勵對計(ji)(ji)算機事業作(zuo)出重要(yao)貢(gong)獻的(de)個(ge)人,每(mei)年(nian)(nian)頒(ban)發一次。
封面圖片來源:視(shi)覺中國
如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟新聞(wen)》報(bao)社授(shou)權,嚴禁轉載或(huo)鏡像(xiang),違者必究。
讀者熱(re)線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作(zuo)(zuo)品出現在(zai)本站,可聯系我(wo)們要(yao)求撤下您的作(zuo)(zuo)品。
歡迎(ying)關注(zhu)每日(ri)經濟新聞APP