今日報紙

研究稱GPT-4通過圖靈測試 54%參與者將其誤認為真人

每日經(jing)濟新聞 2024-06-23 21:46:03

每經記者(zhe)｜蔡(cai)鼎   每經編輯｜蘭素英

自英(ying)國(guo)計算(suan)機科學家阿蘭·圖靈(ling)（Alan Turing）于1950年提出關(guan)于判(pan)斷機器是(shi)否(fou)能夠(gou)思(si)考的(de)(de)著名(ming)試驗“圖靈(ling)測試”以來，該測試就(jiu)被視為判(pan)斷計算(suan)機是(shi)否(fou)具有(you)模擬人類思(si)維能力的(de)(de)關(guan)鍵。近期(qi)，OpenAI開發(fa)的(de)(de)GPT-4模型完成了(le)這項聞名(ming)全球的(de)(de)測試，再度引發(fa)廣泛關(guan)注。

加州大學圣地亞哥分校認知科學系博士生 Cameron R. Jones和教授Benjamin K. Bergen在預印(yin)本arXiv上發表(biao)的(de)最新論文表(biao)明，越(yue)來(lai)越(yue)多的(de)人難以在圖靈(ling)測試中區(qu)分GPT-4和人類。

兩位研(yan)究(jiu)人員以真(zhen)人、初代(dai)聊天(tian)(tian)機(ji)器人ELIZA、GPT- 3.5和GPT-4為(wei)研(yan)究(jiu)對象(xiang)。其中，ELIZA是(shi)由麻(ma)省理工團隊在1964年至(zhi)1966年期間開發的史上第一個聊天(tian)(tian)機(ji)器人，上世(shi)紀60年代(dai)曾參與圖靈測試(shi)，但宣告失(shi)敗。該機(ji)器人沒有(you)大語(yu)言模型或神經網絡(luo)支持。

結(jie)果顯示，多達54%的(de)(de)參與者將GPT-4誤認為真人(ren)，是(shi)迄(qi)今為止首次有(you)AI模(mo)型(xing)以如此(ci)高的(de)(de)結(jie)果通過圖靈(ling)測試。還需(xu)要指(zhi)出的(de)(de)是(shi)，上(shang)述研究開(kai)展之(zhi)時，OpenAI尚未宣布新一代的(de)(de)旗(qi)艦模(mo)型(xing)GPT-4o，如果參與測試的(de)(de)是(shi)GPT-4o，這一比例(li)可能還會(hui)更(geng)高。

研究人員在(zai)進行(xing)實驗時(shi)，OpenAI尚未宣布新(xin)一代的旗艦模型(xing)GPT-4o。圖(tu)為(wei)OpenAI首席執行(xing)官薩姆·阿爾特(te)曼。視覺中國圖(tu)

500名參與者進行測試

研究人員招募了500名參與者，讓他們與四位(wei)“對(dui)話(hua)者”進行五分(fen)鐘(zhong)的交(jiao)流，這四位(wei)“對(dui)話(hua)者”分(fen)別是(shi)真人、初代(dai)聊天機器人ELIZA、GPT-3.5和(he)GPT-4。參與者在對(dui)話(hua)結束后(hou)需判斷對(dui)方是(shi)人還(huan)是(shi)機器。

雙方(fang)將(jiang)通過(guo)一(yi)個類(lei)似即(ji)時(shi)通訊應用的界面進行交流。界面底部有(you)一(yi)個聊(liao)天輸入框，屏幕中央為對話(hua)記錄，頂部有(you)一(yi)個計時(shi)器和(he)觸發(fa)(fa)幫助和(he)報告的按鈕。招(zhao)募到的參與者首先發(fa)(fa)送(song)消息，雙方(fang)交替發(fa)(fa)送(song)，每條消息限制在一(yi)定的字符數內。

針(zhen)對(dui)AI語言(yan)模型(xing)，研究人(ren)員基于表(biao)現最好的(de)GPT-4命令集（提示(shi)(shi)詞）進行了修改(gai)，指示(shi)(shi)其(qi)表(biao)現得像一(yi)個年(nian)輕人(ren)，不要太認真對(dui)待(dai)游戲，使用口語化表(biao)述，且不要出(chu)現拼寫和語法錯誤。此外，AI模型(xing)也(ye)不能提供(gong)太多的(de)知(zhi)識，尤其(qi)是語文和數(shu)學方面的(de)知(zhi)識。每輪(lun)測試開始時，還會添(tian)加一(yi)些額外的(de)信息(xi)，如(ru)姓名、地點和時間戳。

而且，為了(le)模擬真(zhen)實的(de)交流延遲，AI的(de)回復會根據(ju)消息的(de)長(chang)度人(ren)為地延遲發送。這(zhe)種設置旨(zhi)在模擬正常(chang)的(de)人(ren)際交流節奏，增(zeng)(zeng)加(jia)實驗(yan)的(de)現實感。研究小組解(jie)釋稱，人(ren)類之所以(yi)不能百(bai)分之百(bai)地識(shi)別同類，是因(yin)為提問者認(ren)為AI的(de)效(xiao)率(lv)越(yue)來越(yue)高。這(zhe)增(zeng)(zeng)加(jia)了(le)他們將人(ren)類錯誤地識(shi)別為機器的(de)可能性。

為了深(shen)入了解影響參與者(zhe)最(zui)后作出(chu)決定的(de)(de)定性因素，研(yan)究(jiu)小(xiao)組對其使用的(de)(de)策(ce)略(lve)和(he)(he)判斷的(de)(de)理由進行了分類(lei)(lei)。36%的(de)(de)參與者(zhe)與“對話者(zhe)”進行閑聊，詢(xun)問個人細節(jie)或他們(men)的(de)(de)日常活動；第二(er)類(lei)(lei)策(ce)略(lve)是社交和(he)(he)情(qing)感（25%），例(li)如詢(xun)問“對話者(zhe)”的(de)(de)意見、經歷并分析(xi)判斷它(ta)們(men)的(de)(de)幽(you)默感；第三類(lei)(lei)是知識和(he)(he)推理（13%），包括數(shu)學、邏輯和(he)(he)常識問題。

結果顯示，有54%的參(can)與者將(jiang)GPT-4誤認為是真(zhen)人。相比(bi)之下，預先(xian)設定好回(hui)復(fu)的ELIZA只有22%的人將(jiang)其認作(zuo)真(zhen)人，GPT-3.5則(ze)(ze)為50%，而“真(zhen)人對話者”被正確辨認的比(bi)例則(ze)(ze)為67%。

社交情感能力是關鍵

《每日經濟新(xin)聞(wen)》記者注意到，研(yan)究人(ren)員在論文中對“真人(ren)對話者”被正確辨認的比例只有67%感到震驚(jing)。

他(ta)們指出(chu)，這可(ke)能反映(ying)出(chu)參與者認(ren)為AI系(xi)(xi)統質量在(zai)不斷進化(hua)，這一結果也與近(jin)年來其(qi)他(ta)類似的(de)圖(tu)靈測試(shi)呈現的(de)情況(kuang)類似。當AI系(xi)(xi)統能力很差(cha)時(shi)，真人是很容易被(bei)辨別(bie)出(chu)來的(de)，而隨著參與者對AI系(xi)(xi)統能力的(de)信(xin)心(xin)增強，他(ta)們便更有(you)可(ke)能將真人誤認(ren)為AI。

作者在(zai)論文中(zhong)指(zhi)出，他(ta)們的(de)(de)(de)(de)(de)結果為(wei)圖(tu)靈測(ce)試提供了(le)一些經驗(yan)性證(zheng)據。就他(ta)們使用的(de)(de)(de)(de)(de)策略和給出的(de)(de)(de)(de)(de)決策理由而言(yan)，被招募(mu)的(de)(de)(de)(de)(de)參與者在(zai)測(ce)試中(zhong)更關注的(de)(de)(de)(de)(de)是研究對象在(zai)對話中(zhong)的(de)(de)(de)(de)(de)風(feng)格和社交情感因(yin)素，而不是更傳統的(de)(de)(de)(de)(de)智力類(lei)回答(da)，例如知識和推理能力。他(ta)們認(ren)為(wei)，這可能是因(yin)為(wei)參與者認(ren)為(wei)，社交能力是機器最無法模仿(fang)的(de)(de)(de)(de)(de)人類(lei)特征。

GPT-4和GPT-3.5在(zai)測試中的(de)表現雖然未達(da)到“真人(ren)對話(hua)者”的(de)水平，但目前AI研(yan)究者普遍認(ren)(ren)為(wei)，只(zhi)要有30%的(de)回答被誤認(ren)(ren)為(wei)是(shi)人(ren)類，那就算通過測試。不過也(ye)有觀(guan)點(dian)認(ren)(ren)為(wei)，50%的(de)基線更(geng)加合(he)理，因為(wei)它更(geng)能證(zheng)明(ming)人(ren)類在(zai)識別(bie)AI方面(mian)并不具有偶然性(xing)。

在(zai)上(shang)述研究中，參與者(zhe)的置(zhi)信度(du)得(de)分和決策(ce)依(yi)據都表明他們并(bing)非隨意猜測(ce)：GPT-4是(shi)人類的平(ping)均置(zhi)信度(du)為(wei)73%。

還需要指出的是，由于研究人員在(zai)進行(xing)上述實驗時，OpenAI尚未宣布(bu)新一代的旗艦模(mo)(mo)型GPT-4o。這一全新模(mo)(mo)型可以(yi)利用語音、視頻(pin)和文本信息(xi)進行(xing)實時推理(li)，如果參與測試，被參與者誤認(ren)為人類的概率可能就會(hui)更高。

圖(tu)(tu)靈(ling)(ling)(ling)測試是由英國計(ji)(ji)算機科學家阿蘭·圖(tu)(tu)靈(ling)(ling)(ling)（Alan Turing）于1950年(nian)(nian)在其論文《計(ji)(ji)算機器(qi)與智能(neng)》中提出的(de)一個(ge)關于判斷機器(qi)是否(fou)(fou)能(neng)夠思考的(de)著(zhu)名試驗，測試某(mou)機器(qi)是否(fou)(fou)能(neng)表現出與人等同或無法區分的(de)智能(neng)水(shui)平。1966年(nian)(nian)，美國計(ji)(ji)算機協會（ACM）還以圖(tu)(tu)靈(ling)(ling)(ling)的(de)名字設(she)立了(le)圖(tu)(tu)靈(ling)(ling)(ling)獎(jiang)，被(bei)譽為“計(ji)(ji)算機界的(de)諾貝爾獎(jiang)”，旨在獎(jiang)勵對計(ji)(ji)算機事業作(zuo)出重要(yao)貢(gong)獻的(de)個(ge)人，每(mei)年(nian)(nian)頒(ban)發一次。

封面圖片來源：視(shi)覺中國

如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟新聞(wen)》報(bao)社授(shou)權，嚴禁轉載或(huo)鏡像(xiang)，違者必究。

讀者熱(re)線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作(zuo)(zuo)品出現在(zai)本站，可聯系我(wo)們要(yao)求撤下您的作(zuo)(zuo)品。

GPT Ai 研(yan)究

上一篇文章

每經熱評丨服務顧客的店(dian)員才是(shi)Manner最核(he)心的競爭力

返回每經網首頁

下一篇文章

西部證(zheng)券(quan)擬收購國(guo)融證(zheng)券(quan)控股權(quan)