要聞

五大維度評測OpenAI全新o1模型：代碼編寫、游戲制作等能力“驚艷”，事實性知識卻“翻了車”

每(mei)日(ri)經濟新聞(wen) 2024-09-14 00:31:48

每經記者｜鄭雨航每經編輯｜程鵬蘭(lan)素(su)英

傳說中的“草莓”模型今(jin)天在沒有任何預告(gao)下忽然上線了！

OpenAI最新(xin)發布(bu)的(de)模(mo)型(xing)名(ming)為o1，是系(xi)列推理模(mo)型(xing)的(de)首批版本(ben)，現階段推出的(de)是o1-preview（預覽版）和(he)o1-mini（迷你版）。

目前，o1-preview和o1-mini已經面向ChatGPT Plus和Team訂(ding)閱(yue)用戶(hu)開放，而Enterprise和Edu用戶(hu)將(jiang)于下周初獲(huo)得訪問權限。OpenAI表示，它計劃(hua)向ChatGPT的所有免(mian)費(fei)用戶(hu)提供(gong)o1-mini訪問權限，但尚未確定發布日期(qi)。

據OpenAI介紹，在(zai)解決問題(ti)的能(neng)力(li)方面(mian)，o1模型比以往(wang)任何模型都更接(jie)近人(ren)類思維，并(bing)且(qie)能(neng)夠“推理”數學(xue)、編(bian)碼(ma)和(he)科學(xue)任務。

為了驗證新(xin)模型的能(neng)力是(shi)否正如OpenAI所宣(xuan)稱(cheng)的那么強(qiang)大(da)，《每(mei)日經(jing)濟(ji)新(xin)聞》記者從經(jing)典“草莓測(ce)試”、代碼編寫、小游戲制作、數學與經(jing)濟(ji)學，以及事實性知識這五大(da)維度對(dui)o1-preview模型進行了測(ce)試。

結果顯示，o1-preview表現(xian)出了超越(yue)OpenAI之前(qian)發布的(de)(de)大模(mo)型(xing)的(de)(de)編程(cheng)和數學推理(li)能力。例如(ru)，o1-preview能夠編寫出流暢運行的(de)(de)代碼，并且在復雜(za)環(huan)境中依然(ran)能夠自行推理(li)出解決方案。而且，記者(zhe)在測試過程(cheng)中也感覺到，o1-preview在人(ren)性化(hua)方面(mian)也有很大的(de)(de)提升，表現(xian)出了真人(ren)般的(de)(de)思考。不過，新模(mo)型(xing)也并非毫(hao)無缺(que)點，在事實性知識(shi)測試就“翻車”了。?

傳說中的(de)“草莓(mei)”來了?

當地時間(jian)9月12日，OpenAI發布了一款名為o1的新(xin)模(mo)型，這是其(qi)計劃(hua)中一系列“推(tui)理(li)”模(mo)型中的第一個版(ban)本，也是此前業界盛傳已(yi)久的“草莓”模(mo)型。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNj9NPfKVLYe42ribqMfnGgXicPHCLaspqxMDDGpVq5cbtjplpwgdggAmg.png

圖片來源：X平臺(tai)

對于OpenAI來說，o1代表著它(ta)朝著類人AI的目標又邁出了(le)一步。OpenAI認為，o1代表著一種(zhong)全(quan)新(xin)的能(neng)力(li)，這一能(neng)力(li)被(bei)認為如此重要，以至于公司(si)決(jue)定從(cong)當前的GPT-4模(mo)型重新(xin)開始(shi)，完(wan)全(quan)放棄了(le)“GPT”品(pin)牌，從(cong)1開始(shi)命名。?

OpenAI表(biao)示，將從當前的GPT-4模型重(zhong)新開始(shi)，“將計數器重(zhong)置為 1”，甚至放棄了(le)迄今為止定義了(le)聊天機器人(ren)乃至整個(ge)(ge)生成式AI熱潮的“GPT”品牌。o1建立了(le)一(yi)個(ge)(ge)能夠通過一(yi)系(xi)列(lie)離散(san)步(bu)驟(zou)，謹慎而合乎邏輯地解決(jue)問題(ti)的系(xi)統，每個(ge)(ge)步(bu)驟(zou)都建立在(zai)上(shang)一(yi)個(ge)(ge)步(bu)驟(zou)的基礎上(shang)，類(lei)似于人(ren)類(lei)的推理方式。

OpenAI首席科學家Jakub Pachocki表示，之前(qian)的模型在(zai)收到(dao)用戶問(wen)詢時會立即(ji)開始回答。“而這個模型（指的是o1）會慢慢來。它思(si)考問(wen)題，并(bing)嘗試分解問(wen)題，尋找角度，努(nu)力(li)提供最佳(jia)答案。”這就(jiu)像大多數人(ren)在幼年時(shi)被父母所要求的那樣，先想(xiang)好再(zai)說(shuo)話(hua)。

OpenAI表示，o1在競(jing)賽(sai)編程(cheng)問(wen)題(ti)（Codeforces）中(zhong)(zhong)排(pai)名第89個百分點，在美國(guo)數學奧(ao)林匹克(ke)競(jing)賽(sai)（AIME）預選賽(sai)中(zhong)(zhong)位(wei)列美國(guo)前500名學生(sheng)之列，并且(qie)在物(wu)理、生(sheng)物(wu)和化學問(wen)題(ti)的基(ji)準測試（GPQA）中(zhong)(zhong)超過了(le)人(ren)類博士水平的準確(que)度。

在OpenAI發布的研究和(he)(he)博客文章(zhang)中，o1看起來“推理”能(neng)(neng)力十分(fen)強(qiang)大，不僅可(ke)解(jie)決高級數學(xue)和(he)(he)編(bian)碼問題(ti)(ti)，還(huan)能(neng)(neng)解(jie)密(mi)(mi)復(fu)雜(za)的密(mi)(mi)碼，以(yi)及解(jie)答來自專家學(xue)者們關于遺傳學(xue)、經濟學(xue)和(he)(he)量(liang)子(zi)物理學(xue)的復(fu)雜(za)問題(ti)(ti)。大量(liang)圖表(biao)顯示，在內(nei)部評估中，o1在編(bian)碼、數學(xue)和(he)(he)各個科(ke)學(xue)領域(yu)的問題(ti)(ti)上已經超越了公(gong)司最先進的語言模型GPT-4o，甚至可能超越了人類。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNDHs1FpS2ZHVq8qEUia5ib2PI20Sajiclrb16ru96DnEkQiaX0bJTSiaEN7w.jpg

圖片來源：OpenAI官網(wang)

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

代碼(ma)編寫(xie)、游(you)戲制作等能力“驚(jing)艷(yan)”

為了(le)(le)深入了(le)(le)解o1模型的(de)強大能(neng)力(li)，《每日經(jing)(jing)濟(ji)新(xin)聞》記者從(cong)經(jing)(jing)典草(cao)莓測試(shi)、代碼編寫、小游戲制作、數(shu)學與經(jing)(jing)濟(ji)學，以(yi)及(ji)事實性知識這五大維度對o1-preview模型進行了(le)(le)測試(shi)。?

1）草(cao)莓測試

首(shou)先，記者用之前幾乎所有大模型都“翻車”的(de)一道(dao)簡單題目進行了測試，即“單詞strawberry里面(mian)到底有幾個r”。從生成(cheng)的(de)結果看，o1-preview還是帶來了一點小(xiao)驚喜的(de)。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNAshxpKEicvF7wDTg30iaVKZjGhxq09HIXU88WkB0zHEVbcwIcIFkXJSA.jpg

2）代碼編寫

記者首先向o1-preview詢(xun)問了一(yi)個(ge)在(zai)線編程(cheng)平臺leetcode里最有名的簡單算法題(ti)：Two Sum（兩數之和）問題(ti)。o1給出了很(hen)詳盡的推理過(guo)程(cheng)和答案。

隨后記者故意要求優化(hua)答案(an)，o1在思考9秒(miao)后意識到自(zi)己提(ti)供的已經(jing)是最(zui)優解法(fa)了(le)，并就此進行了(le)說(shuo)明，另外還很“貼心”地提(ti)供了(le)一(yi)個次(ci)優解。而在之前記者對(dui)其他(ta)模(mo)型(xing)的測試中，這些模(mo)型(xing)只會(hui)道歉然后將答案(an)更改(gai)為次(ci)優解。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNB6KFibPCzAFWrFRaicUcHf5QZnDyibCQ2nVCZMBG1nicHHu79RC5SJmrTQ.png

3）小游(you)戲制作(zuo)

在o1模型(xing)的演示(shi)中，OpenAI演示(shi)過“用一句話編寫小游(you)戲”的功(gong)能(neng)。測試過程中，記者讓o1-preview幫忙介紹好用的代碼工具，并協助(zhu)編寫一個乒乓小游(you)戲。

o1-preview僅用了19秒就給出了一份能夠(gou)流暢運行的代碼(ma)，并且附上了學習(xi)指(zhi)南和鼓(gu)勵的話語，非常地(di)人性化。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNhBbjub2rGJcloqY7P4HhXibw9pIQ0C9AYs25IKdnezgKuSibCsFjQJaQ.png

為避免o1-preview作弊，使(shi)用的(de)是(shi)記憶(yi)能力(li)，而不是(shi)使(shi)用推理能力(li)進(jin)行回答，記者還請求o1-preview更換了一(yi)個代碼運(yun)行環(huan)境：jupyter note。這一(yi)運(yun)行環(huan)境是(shi)針對(dui)數據分(fen)析(xi)進(jin)行特化的(de)python環(huan)境，開發(fa)人員基本不會(hui)使(shi)用此環(huan)境開發(fa)小游戲(xi)。

經過(guo)思考(kao)后，o1依然給出了一個可(ke)以運行的(de)(de)代(dai)碼(ma)。不過(guo)，相較(jiao)于之前的(de)(de)代(dai)碼(ma)，這(zhe)份答案(an)有(you)著不少(shao)的(de)(de)bug，但(dan)這(zhe)也(ye)從側面(mian)說明這(zhe)確實是思考(kao)出來的(de)(de)答案(an)，而不是訓練過(guo)程中加入的(de)(de)標準答案(an)。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNgqjNoEC7okCph1PibmECjn9VecQkH4ia8rN9j3jMUZcywadIy1NKOfCA.jpg

為進一步驗(yan)證o1-preview的(de)創新(xin)推理能力，記(ji)者隨后又要(yao)求模型在(zai)這個小游戲的(de)基礎上開發一個更(geng)復(fu)雜有趣的(de)小游戲。

這下，o1的(de)表現真的(de)有點驚喜。根據(ju)乒乓(pang)游戲(xi)(xi)的(de)碰撞(zhuang)機制，該模型自行(xing)迭代出(chu)了一個向(xiang)上登高(gao)的(de)跳躍(yue)游戲(xi)(xi)。一般其他大模型需(xu)要(yao)用戶(hu)把需(xu)求描述清(qing)楚才會輸(shu)出(chu)一個比較好的(de)答案，但記者在(zai)這次(ci)測試中沒有進行(xing)任何的(de)額外提示，o1就輸(shu)出(chu)了一個能流(liu)暢運行(xing)，并且在(zai)記者眼中看(kan)來也(ye)足夠有趣的(de)小游戲(xi)(xi)。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNnIpTPnByeqCO8HL8uyA1wDXjG5icFQW8sLEffGTaCsGGbiaCEicsPON7w.png

4）科學類測試

在(zai)科學類測(ce)試方(fang)面(mian)，記(ji)者重點(dian)測(ce)試了o1-preview在(zai)數學和(he)經(jing)濟(ji)學上的表現。

首先，記者(zhe)拋(pao)出的是一(yi)個數學(xue)推(tui)理問題，向o1-preview詢問解決歐拉方程有限(xian)時間爆(bao)破的可能方法(fa)（這是著名華裔數學(xue)家、菲爾茲獎得主陶哲軒教授本周才發表的討論文章）。

o1雖然(ran)沒有給出明確解(jie)法，但(dan)卻提供了(le)一(yi)(yi)個解(jie)題思路，這一(yi)(yi)思路和陶(tao)哲軒教授(shou)文(wen)章部分(fen)吻合（雖然(ran)很少）。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNOkxGbJl7dZia0xyTAeWyW7ia8BouMg0Oy5UaHibXv2EVtUeRrPtJM1qJw.png

經濟(ji)學(xue)方向(xiang)上，記者向(xiang)o1-preview詢問了(le)一個(ge)復雜的經濟(ji)系統問題(ti)(ti)。從給出(chu)的反饋看，基本(ben)沒有什么太大(da)的問題(ti)(ti)，整體邏(luo)輯清(qing)晰，思(si)考維度也是多樣化的，給出(chu)的數(shu)學(xue)公式(shi)雖然(ran)有一點小差錯但是無傷大(da)體。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNuicxJlxAntKde6uem2WoG9K4gIhwskCmwyHDo3yppF66cr0majuY7RA.png

5）事實(shi)性知(zhi)識與(yu)語言理解(jie)

在這一環節，記者向o1-preview詢問(wen)了(le)明朝第一任皇帝的(de)趣事(shi)，但o1就將趣事(shi)理解成(cheng)了(le)歷(li)史上(shang)實際發生過的(de)事(shi)情，將朱(zhu)元璋的(de)歷(li)史故事(shi)整個(ge)敘述了(le)出來。

同時(shi)，記(ji)者(zhe)也將這一問題丟給了(le)GPT-4o模型(xing)，作為對(dui)比，GPT-4o能很(hen)(hen)好地理解記(ji)者(zhe)的問題，并講了(le)兩個流(liu)傳很(hen)(hen)廣的民(min)間小(xiao)故事(shi)。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWN1noicFyw3M1ZoIOPudz8D0FYnMHLDfxZp32vkVGaHPnasN7ibau4VTBQ.png

總(zong)體來看，OpenAI宣稱(cheng)o1模型(xing)能接近人類水平在某些方面上看起來并(bing)不是虛(xu)話。

最讓記(ji)者驚喜的(de)是，OpenAI將模(mo)型思(si)(si)考的(de)過(guo)程(cheng)用(yong)(yong)文(wen)字展示給了用(yong)(yong)戶，文(wen)字思(si)(si)考過(guo)程(cheng)中，大模(mo)型大量使用(yong)(yong)了“我(wo)(wo)正在”“我(wo)(wo)認為”“我(wo)(wo)打算”等(deng)話語，感(gan)覺更加(jia)擬(ni)人化，就(jiu)像一個(ge)真人在用(yong)(yong)戶面前闡述自己(ji)的(de)思(si)(si)考邏輯(ji)一般。

CFF20LXzkOzwtgWxTtrbYe71MQVic2icWNNTxbkImWibB2cv9MlXvEae9WTHIaZm8TW0k7ESYsklib6cqqRjSs0q9w.png

但(dan)這(zhe)也并不(bu)意味著o1模型(xing)就(jiu)是完美(mei)的。OpenAI也承(cheng)認，在設計、寫作、編輯文(wen)字等方面上(shang)，o1遠不(bu)如GPT-4o。o1也沒有(you)瀏覽(lan)網頁(ye)或處理文(wen)件(jian)和(he)圖像(xiang)的能(neng)力。

而(er)最讓記者感(gan)到頭疼的(de)是(shi)，即使是(shi)一個很簡單的(de)請求，比如說將輸出(chu)結果轉換為中文(wen)，o1都會消(xiao)耗十幾秒鐘的(de)時間來思考(kao)，而(er)GPT4o就會很快處理好(hao)這(zhe)一請求。

就算在OpenAI的優勢領域中，o1模型(xing)(xing)也(ye)會突然出現性能下(xia)降(jiang)，模型(xing)(xing)輸出懶惰的情況。已離職的OpenAI創始人(ren)Karpathy就吐槽(cao)道：“它(ta)一(yi)直拒絕為我解決黎曼假說。模型(xing)(xing)懶惰仍然是一(yi)個(ge)主要問(wen)題(ti)。”

OpenAI表示，公司會在(zai)之后的更新中解決這些問(wen)題，畢竟(jing)現在(zai)這只是推理模型的早期預覽。

記者|鄭雨(yu)航?岳楚鵬（實習）

編輯|程鵬?蘭素英?杜(du)恒峰

校對|劉(liu)小英

｜每日經濟新聞 ?nbdnews??原創文章｜