每(mei)日(ri)經濟新聞(wen) 2024-09-14 00:31:48
每經記者|鄭雨航 每經編輯|程鵬 蘭(lan)素(su)英
傳說中的“草莓”模型今(jin)天在沒有任何預告(gao)下忽然上線了!
OpenAI最新(xin)發布(bu)的(de)模(mo)型(xing)名(ming)為o1,是系(xi)列推理模(mo)型(xing)的(de)首批版本(ben),現階段推出的(de)是o1-preview(預覽版)和(he)o1-mini(迷你版)。
目前,o1-preview和o1-mini已經面向ChatGPT Plus和Team訂(ding)閱(yue)用戶(hu)開放,而Enterprise和Edu用戶(hu)將(jiang)于下周初獲(huo)得訪問權限。OpenAI表示,它計劃(hua)向ChatGPT的所有免(mian)費(fei)用戶(hu)提供(gong)o1-mini訪問權限,但尚未確定發布日期(qi)。
據OpenAI介紹,在(zai)解決問題(ti)的能(neng)力(li)方面(mian),o1模型比以往(wang)任何模型都更接(jie)近人(ren)類思維,并(bing)且(qie)能(neng)夠“推理”數學(xue)、編(bian)碼(ma)和(he)科學(xue)任務。
為了驗證新(xin)模型的能(neng)力是(shi)否正如OpenAI所宣(xuan)稱(cheng)的那么強(qiang)大(da),《每(mei)日經(jing)濟(ji)新(xin)聞》記者從經(jing)典“草莓測(ce)試”、代碼編寫、小游戲制作、數學與經(jing)濟(ji)學,以及事實性知識這五大(da)維度對(dui)o1-preview模型進行了測(ce)試。
結果顯示,o1-preview表現(xian)出了超越(yue)OpenAI之前(qian)發布的(de)(de)大模(mo)型(xing)的(de)(de)編程(cheng)和數學推理(li)能力。例如(ru),o1-preview能夠編寫出流暢運行的(de)(de)代碼,并且在復雜(za)環(huan)境中依然(ran)能夠自行推理(li)出解決方案。而且,記者(zhe)在測試過程(cheng)中也感覺到,o1-preview在人(ren)性化(hua)方面(mian)也有很大的(de)(de)提升,表現(xian)出了真人(ren)般的(de)(de)思考。不過,新模(mo)型(xing)也并非毫(hao)無缺(que)點,在事實性知識(shi)測試就“翻車”了。?
當地時間(jian)9月12日,OpenAI發布了一款名為o1的新(xin)模(mo)型,這是其(qi)計劃(hua)中一系列“推(tui)理(li)”模(mo)型中的第一個版(ban)本,也是此前業界盛傳已(yi)久的“草莓”模(mo)型。
?
圖片來源:X平臺(tai)
對于OpenAI來說,o1代表著它(ta)朝著類人AI的目標又邁出了(le)一步。OpenAI認為,o1代表著一種(zhong)全(quan)新(xin)的能(neng)力(li),這一能(neng)力(li)被(bei)認為如此重要,以至于公司(si)決(jue)定從(cong)當前的GPT-4模(mo)型重新(xin)開始(shi),完(wan)全(quan)放棄了(le)“GPT”品(pin)牌,從(cong)1開始(shi)命名。?
OpenAI表(biao)示,將從當前的GPT-4模型重(zhong)新開始(shi),“將計數器重(zhong)置為 1”,甚至放棄了(le)迄今為止定義了(le)聊天機器人(ren)乃至整個(ge)(ge)生成式AI熱潮的“GPT”品牌。o1建立了(le)一(yi)個(ge)(ge)能夠通過一(yi)系(xi)列(lie)離散(san)步(bu)驟(zou),謹慎而合乎邏輯地解決(jue)問題(ti)的系(xi)統,每個(ge)(ge)步(bu)驟(zou)都建立在(zai)上(shang)一(yi)個(ge)(ge)步(bu)驟(zou)的基礎上(shang),類(lei)似于人(ren)類(lei)的推理方式。
OpenAI首席科學家Jakub Pachocki表示,之前(qian)的模型在(zai)收到(dao)用戶問(wen)詢時會立即(ji)開始回答。“而這個模型(指的是o1)會慢慢來。它思(si)考問(wen)題,并(bing)嘗試分解問(wen)題,尋找角度,努(nu)力(li)提供最佳(jia)答案。”這就(jiu)像大多數人(ren)在幼年時(shi)被父母所要求的那樣,先想(xiang)好再(zai)說(shuo)話(hua)。
OpenAI表示,o1在競(jing)賽(sai)編程(cheng)問(wen)題(ti)(Codeforces)中(zhong)(zhong)排(pai)名第89個百分點,在美國(guo)數學奧(ao)林匹克(ke)競(jing)賽(sai)(AIME)預選賽(sai)中(zhong)(zhong)位(wei)列美國(guo)前500名學生(sheng)之列,并且(qie)在物(wu)理、生(sheng)物(wu)和化學問(wen)題(ti)的基(ji)準測試(GPQA)中(zhong)(zhong)超過了(le)人(ren)類博士水平的準確(que)度。
在OpenAI發布的研究和(he)(he)博客文章(zhang)中,o1看起來“推理”能(neng)(neng)力十分(fen)強(qiang)大,不僅可(ke)解(jie)決高級數學(xue)和(he)(he)編(bian)碼問題(ti)(ti),還(huan)能(neng)(neng)解(jie)密(mi)(mi)復(fu)雜(za)的密(mi)(mi)碼,以(yi)及解(jie)答來自專家學(xue)者們關于遺傳學(xue)、經濟學(xue)和(he)(he)量(liang)子(zi)物理學(xue)的復(fu)雜(za)問題(ti)(ti)。大量(liang)圖表(biao)顯示,在內(nei)部評估中,o1在編(bian)碼、數學(xue)和(he)(he)各個科(ke)學(xue)領域(yu)的問題(ti)(ti)上已經超越了公(gong)司最先進的語言模型GPT-4o,甚至可能超越了人類。
圖片來源:OpenAI官網(wang)
為了(le)(le)深入了(le)(le)解o1模型的(de)強大能(neng)力(li),《每日經(jing)(jing)濟(ji)新(xin)聞》記者從(cong)經(jing)(jing)典草(cao)莓測試(shi)、代碼編寫、小游戲制作、數(shu)學與經(jing)(jing)濟(ji)學,以(yi)及(ji)事實性知識這五大維度對o1-preview模型進行了(le)(le)測試(shi)。?
1)草(cao)莓測試
首(shou)先,記者用之前幾乎所有大模型都“翻車”的(de)一道(dao)簡單題目進行了測試,即“單詞strawberry里面(mian)到底有幾個r”。從生成(cheng)的(de)結果看,o1-preview還是帶來了一點小(xiao)驚喜的(de)。
2)代碼編寫
記者首先向o1-preview詢(xun)問了一(yi)個(ge)在(zai)線編程(cheng)平臺leetcode里最有名的簡單算法題(ti):Two Sum(兩數之和)問題(ti)。o1給出了很(hen)詳盡的推理過(guo)程(cheng)和答案。
隨后記者故意要求優化(hua)答案(an),o1在思考9秒(miao)后意識到自(zi)己提(ti)供的已經(jing)是最(zui)優解法(fa)了(le),并就此進行了(le)說(shuo)明,另外還很“貼心”地提(ti)供了(le)一(yi)個次(ci)優解。而在之前記者對(dui)其他(ta)模(mo)型(xing)的測試中,這些模(mo)型(xing)只會(hui)道歉然后將答案(an)更改(gai)為次(ci)優解。
3)小游(you)戲制作(zuo)
在o1模型(xing)的演示(shi)中,OpenAI演示(shi)過“用一句話編寫小游(you)戲”的功(gong)能(neng)。測試過程中,記者讓o1-preview幫忙介紹好用的代碼工具,并協助(zhu)編寫一個乒乓小游(you)戲。
o1-preview僅用了19秒就給出了一份能夠(gou)流暢運行的代碼(ma),并且附上了學習(xi)指(zhi)南和鼓(gu)勵的話語,非常地(di)人性化。
為避免o1-preview作弊,使(shi)用的(de)是(shi)記憶(yi)能力(li),而不是(shi)使(shi)用推理能力(li)進(jin)行回答,記者還請求o1-preview更換了一(yi)個代碼運(yun)行環(huan)境:jupyter note。這一(yi)運(yun)行環(huan)境是(shi)針對(dui)數據分(fen)析(xi)進(jin)行特化的(de)python環(huan)境,開發(fa)人員基本不會(hui)使(shi)用此環(huan)境開發(fa)小游戲(xi)。
經過(guo)思考(kao)后,o1依然給出了一個可(ke)以運行的(de)(de)代(dai)碼(ma)。不過(guo),相較(jiao)于之前的(de)(de)代(dai)碼(ma),這(zhe)份答案(an)有(you)著不少(shao)的(de)(de)bug,但(dan)這(zhe)也(ye)從側面(mian)說明這(zhe)確實是思考(kao)出來的(de)(de)答案(an),而不是訓練過(guo)程中加入的(de)(de)標準答案(an)。
為進一步驗(yan)證o1-preview的(de)創新(xin)推理能力,記(ji)者隨后又要(yao)求模型在(zai)這個小游戲的(de)基礎上開發一個更(geng)復(fu)雜有趣的(de)小游戲。
這下,o1的(de)表現真的(de)有點驚喜。根據(ju)乒乓(pang)游戲(xi)(xi)的(de)碰撞(zhuang)機制,該模型自行(xing)迭代出(chu)了一個向(xiang)上登高(gao)的(de)跳躍(yue)游戲(xi)(xi)。一般其他大模型需(xu)要(yao)用戶(hu)把需(xu)求描述清(qing)楚才會輸(shu)出(chu)一個比較好的(de)答案,但記者在(zai)這次(ci)測試中沒有進行(xing)任何的(de)額外提示,o1就輸(shu)出(chu)了一個能流(liu)暢運行(xing),并且在(zai)記者眼中看(kan)來也(ye)足夠有趣的(de)小游戲(xi)(xi)。
4)科學類測試
在(zai)科學類測(ce)試方(fang)面(mian),記(ji)者重點(dian)測(ce)試了o1-preview在(zai)數學和(he)經(jing)濟(ji)學上的表現。
首先,記者(zhe)拋(pao)出的是一(yi)個數學(xue)推(tui)理問題,向o1-preview詢問解決歐拉方程有限(xian)時間爆(bao)破的可能方法(fa)(這是著名華裔數學(xue)家、菲爾茲獎得主陶哲軒教授本周才發表的討論文章)。
o1雖然(ran)沒有給出明確解(jie)法,但(dan)卻提供了(le)一(yi)(yi)個解(jie)題思路,這一(yi)(yi)思路和陶(tao)哲軒教授(shou)文(wen)章部分(fen)吻合(雖然(ran)很少)。
經濟(ji)學(xue)方向(xiang)上,記者向(xiang)o1-preview詢問了(le)一個(ge)復雜的經濟(ji)系統問題(ti)(ti)。從給出(chu)的反饋看,基本(ben)沒有什么太大(da)的問題(ti)(ti),整體邏(luo)輯清(qing)晰,思(si)考維度也是多樣化的,給出(chu)的數(shu)學(xue)公式(shi)雖然(ran)有一點小差錯但是無傷大(da)體。
5)事實(shi)性知(zhi)識與(yu)語言理解(jie)
在這一環節,記者向o1-preview詢問(wen)了(le)明朝第一任皇帝的(de)趣事(shi),但o1就將趣事(shi)理解成(cheng)了(le)歷(li)史上(shang)實際發生過的(de)事(shi)情,將朱(zhu)元璋的(de)歷(li)史故事(shi)整個(ge)敘述了(le)出來。
同時(shi),記(ji)者(zhe)也將這一問題丟給了(le)GPT-4o模型(xing),作為對(dui)比,GPT-4o能很(hen)(hen)好地理解記(ji)者(zhe)的問題,并講了(le)兩個流(liu)傳很(hen)(hen)廣的民(min)間小(xiao)故事(shi)。
總(zong)體來看,OpenAI宣稱(cheng)o1模型(xing)能接近人類水平在某些方面上看起來并(bing)不是虛(xu)話。
最讓記(ji)者驚喜的(de)是,OpenAI將模(mo)型思(si)(si)考的(de)過(guo)程(cheng)用(yong)(yong)文(wen)字展示給了用(yong)(yong)戶,文(wen)字思(si)(si)考過(guo)程(cheng)中,大模(mo)型大量使用(yong)(yong)了“我(wo)(wo)正在”“我(wo)(wo)認為”“我(wo)(wo)打算”等(deng)話語,感(gan)覺更加(jia)擬(ni)人化,就(jiu)像一個(ge)真人在用(yong)(yong)戶面前闡述自己(ji)的(de)思(si)(si)考邏輯(ji)一般。
但(dan)這(zhe)也并不(bu)意味著o1模型(xing)就(jiu)是完美(mei)的。OpenAI也承(cheng)認,在設計、寫作、編輯文(wen)字等方面上(shang),o1遠不(bu)如GPT-4o。o1也沒有(you)瀏覽(lan)網頁(ye)或處理文(wen)件(jian)和(he)圖像(xiang)的能(neng)力。
而(er)最讓記者感(gan)到頭疼的(de)是(shi),即使是(shi)一個很簡單的(de)請求,比如說將輸出(chu)結果轉換為中文(wen),o1都會消(xiao)耗十幾秒鐘的(de)時間來思考(kao),而(er)GPT4o就會很快處理好(hao)這(zhe)一請求。
就算在OpenAI的優勢領域中,o1模型(xing)(xing)也(ye)會突然出現性能下(xia)降(jiang),模型(xing)(xing)輸出懶惰的情況。已離職的OpenAI創始人(ren)Karpathy就吐槽(cao)道:“它(ta)一(yi)直拒絕為我解決黎曼假說。模型(xing)(xing)懶惰仍然是一(yi)個(ge)主要問(wen)題(ti)。”
OpenAI表示,公司會在(zai)之后的更新中解決這些問(wen)題,畢竟(jing)現在(zai)這只是推理模型的早期預覽。
記者|鄭雨(yu)航?岳楚鵬(實習)
編輯|程鵬?蘭素英?杜(du)恒峰
校對|劉(liu)小英
|每日經濟新聞 ?nbdnews??原創文章|
未經許可禁止轉載(zai)、摘(zhai)編、復制及鏡(jing)像(xiang)等(deng)使用
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日(ri)經濟新聞》報社(she)授權,嚴禁轉(zhuan)載或(huo)鏡像,違者(zhe)必究。
讀者熱線(xian):4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站(zhan),可聯系(xi)我(wo)們要求撤下您的作品。
歡(huan)迎(ying)關注每日經濟新聞APP