每日經濟新聞 2025-01-24 07:34:10
1月23日(ri),OpenAI通(tong)過直播發(fa)布了其首款(kuan)AI代理(li)工具Operator。這款(kuan)工具能(neng)夠(gou)像人(ren)類一樣操作(zuo)(zuo)網頁瀏覽器(qi),在有限監督下完(wan)成用戶交代的任務,被(bei)視為AI生產(chan)力的里程(cheng)碑。作(zuo)(zuo)為OpenAI通(tong)往通(tong)用人(ren)工智能(neng)的第三步,Operator基于CUA模型(xing),結(jie)合(he)GPT-4的視覺能(neng)力和高級推(tui)理(li)功能(neng),可(ke)執行如預訂餐廳、網購等任務。
每經(jing)編(bian)輯|杜宇
OpenAI首個智能(neng)體終于亮(liang)相了!
美國初創公司OpenAI1月23日突然舉行直播活動,發布市場期待已久的首款AI代理工具Operator(意為操作員(yuan)),能(neng)夠代理用戶(hu)執行基(ji)于網頁的操作。
圖片來源:直播視(shi)頻截圖
言簡意賅的解釋,就是Operator能夠像人類一樣使用網頁瀏覽器。
與“問一句、答一句”的聊天機器人不同,AI代理能夠在人類有限監督的情況下按照設定完成任務,也被普遍視為AI生產力的下一個里程碑。在OpenAI通往通用人工智能(AGI)的五個步驟中,AI代理是繼聊天機器人、推理機器人之后的第三步,也是全新的一步。
山姆·奧(ao)爾特曼(man)介紹稱,從1月(yue)23日開(kai)始,美(mei)國(guo)的(de)ChatGPT Pro用戶(一個月(yue)交200美(mei)元)將能使(shi)用“研究預(yu)覽版”的(de)Operator。未來將拓展到(dao)更多區域的(de)Pro用戶,幾個月(yue)后ChatGPT Plus用戶也能用上。同時在(zai)未來幾周、幾個月(yue)里(li),還(huan)會發布更多的(de)AI代理。
目前(qian),Operator尚處于研究預覽(lan)階段,僅(jin)向美國地(di)區的Pro用(yong)戶開放。
Operator由一個名為CUA(計算機使用代理)的新模型驅動,結合了GPT-4o的視覺能力,以及(ji)通(tong)過(guo)強化(hua)學習實(shi)現的高級(ji)推理。Operator能夠“看見”網頁(截圖),并使用鼠標和鍵盤允許的所有操作與網頁進行互動。在操作中(zhong)如(ru)果碰到困難,模型會調用推理能力進行自我糾正,若(ruo)依(yi)然無法解(jie)決問題則(ze)會把控制權交還給人類。
如何使用 Operator?用戶只需簡單描述想要完成的任務,Operator 即可自動處理后續步驟。用戶可以隨時接管遠程瀏覽器的控制權。考慮到(dao)安全性和隱私性,Operator 被訓練為在(zai)需要登錄(lu)、輸入(ru)支付信息(xi)或解決 CAPTCHA 驗(yan)證(zheng)碼等(deng)任(ren)務時,主動請求用戶接(jie)管(guan)。
Operator的界(jie)面與聊天機器人ChatGPT類似,最大的區別(bie)是(shi)調用“AI代理”完成用戶吩咐的事情。
在演示案例中,Operator被要求預訂某家飯店。用戶只需要在對話框中輸入“給我訂一個XX飯店今晚19點的桌子”,然后AI代理就會自己打開網頁,進入預訂網站,搜索餐廳并完成預訂。
Operator可以自動填寫繁瑣的在線表單、上網購物、創建表情包、處理重復性瀏覽器任務等等。
在(zai)另一(yi)個(ge)案例中,用戶上傳(chuan)了一張寫有“雞蛋、菠菜、蘑菇”等雜貨的購物清單,要求(qiu)Operator去買菜網站上進行操作。隨后AI就會打開瀏覽(lan)器,順著清單逐一搜索并加入購物車。
完成任務后,Operator會告訴用戶總共需要多少錢,以及騎手送達的時間,然(ran)后將瀏覽器(qi)的控制權交還給人類。
與瀏覽器多標簽頁功能類似,用(yong)戶可(ke)以通過(guo)創建新的對(dui)話,讓Operator同(tong)(tong)時運行多個(ge)任務(wu),例如在Etsy上訂(ding)購個(ge)性化琺瑯杯,同(tong)(tong)時在 Hipcamp 上預(yu)訂(ding)露營地。
更令人(ren)印象深刻(ke)的是,Operator具備一定的自我糾錯能(neng)力。當遇到挑(tiao)戰或犯錯時,它可(ke)以利用推理能(neng)力進行自我調(diao)整(zheng)。如果遇到無(wu)法解決的問題,Operator會將(jiang)控制權(quan)交還給用戶,實(shi)現人(ren)機協作的流暢體驗。
雖然CUA模型仍處于早期階段,存在一些局限性,但(dan)在WebArena和WebVoyager這兩個(ge)關(guan)鍵的瀏覽器使用基準測試(shi)中,它已(yi)經取得了最新(xin)的領先水平。
Operator的(de)發布(bu)標志著AI從被動工具(ju)轉(zhuan)變為數字生(sheng)態系統中的(de)積極(ji)參(can)與者。它(ta)不(bu)僅可以(yi)簡化用(yong)戶(hu)任務,還(huan)將為希望提供創新客(ke)戶(hu)體驗和(he)提高轉(zhuan)化率(lv)的(de)企業帶來代理(li)的(de)優勢。
OpenAI正(zheng)在(zai)與(yu)DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合(he)作,確保(bao)Operator能夠(gou)滿足真(zhen)實世界的需求,并尊(zun)重既(ji)有規范。除(chu)了(le)商(shang)業合(he)作,OpenAI還看(kan)到了(le)在(zai)公共(gong)部門應用中提高效率和可訪問性的巨(ju)大(da)潛力。他們正(zheng)與(yu)斯托克頓市等組織合(he)作,簡化市民注冊城市服務和計劃的流程。
每日經濟(ji)新聞綜(zong)合公開(kai)資料
如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)(jing)《每日經(jing)(jing)濟新聞》報(bao)社授權,嚴禁轉載或鏡像,違者必究(jiu)。
讀者熱線:4008890008
特(te)別提(ti)醒(xing):如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您(nin)不希望作品(pin)出(chu)現在本(ben)站,可聯系我們要求撤下(xia)您(nin)的作品(pin)。
歡迎關注(zhu)每日經濟新(xin)聞APP