每日經濟新聞 2024-05-15 12:41:16
每經編輯(ji)|程鵬 杜(du)宇
雖然被OpenAI搶在前面發(fa)(fa)布了重(zhong)磅新品演(yan)示,但(dan)谷歌(ge)后發(fa)(fa)制人,做(zuo)到(dao)了OpenAI還(huan)沒能做(zuo)到(dao)的事,率先發(fa)(fa)布人工(gong)智能(AI)搜索引擎,捍衛(wei)搜索領域的王(wang)者地位,同時對(dui)壘(lei)OpenAI新發(fa)(fa)布的旗艦模(mo)型(xing)GPT-4o,以(yi)升級版的最強(qiang)大AI模(mo)型(xing)Gemini迎戰。
從北京時間5月15日凌(ling)晨1點(dian)開始,谷歌在(zai)山景(jing)城總部附近的海岸線圓形劇場,召開了長(chang)達兩個小時的年度I/O開發者(zhe)大(da)會Keynote演講。
與預(yu)期一致,谷歌的(de)這場(chang)發(fa)布(bu)會基本都是(shi)在談(tan)AI、AI、AI、AI和AI。根據發(fa)布(bu)會最后的(de)官方統計,整場(chang)Keynote的(de)演講稿里(li)總共提了120次(ci)AI。
谷歌CEO Sundar Pichai表示,谷歌所有的工作都圍繞(rao)生成式AI模(mo)型Gemini來做,“我們希望每個(ge)人都能從Gemini所做的事中受益(yi)。”AI搜索正(zheng)是Pichai提到的Gemini融入谷歌多種服(fu)務之(zhi)一。
同(tong)時(shi)谷歌(ge)搜索(suo)也將(jiang)具備多(duo)步驟推理能力,可(ke)以一(yi)次性處理帶有多(duo)個(ge)限制條(tiao)件的(de)長(chang)問題,并支持“拍視頻(pin)”搜索(suo)解(jie)決(jue)方案的(de)新搜索(suo)形(xing)式。
另(ling)外以(yi)(yi)上下文(wen)窗口(kou)“長”聞名的Gemini 1.5 Pro大(da)模(mo)(mo)型(xing)(xing),在(zai)今年晚(wan)些(xie)時候將會把(ba)100萬Tokens的窗口(kou),進一步(bu)(bu)擴(kuo)大(da)至200萬Tokens,拓展同(tong)步(bu)(bu)處理多(duo)模(mo)(mo)態(tai)(tai)信息的邊界。而對(dui)于一些(xie)需(xu)要快速響應(ying)的場景,谷歌也推出了(le)Gemini 1.5 Flash模(mo)(mo)型(xing)(xing)。今年2月剛(gang)剛(gang)問世的Gemma開源(yuan)模(mo)(mo)型(xing)(xing),也將在(zai)下個月迎來參數量(liang)更大(da)的Gemma 2。在(zai)多(duo)模(mo)(mo)態(tai)(tai)領域,谷歌也發(fa)布了(le)文(wen)生圖工具Imagen 3、與Youtube&音(yin)樂(le)家(jia)合作的“AI音(yin)樂(le)沙盒(he)”,以(yi)(yi)及(ji)最新的視頻生成模(mo)(mo)型(xing)(xing)Veo。而多(duo)模(mo)(mo)態(tai)(tai)Gemini Nano模(mo)(mo)型(xing)(xing)也將在(zai)今年晚(wan)些(xie)時候登陸(lu)Pixel手機,這是在(zai)本地運行的機載模(mo)(mo)型(xing)(xing)。
值得注意的(de)是,谷(gu)歌的(de)發布(bu)會上(shang)也(ye)有一些(xie)與昨日OpenAI發布(bu)會“雷(lei)同”的(de)地方——實時AI助手。從今年夏天開始,Gemini也(ye)將(jiang)支持語音實時交互,同時今年晚些(xie)時候還將(jiang)上(shang)線實時視頻交互。未來幾個月內,谷(gu)歌也(ye)將(jiang)推出類似于GPTs的(de)自定義(yi)AI助手功能(neng),叫做Gems,能(neng)夠(gou)與整套(tao)“谷(gu)歌全家桶”聯動。
硬(ying)件方面,谷(gu)歌宣布(bu)了(le)第六代TPU芯片Trillium,并(bing)透露(lu)能夠在明年(nian)初用(yong)上英偉達(da)最新的(de)Blackwell架構GPU。另外,液冷、光纜等中國股民(min)可能會感(gan)興趣的(de)題材也在發布(bu)會上出現。
Gemini 1.5 Pro上下文窗口(kou)200萬token?
全(quan)球最長
谷(gu)歌稱(cheng),推出號稱(cheng)有史以來最強大AI模(mo)型Gemini Advanced三個(ge)(ge)月內。從本周(zhou)二起,谷(gu)歌在(zai)Gemini Advanced中(zhong)加(jia)入新模(mo)型成員Gemini 1.5 Pro,稱(cheng)它擁有的(de)(de)上下文(wen)窗口(kou)在(zai)全(quan)球消費類聊天機器人(ren)中(zhong)最長,窗口(kou)起始就有100萬個(ge)(ge)token。Gemini 1.5 Pro將(jiang)向150 多(duo)個(ge)(ge)國家地區的(de)(de)Gemini Advanced訂閱者提供,支持超過35 種(zhong)語言。
Pichai稱,Gemini 1.5 Pro“提供(gong)了迄今(jin)為止(zhi)所有基礎模型中(zhong)最長的上下文(wen)窗口(kou)。” 他介紹,Gemini 1.5 Pro將擁有200 萬個(ge)token的上下文(wen)窗口(kou),是當(dang)前模型100萬個(ge)token窗口(kou)的兩倍。
谷歌稱,今年夏季將(jiang)擴展 Gemini 的(de)多模(mo)態(tai)功能(neng),包括增加(jia)用語(yu)音進(jin)行深(shen)入雙向對(dui)話(hua)的(de)能(neng)力(li),該(gai)功能(neng)被稱為 Live。通(tong)過 Gemini Live,用戶可(ke)以(yi)與 Gemini 交談(tan),并可(ke)以(yi)從(cong)各(ge)種自(zi)然的聲音中選(xuan)擇它回應的聲音。用戶甚至可以按照(zhao)自己的節(jie)奏(zou)說(shuo)話(hua),或者(zhe)在回答過程(cheng)中(zhong)打斷并(bing)澄清(qing)問題,就像在任何人(ren)類(lei)對話(hua)中(zhong)一樣。
谷歌稱,今年夏(xia)季,將在Gemini Advanced 中添加新的(de)旅行(xing)規劃(hua)功能。借助考慮時(shi)間和空間方面物(wu)流的(de)先進推(tui)理,Gemini將能夠創建個(ge)性化的(de)行(xing)程,節省(sheng)用戶的(de)工作(zuo)時(shi)間。
未(wei)來幾(ji)周,谷歌將(jiang)在(zai)Gemini Advanced中添加(jia)新(xin)的數據(ju)分(fen)析功能。用戶只需上傳電子表格,Gemini 就可以分(fen)析數據(ju)、制作圖表,并更快(kuai)地發掘見解。
谷歌(ge)將推出(chu)被稱為Gem的(de)Gemini的(de)定(ding)制(zhi)版本(ben)。Gemini Advanced 訂閱者將很(hen)快可以獲得(de)更個性化的(de)體驗,根據自己的(de)需要創建Gemini,只需描(miao)述用戶希望(wang) Gem 做什么以及希望(wang)它如何響應,就(jiu)可以讓(rang)它化身(shen)健身(shen)伙伴、主廚幫手(shou)、編(bian)代碼的(de)拍檔(dang)或者創意寫作指南。
谷歌官宣推出新的(de)(de)多(duo)模態AI項目Project Astra,它(ta)可以(yi)為用戶解釋智能(neng)手機拍到(dao)的(de)(de)東西。在谷歌展示的(de)(de)視頻中,只(zhi)要將手機攝(she)像頭對(dui)準某個物體,Gemini就可以(yi)識(shi)別它(ta),比如(ru)一個紅蘋果,還(huan)可以(yi)回答諸如(ru)鏡頭中什么東西是可以(yi)發聲的(de)(de)這(zhe)種問題。
谷歌稱,將很快為模型Gemini Nano添加多模式(shi)功能。這意(yi)味著,用戶的(de)手機可以通過(guo)文本、圖像、聲音和(he)口語,按照用戶理(li)解(jie)的(de)方(fang)式(shi)理(li)解(jie)世界。
谷歌稱(cheng),端側安卓系統手機(ji)版的(de)(de)Gemini Nano將(jiang)更有(you)幫助,更有(you)上下文(wen)的(de)(de)意識。今年,安卓手機(ji)的(de)(de)用戶將(jiang)可以(yi)將(jiang)生(sheng)成(cheng)的(de)(de)圖像拖(tuo)放到(dao)Google Messages 和(he)(he) Gmail 中,并可以(yi)直接在手機(ji)上提出(chu)有(you)關(guan)YouTube視頻和(he)(he) PDF文(wen)件的(de)(de)問題(ti),得(de)到(dao)解答(da)。
谷歌稱,今年晚些時候,Gemini Nano的輔助功能TalkBack將增強。圖像描述(shu)將更加清晰和(he)豐富,幫助弱視用戶和(he)盲人用戶通過語(yu)音(yin)反饋,更好(hao)地指(zhi)示他們的手機。
全(quan)場發布會(hui)回顧(gu)
發布會開始,Alphabet&谷歌CEO桑達爾(er)·皮查伊登上舞臺(tai)。
皮查伊(yi)表示,現在已經有(you)超過(guo)150萬(wan)開發者正在使用(yong)谷歌的(de)人工(gong)(gong)智能(neng)Gemini,今(jin)天將展(zhan)示一(yi)系列有(you)關(guan)搜索、圖(tu)片(pian)、工(gong)(gong)作套(tao)件、安(an)卓系統等(deng)等(deng)與人工(gong)(gong)智能(neng)有(you)關(guan)的(de)案例。
皮查伊宣布,能(neng)夠(gou)總(zong)結谷歌(ge)搜索(suo)引(yin)擎結果(guo)的“AI概覽”(AI Overviews)功能(neng),將于本周在美國推出。
---基于(yu)Gemini支持,谷歌圖片(pian)(Google Photos)將支持用戶存儲圖片(pian)的(de)AI搜索(suo),例如(ru)“告訴我,我的(de)車牌號碼(ma)是多少?”——這個名為Ask Photos的(de)功能將于(yu)今年夏(xia)天(tian)推出。
皮(pi)查伊(yi)宣布,最新版(ban)(ban)本的Gemini 1.5 Pro(在(zai)多項核心功(gong)(gong)能方面均較最初發布版(ban)(ban)本有所提高)現(xian)在(zai)向(xiang)(xiang)全球所有開(kai)發者(zhe)開(kai)放。從(cong)今天開(kai)始,支持(chi)100萬tokens上下文窗口(kou)的Gemini 1.5 Pro將(jiang)在(zai)Gemini Advanced功(gong)(gong)能下向(xiang)(xiang)用戶開(kai)放,支持(chi)35種語言(yan)。
谷歌(ge)同時面向開(kai)發者推出支持200萬tokens的(de)Gemini 1.5 Pro模(mo)型的(de)預覽,并表示(shi)最(zui)終的(de)目標將(jiang)是“無限(xian)上下文”。
谷歌AI業務總(zong)負責人、DeepMind的(de)(de)首席執行官杰(jie)米(mi)斯·哈薩比斯登臺(tai),宣布推出Gemini 1.5 Flash大模型(xing)。這(zhe)個(ge)模型(xing)兼具速度與效率,和多(duo)模態推理能(neng)力,以(yi)及(ji)長達(da)100萬tokens的(de)(de)上下(xia)文窗口(kou)。開發者(zhe)將能(neng)夠申請體驗200萬tokens的(de)(de)上下(xia)文窗口(kou)的(de)(de)Gemini 1.5 Flash。
谷(gu)歌展(zhan)示“未來(lai)的(de)人工(gong)智(zhi)能助手”——名為“Astra”的(de)項目。哈薩比(bi)斯表示,這(zhe)(zhe)樣的(de)AI助手需(xu)要(yao)像人類(lei)一樣理解(jie)這(zhe)(zhe)個(ge)動態且復(fu)雜的(de)世(shi)界(jie)。需(xu)要(yao)記(ji)得住它(ta)(ta)看到的(de)東(dong)西,這(zhe)(zhe)樣才能理解(jie)對話并(bing)付(fu)諸于行(xing)動。同時(shi)它(ta)(ta)也得能積極主動接受教(jiao)導(dao),以及自然、無(wu)延(yan)遲地進行(xing)交流。在演示視頻(pin)中,谷(gu)歌的(de)AI助手能夠通過攝(she)像頭視頻(pin),識別(bie)“什么(me)東(dong)西能發出聲(sheng)音”、“現在身處何(he)地”等(deng)指(zhi)令。
谷歌宣布(bu)了(le)一系列(lie)與圖(tu)像(xiang)、音(yin)(yin)樂、視頻(pin)有關的(de)(de)生(sheng)成(cheng)式(shi)AI工(gong)具(ju)。包括文生(sheng)圖(tu)工(gong)具(ju)Imagen 3、與Youtube以及(ji)音(yin)(yin)樂家合(he)作的(de)(de)“AI音(yin)(yin)樂沙盒”,以及(ji)最新的(de)(de)視頻(pin)生(sheng)成(cheng)模型(xing)Veo。
其中(zhong)最受關注的視頻(pin)生成模型Veo,能夠根據(ju)文字、圖片和視頻(pin)的提(ti)示,生成高(gao)質量(liang)1080p視頻(pin)。
哈薩比斯離(li)場,皮查伊重回舞臺(tai),發布第(di)六代(dai)TPU芯片(pian)Trillium,較上(shang)一代(dai)芯片(pian)的(de)算力表現翻4.7倍,云(yun)用(yong)戶從今年(nian)下半年(nian)開(kai)始可以用(yong)上(shang)新(xin)芯片(pian)。同(tong)時谷(gu)歌云(yun)將在2025年(nian)初,用(yong)上(shang)英偉(wei)達(da)的(de)最(zui)新(xin)Blackwell架構GPU。
皮(pi)查(cha)伊開始介(jie)紹自家的(de)AI超級計算(suan)機,比起(qi)用戶自己買(mai)相同(tong)的(de)硬件和芯片,谷(gu)歌的(de)架構能使得效能翻(fan)倍,其中有部分功勞(lao)來(lai)自于液冷系統。皮(pi)查(cha)伊表(biao)示,谷(gu)歌部署液冷系統的(de)數據中心已(yi)經達到1GW,而且還在(zai)不斷增長中。
皮查伊表示,谷歌投(tou)資(zi)了200萬英里的地面和海底(di)光(guang)纖,比第二名(ming)的云服(fu)務商翻了十倍(bei)。液冷、光(guang)纜,應該都(dou)是股民們會感興趣的東西。
谷歌搜索業務負責(ze)人Liz Reid開始具(ju)體介紹AI Overviews功(gong)能。Reid表(biao)示,在進行搜索時,搜素引(yin)擎具(ju)備(bei)多步(bu)驟推理(li)的(de)能力(li),例(li)如(ru)尋找一個瑜(yu)伽教室,同時展示新(xin)手優惠報(bao)價,和距(ju)離特(te)定位置的(de)步(bu)行時間。這個AI搜索引(yin)擎助手,還能介紹食(shi)譜、安排行程(cheng),以(yi)及接受視頻形(xing)式的(de)提問(例(li)如(ru)視頻中的(de)相(xiang)機怎么(me)使用)。
在辦公套件Workspace方面(mian),谷歌將逐步(bu)推(tui)出(chu)總結、郵件Q&A,以及智能回復等功能。
谷歌(ge)Gemini總經理Sissie Hsiao介紹了Gemini App的(de)(de)更新。與(yu)周一(yi)的(de)(de)OpenAI一(yi)樣,從今年夏天(tian)開始,Gemini也將(jiang)(jiang)支持語音實時交互,同時今年晚些(xie)時候還(huan)將(jiang)(jiang)上線(xian)實時視頻交互功(gong)能。未來幾個月內,谷歌(ge)也將(jiang)(jiang)推出類似于GPTs的(de)(de)自定義AI助手(shou)功(gong)能,叫做Gems。這個AI助手(shou)的(de)(de)亮點,將(jiang)(jiang)是(shi)能與(yu)“谷歌(ge)全家桶”進行(xing)交互。
Hsiao再次強(qiang)調了Gemini的長上下(xia)文窗(chuang)口——能(neng)夠(gou)一次性處理(li)整整1500頁的文件,或3萬行(xing)代碼、1小時(shi)視頻(pin)。不同的載(zai)體也能(neng)混同一起提交給(gei)聊(liao)天機(ji)器人(ren)。她再次強(qiang)調,今年(nian)晚些時(shi)候上下(xia)文窗(chuang)口將翻倍至200萬Tokens。
安卓(zhuo)生態系(xi)統的負責人Sameer Samat登臺(tai),他將討論今年安卓(zhuo)系(xi)統實(shi)現(xian)的“三(san)大(da)突破”,分(fen)別(bie)是“畫(hua)圈(quan)圈(quan)搜索”、Gemini手(shou)機AI助手(shou),第(di)三(san)是在手(shou)機本地運行的AI。
谷(gu)歌表示,今(jin)年晚些時(shi)候,能夠在(zai)本地(di)運行的(de)多模態(tai)Gemini Nano模型(xing)將登陸Pixel手(shou)機(ji),意味著手(shou)機(ji)將能通(tong)過(guo)文字、圖片、視頻、音頻,理解(jie)用戶(hu)的(de)世界。舉例(li)而言,在(zai)聽到“幫你把錢(qian)轉到安全(quan)賬戶(hu)”這樣的(de)詐(zha)騙電話時(shi),手(shou)機(ji)會自動彈出詐(zha)騙警(jing)告。整個過(guo)程都是在(zai)本地(di)運行,不會引(yin)發隱私泄露。
谷歌披(pi)露大模(mo)型API的(de)最新定價,其(qi)中Gemini 1.5 Pro定價為(wei)(wei)(wei)7美(mei)元(yuan)/100萬(wan)Tokens,12.8K上下文窗口的(de)版本定價為(wei)(wei)(wei)3.5美(mei)元(yuan)/100萬(wan)Tokens;而Gemini 1.5的(de)起售價為(wei)(wei)(wei)0.35美(mei)元(yuan)/100萬(wan)Tokens。
對(dui)于(yu)在(zai)今(jin)年二(er)(er)月剛剛推(tui)出(chu)(chu)(chu)的(de)輕量級(ji)開源模(mo)型(xing)(xing)Gemma,谷歌(ge)宣布(bu)推(tui)出(chu)(chu)(chu)視頻語言(yan)模(mo)型(xing)(xing)PaliGemma,并將(jiang)會在(zai)6月推(tui)出(chu)(chu)(chu)Gemma 2。相較(jiao)于(yu)第一(yi)代(dai)模(mo)型(xing)(xing)只有20億(yi)和70億(yi)的(de)參數量,第二(er)(er)代(dai)開源Gemma的(de)參數量能達到270億(yi)。
作為發(fa)布(bu)會最(zui)后的彩蛋,谷歌CEO皮查(cha)伊最(zui)后用Gemini總(zong)結了今天的發(fa)布(bu)會稿子里(li)總(zong)共提了多少(shao)次(ci)AI——120次(ci)。當(dang)然,這并不包括皮查(cha)伊問完這個問題后,又喚(huan)了幾遍AI。
截至當地時(shi)間(jian)5月14日收盤(pan),谷歌(ge)報171.93美元,漲幅(fu)0.6%,市(shi)值2.1萬億美元。
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。
編(bian)輯(ji)|程鵬?杜宇?杜恒峰
校對|何小(xiao)桃
每日經(jing)濟新聞綜合(he)公開資料(liao)
如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經(jing)《每日經(jing)濟新聞》報社授權(quan),嚴禁轉載或鏡像(xiang),違者必究。
讀(du)者熱線:4008890008
特別提(ti)醒(xing):如果我們使用了您的圖片,請作者與本站聯系索取稿(gao)酬。如您不希望(wang)作品出現在本站,可聯系(xi)我們(men)要求撤下您的(de)作品。
歡迎關(guan)注每日經濟新(xin)聞APP