每(mei)日(ri)經濟新(xin)聞(wen) 2024-05-17 21:13:55
每(mei)經(jing)記者|可楊 楊卉(hui) 每(mei)經(jing)編輯|何小桃(tao) 蘭素英
【編者按】:
本周,OpenAI推出新一代旗艦AI模型——GPT-4o。而早(zao)在2023年(nian)3月15日,GPT-4就(jiu)已正式(shi)問世(shi),其強大的文本生(sheng)成(cheng)能力(li)迅速使生(sheng)成(cheng)式(shi)AI成(cheng)為全球(qiu)焦點,掀起了一場AI技術競賽的浪潮。
在國內,生成式大(da)(da)模(mo)型(xing)的發(fa)布(bu)同樣風(feng)起云涌。2023年3月16日,百度發(fa)布(bu)“文心一言”大(da)(da)模(mo)型(xing);2023年4月10日,商湯科(ke)技的日日新發(fa)布(bu);2023年4月11日,阿里巴(ba)巴(ba)的通義千問發(fa)布(bu);2023年7月7日,華為云推出(chu)盤(pan)古大(da)(da)模(mo)型(xing)3.0……各方力量爭(zheng)先(xian)恐后,爭(zheng)奇斗(dou)艷(yan),這股(gu)熱潮被(bei)形象地(di)稱為“百模(mo)大(da)(da)戰(zhan)”。
那么,一年多過去了(le),國內大模(mo)型企業(ye)的發展(zhan)現狀(zhuang)如何(he)?硅谷(gu)的生(sheng)態(tai)又(you)有(you)怎(zen)樣的新變化(hua)?在這一領域(yu)中(zhong),科技巨頭和初創企業(ye)展(zhan)現出(chu)(chu)了(le)怎(zen)樣的發展(zhan)方向?對(dui)此,《每日經濟新聞(wen)》特推出(chu)(chu)《“百模(mo)大戰”周年考》策劃,深(shen)入(ru)探討這些問題。
一年前的3月15日(ri),隨著OpenAI多模態預訓練(lian)大(da)(da)模型GPT-4的發布,國內包括百度、華(hua)為、騰訊等科技巨頭(tou),百川(chuan)智能等初(chu)創(chuang)企業,以及(ji)智譜AI研究院等研究機(ji)構紛紛揚帆起(qi)航,投身到(dao)人工智能(AI)大(da)(da)模型開(kai)發,試圖搭上這趟時代的列(lie)車,轟(hong)轟(hong)烈(lie)烈(lie)的“百模大(da)(da)戰”也(ye)由此開(kai)啟。
據(ju)《每日經濟新聞》記者的不完(wan)全統計(ji),截至今年(nian)4月(yue)(yue)底(di),國內共計(ji)推出了305個大(da)(da)模(mo)型。而(er)截至5月(yue)(yue)16日,只有約(yue)(yue)140個大(da)(da)模(mo)型完(wan)成(cheng)生成(cheng)式人工智(zhi)能服務備案,占發布總量的45.9%。這意味(wei)著,還有約(yue)(yue)165個大(da)(da)模(mo)型尚未獲(huo)得“過審”機(ji)會(hui)。
這一(yi)嚴峻現實的背后除了有技術層面(mian)的難度,還有訓練和(he)推理過程(cheng)中(zhong)高昂算(suan)力成本的制約;即便是跨過這一(yi)關,大模型(xing)企業(ye)如何實現商業(ye)化,依然(ran)著面(mian)臨(lin)不小的難度。而對(dui)這場競賽(sai)中(zhong)可能被“出局”的公司來說,未來的路(lu)又在何方呢(ni)?
現狀:305個大模型發布,
僅約四(si)成(cheng)完成(cheng)備案
GPT-4的發布在全球掀起了“煉大模型”的熱潮,面對這一新藍海(hai),科技巨頭、初創企業以及科研院(yuan)校相繼開啟布局,沒(mei)人想(xiang)錯過這趟時代(dai)的列(lie)車。
據《每日經(jing)濟新聞》不完全統計,截至今(jin)年4月(yue)底(di),國內共推出了約305個(ge)大(da)模型,在(zai)過去一年推動著(zhu)語言(yan)理(li)解(jie)、圖像(xiang)識別等多個(ge)領域的技術進(jin)步。
圖片(pian)來源:每經(jing)制(zhi)圖
截至2024年5月16日,國內共有約140個大模型完成生成式人工智能服務(wu)備案,占305個大模型的45.9%左右。
此前,國家網信辦有關負責人就《辦法》相關問(wen)題回答(da)媒體提(ti)問(wen)時介紹,《辦法》規定(ding),利用(yong)生成式人工(gong)智(zhi)能技術向中華人民(min)共和國境內(nei)公眾(zhong)提(ti)供(gong)生成文本(ben)、圖片、音(yin)頻、視頻等(deng)內(nei)容的服務(wu),適用(yong)本(ben)辦法。
在(zai)已備(bei)案的大模(mo)型中,在(zai)地域分布上,北京以70個備(bei)案大模(mo)型領跑全國,凸(tu)顯了其在(zai)AI領域的集聚(ju)效應。上海和(he)廣東緊(jin)隨其后,分別有28個和(he)19個模(mo)型備(bei)案。
圖片來(lai)源:每經制圖
而“140”這一(yi)數字(zi)同時(shi)也(ye)意味著,從備(bei)(bei)案(an)層面來看,大約還有165個大模型依舊未通(tong)過備(bei)(bei)案(an),無法(fa)公(gong)開向公(gong)眾提供(gong)服(fu)務。這些尚(shang)未能(neng)“過審”的大模型中,不乏(fa)一(yi)些備(bei)(bei)受(shou)關注的明星項(xiang)目,包括曾號稱是“國內(nei)首(shou)個ChatGPT”的元語智能(neng)大模型ChatYuan。
更多未完(wan)成(cheng)備案(an)的(de)是(shi)(shi)“學(xue)(xue)院派”大(da)(da)(da)模(mo)型。在305個大(da)(da)(da)模(mo)型中,有60個大(da)(da)(da)模(mo)型是(shi)(shi)由(you)大(da)(da)(da)學(xue)(xue)或(huo)研(yan)究院所研(yan)發(fa)。或(huo)許是(shi)(shi)由(you)于研(yan)究機構的(de)項(xiang)目更偏重(zhong)學(xue)(xue)術探(tan)索,而(er)非商業應用,備案(an)動力或(huo)流程可(ke)能不如(ru)企(qi)業迅(xun)速。也有大(da)(da)(da)模(mo)型轉(zhuan)向“境內深(shen)度合成(cheng)服務算(suan)法”備案(an),例如(ru)恒生電子的(de)大(da)(da)(da)模(mo)型。
一名大模型(xing)(xing)(xing)行業(ye)(ye)創業(ye)(ye)者對《每(mei)日經濟新聞》記者介紹稱,當前模型(xing)(xing)(xing)相(xiang)關的備案申請(qing)有點像(xiang)專(zhuan)利申請(qing),并不一定(ding)會(hui)(hui)通過,且申請(qing)周期(qi)較(jiao)長,約在(zai)4~6個月。他(ta)表示,當下,大模型(xing)(xing)(xing)只要做To C服務,就需要備案,而在(zai)B端,一些(xie)大客戶會(hui)(hui)要求大模型(xing)(xing)(xing)公司完(wan)成備案工作。
不過他同時(shi)強調,沒備案的大模(mo)型(xing)也不代表(biao)就消(xiao)失(shi)在市面上,很多來自(zi)研(yan)究(jiu)所、大學的大模(mo)型(xing)僅(jin)僅(jin)只用于研(yan)究(jiu),就沒有(you)動機(ji)去完成備案。
一家大模(mo)型頭(tou)部企業從(cong)業人士(shi)也告訴(su)記者,來自大學(xue)的大模(mo)型,如(ru)果只做(zuo)自己學(xue)術范圍內的研究,是可以不用(yong)備案(an)的。
“百模(mo)大(da)戰”行(xing)(xing)至(zhi)此時(shi),最(zui)(zui)終留下(xia)3~5家大(da)模(mo)型已經(jing)成為行(xing)(xing)業(ye)對于(yu)這場競賽最(zui)(zui)終結(jie)局的共識。“大(da)模(mo)型這個(ge)行(xing)(xing)業(ye)(到(dao)最(zui)(zui)后(hou))可能(neng)就(jiu)不存在(zai)(zai)了(le),未來大(da)模(mo)型就(jiu)是幾(ji)個(ge)最(zui)(zui)基本(ben)的底(di)座(zuo),只有少數的幾(ji)家公司。”行(xing)(xing)行(xing)(xing)AI董事長、順福資本(ben)創(chuang)始人李(li)明順曾在(zai)(zai)接受(shou)《每日經(jing)濟新聞(wen)》記(ji)者采(cai)訪(fang)時(shi)坦言。
難點:成本(ben)高(gao),日活(huo)千萬需年入
超100億元才(cai)能覆(fu)蓋數據中心成本(ben)
算力(li)資源的(de)(de)稀缺性(xing)是(shi)制(zhi)約大(da)模(mo)型(xing)發(fa)展(zhan)的(de)(de)關鍵(jian)瓶頸。對不少大(da)模(mo)型(xing)來(lai)說(shuo),沒能挺過一(yi)周(zhou)年,難搞(gao)的(de)(de)算力(li)要(yao)負很(hen)大(da)責任。對于模(mo)型(xing)廠商而言(yan),目前主要(yao)的(de)(de)算力(li)成本(ben)(ben)包(bao)括預訓練成本(ben)(ben)和推理成本(ben)(ben)。模(mo)型(xing)推理應用階段對算力(li)的(de)(de)需求要(yao)遠(yuan)(yuan)遠(yuan)(yuan)高于訓練階段。
據中國工程院(yuan)院(yuan)士鄭緯(wei)民計算,在大(da)模(mo)型訓練的過程中,70%的開(kai)銷要花(hua)在算力上;推理過程中95%的花(hua)費也是在算力上。
以(yi)GPT-4為(wei)例,該模型的訓練需要一(yi)萬塊英偉(wei)達A100芯片跑(pao)上(shang)11個月。假設每塊A100的成(cheng)本為(wei)10000美元(價格因供(gong)應商和(he)購買數量而異),那么一(yi)萬塊A100的總成(cheng)本約為(wei)1億(yi)美元。
對于許多急匆匆踏上(shang)大(da)模型賽道的創業公(gong)司或(huo)科(ke)技(ji)企業來說(shuo),在“燒”了一陣子錢后(hou),他們(men)絕望地發現(xian),算力不僅越來越貴,質量也開(kai)始下(xia)降。
鄭緯(wei)民表(biao)示,目前,市面上只有(you)三類(lei)系統(tong)可(ke)支(zhi)持(chi)大(da)(da)模(mo)型訓練。其中(zhong),基于(yu)英偉達(da)GPU的(de)系統(tong)一卡難(nan)求;基于(yu)國產(chan)AI芯片(pian)的(de)系統(tong)面臨國產(chan)卡應用不足、生態系統(tong)有(you)待(dai)改善的(de)問題;而基于(yu)超(chao)級計算機的(de)系統(tong),雖然可(ke)在作(zuo)好(hao)軟(ruan)硬件協同設(she)計的(de)情況下(xia)實現大(da)(da)模(mo)型訓練,但(dan)需在超(chao)算機器尚(shang)未飽和的(de)前提下(xia)操(cao)作(zuo),私(si)人企業獲得超(chao)算設(she)備的(de)機會(hui)并不大(da)(da)。
據(ju)英特爾方面介紹,在大(da)(da)(da)(da)模型領域,去年關注點(dian)更多(duo)是(shi)在模型訓(xun)(xun)(xun)練(lian)(lian)(lian)上(shang),對成本和(he)功耗并不那(nei)么重視,彼時,企業都(dou)希望能訓(xun)(xun)(xun)練(lian)(lian)(lian)一個自己的通(tong)用(yong)大(da)(da)(da)(da)模型。隨著(zhu)很多(duo)通(tong)用(yong)大(da)(da)(da)(da)模型被訓(xun)(xun)(xun)練(lian)(lian)(lian)出來,今(jin)年關注的重點(dian)則轉移到了推理。對企業來說,大(da)(da)(da)(da)模型訓(xun)(xun)(xun)練(lian)(lian)(lian)出來是(shi)需要(yao)變現且(qie)能夠盈(ying)利的。但目前市場(chang)上(shang)很多(duo)大(da)(da)(da)(da)模型都(dou)是(shi)基(ji)于開源的,性能差(cha)(cha)不多(duo),用(yong)于訓(xun)(xun)(xun)練(lian)(lian)(lian)的數據(ju)也差(cha)(cha)不多(duo),很難通(tong)過差(cha)(cha)異化來盈(ying)利。
沒有足夠的(de)資金(jin)支撐推理過程(cheng),成了很多創業(ye)者敗退的(de)原因之一(yi)。為了降低成本,部(bu)分企業(ye)正在嘗(chang)試(shi)探(tan)索是(shi)否可(ke)以(yi)用CPU來做大(da)模型推理。從當前(qian)一(yi)些案例(li)來看,在130億參(can)數以(yi)下的(de)大(da)模型中(zhong),CPU是(shi)可(ke)以(yi)做到(dao)的(de)這(zhe)一(yi)點的(de)。
然(ran)而,即(ji)便(bian)是熬過了(le)推(tui)理關,企(qi)業要將大(da)模(mo)型(xing)變(bian)現仍有不小的(de)(de)難度。在行云集成電路(lu)創始人季宇看來,大(da)模(mo)型(xing)的(de)(de)商業落地與早期(qi)互聯網時代(dai)相比(bi)區別很(hen)大(da),邊際成本(ben)(ben)仍然(ran)非(fei)常高。大(da)模(mo)型(xing)每增加(jia)一(yi)個用戶,基礎(chu)設(she)施需增加(jia)的(de)(de)成本(ben)(ben)是肉眼可(ke)見的(de)(de),一(yi)個月(yue)幾十美元的(de)(de)訂閱費用根(gen)本(ben)(ben)不足以抵消背(bei)后高昂的(de)(de)成本(ben)(ben)。
更為關鍵的是,眼下大模型要大規模商業化,在模型質量、上下文長度等方面還有進一步訴求,不排除會進一步增加邊際成本。目前(qian)來(lai)看,日活千萬的(de)(de)通用(yong)大模型一年需(xu)超過100億元的(de)(de)收入才能支撐(cheng)其背后的(de)(de)數據中心(xin)成本(ben),未來(lai)大模型要(yao)像互(hu)聯(lian)網產業一樣服務上億人,成本(ben)一定是邁不(bu)過去的(de)(de)檻(jian)。
尋找新“航道”:投身應用
或專注垂(chui)類細分行業
如果說“百模大戰”最后的(de)(de)贏家只屬于(yu)少數幾家公司,那在這場賽事中被淘汰的(de)(de)公司,未來會走向(xiang)何方?
昆侖萬(wan)維董(dong)事長方漢曾在接受《每日經濟新聞》記者采(cai)訪時表示(shi),“百(bai)模大戰”會(hui)淘(tao)汰一部分公(gong)司,剩下的(de)科技公(gong)司肯定會(hui)繼(ji)續全(quan)速前進。
在行云集成電路(lu)創始人季宇看(kan)來(lai),當下和未(wei)來(lai)兩三年(nian),大模(mo)型(xing)的商業探(tan)索會(hui)在成本(ben)和Token質量上相互妥協,并(bing)逐漸分化為兩派。
一派是質(zhi)量優(you)先,用(yong)高端(duan)系(xi)統打造(zao)高質(zhi)量的(de)(de)(de)(de)(de)通用(yong)大模型(xing),尋找超級應用(yong)來(lai)覆蓋高昂的(de)(de)(de)(de)(de)成本(ben)。另一派是成本(ben)優(you)先,用(yong)足夠(gou)便(bian)宜的(de)(de)(de)(de)(de)硬(ying)件(jian)提供基本(ben)夠(gou)用(yong)的(de)(de)(de)(de)(de)Token質(zhi)量,尋找垂直場景的(de)(de)(de)(de)(de)落地。若能在同樣(yang)(yang)的(de)(de)(de)(de)(de)成本(ben)下(xia)買到規(gui)格(ge)大得多的(de)(de)(de)(de)(de)芯片,跑(pao)一個(ge)百億千億模型(xing),支持(chi)超長上下(xia)文(wen),商業(ye)化的(de)(de)(de)(de)(de)空間會(hui)比今天(tian)大得多,就(jiu)像(xiang)曾經(jing)的(de)(de)(de)(de)(de)顯卡和游戲(xi)行(xing)業(ye)一樣(yang)(yang)。
啟明(ming)創投(tou)合伙人周志峰(feng)認為,當下(xia),絕大多數的(de)(de)(de)(de)(de)大模(mo)(mo)(mo)型(xing)企業(ye)是(shi)包著(zhu)大模(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)皮,裹著(zhu)應用(yong)的(de)(de)(de)(de)(de)心,“擁有模(mo)(mo)(mo)型(xing)能力(li)的(de)(de)(de)(de)(de)團隊更容易在算法、模(mo)(mo)(mo)型(xing)、數據(ju)、模(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)加速方(fang)面去做(zuo)優(you)化,以達到體驗更好的(de)(de)(de)(de)(de)產(chan)品,尤其對比那些用(yong)第三(san)方(fang)模(mo)(mo)(mo)型(xing)純粹(cui)做(zuo)應用(yong)的(de)(de)(de)(de)(de)公(gong)司(si)。這一類公(gong)司(si)其實不是(shi)模(mo)(mo)(mo)型(xing)公(gong)司(si),未(wei)來一定會是(shi)一家應用(yong)公(gong)司(si)”。
周志峰以字節跳動(dong)(dong)為(wei)例,從(cong)今(jin)日頭條到抖音到TikTok,背后的(de)軸是(shi)AI驅(qu)動(dong)(dong)的(de)推薦引(yin)擎。“字節跳動(dong)(dong)第(di)一輪、第(di)二輪融資的(de)時候跟我們投資人講得更多的(de)故事是(shi)AI驅(qu)動(dong)(dong)的(de)推進引(yin)擎,而(er)今(jin)天不會再去說字節跳動(dong)(dong)是(shi)一家(jia)AI技術(shu)公司(si),只會記得是(shi)哪幾個應用(yong)造成(cheng)了(le)這(zhe)么大(da)的(de)規(gui)模(mo)。”同理,今(jin)天大(da)部分的(de)大(da)模(mo)型公司(si)未(wei)來也一定是(shi)靠它最終闖(chuang)出了(le)超級應用(yong),大(da)家(jia)因為(wei)這(zhe)個超級應用(yong)而(er)記住這(zhe)家(jia)公司(si)。
李明順也持同樣的觀點,即不(bu)(bu)(bu)遠的未來,有一部分大模(mo)型(xing)公(gong)(gong)(gong)司要轉型(xing)成應用公(gong)(gong)(gong)司,因為大模(mo)型(xing)領域(yu)不(bu)(bu)(bu)需要這(zhe)么(me)多(duo)公(gong)(gong)(gong)司,“有一些大模(mo)型(xing)公(gong)(gong)(gong)司的創始(shi)人有Plan A和(he)Plan B的雙計劃,就是(shi)(shi)一旦(dan)我的模(mo)型(xing)實在是(shi)(shi)拼(pin)不(bu)(bu)(bu)過前面的5家之(zhi)后,就要被(bei)迫(po)在一些垂直領域(yu)里(li)面找到(dao)生存之(zhi)地(di),它就會轉型(xing)為一家應用公(gong)(gong)(gong)司。”
在備案成功的大模(mo)型(xing)(xing)中,部分模(mo)型(xing)(xing)已(yi)經從通用型(xing)(xing)轉變為聚(ju)焦(jiao)特定領(ling)域或行業的細分垂類模(mo)型(xing)(xing)。
中科(ke)聞(wen)歌董事長(chang)王磊在(zai)(zai)接受《每日經(jing)濟新(xin)聞(wen)》記者采(cai)訪時坦言,在(zai)(zai)過去(qu)的半年(nian)到(dao)一年(nian)內,適當做小行業大模(mo)(mo)型,降低參(can)數(shu)規模(mo)(mo)的趨勢已經(jing)變得非常(chang)明顯。真正成功的商業應(ying)用不是制造一個巨(ju)無霸(ba),而(er)是能夠(gou)被用戶(hu)廣泛使用且(qie)價格(ge)適中。“實用至(zhi)上是關鍵,不必為了面子(zi)而(er)去(qu)追求大規模(mo)(mo),高(gao)昂的代價會影響產品(pin)的市(shi)場推廣和用戶(hu)的使用,實用性才是商業發展的主導原則。”
王磊表示(shi),目前國(guo)(guo)內企(qi)(qi)業都意識到,最受(shou)歡迎的(de)(de)規模是70億(yi)和(he)130億(yi),300億(yi)是單臺推理(li)的(de)(de)參數規模,比較受(shou)歡迎。“在我(wo)們的(de)(de)大(da)模型發(fa)布時,國(guo)(guo)外(wai)網友評價這(zhe)是企(qi)(qi)業級應用的(de)(de)小型參數規格。我(wo)認為一(yi)(yi)般的(de)(de)企(qi)(qi)業可能難以承受(shou)更大(da)規模的(de)(de)產品。對(dui)于文(wen)本生成任務,這(zhe)個規模基(ji)本上是足夠的(de)(de),但對(dui)于一(yi)(yi)些特(te)定領域的(de)(de)任務,還需要強(qiang)化模型的(de)(de)能力。”
第(di)(di)四(si)范(fan)式(shi)也同樣(yang)堅定(ding)選擇投入行業大模型。“如果說(shuo)無限把模型做大,往里面(mian)放無限多(duo)的數據,最后可能(neng)會達到AGI的狀態(tai),但是在每(mei)(mei)一(yi)(yi)個垂直應(ying)用,我們都要(yao)平衡好能(neng)力以(yi)及代價”。創(chuang)始人戴文(wen)淵此前(qian)在第(di)(di)四(si)范(fan)式(shi)的業績溝通會上也表示,從技術的角度來說(shuo),第(di)(di)四(si)范(fan)式(shi)也追(zhui)求AGI,但是與此同時,“對于每(mei)(mei)一(yi)(yi)個客戶的具體場景,我們也要(yao)做一(yi)(yi)定(ding)的裁剪,比如說(shuo)這個考試只考數學,不(bu)一(yi)(yi)定(ding)需(xu)要(yao)讓(rang)它有物理(li)的能(neng)力。”
記者|可(ke)楊(yang) 楊(yang)卉
編輯|何小桃 蘭素(su)英?杜(du)波
校對|湯亞(ya)文
|每日(ri)經濟(ji)新聞 ?nbdnews??原創文章|
未經許可禁止轉(zhuan)載(zai)、摘編、復制及鏡像等使(shi)用
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日(ri)經濟(ji)新聞》報社授(shou)權,嚴(yan)禁(jin)轉載(zai)或鏡像,違者必究。
讀(du)者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索(suo)取(qu)稿(gao)酬。如您不希望(wang)作(zuo)品(pin)出現在(zai)本站,可聯系(xi)我(wo)們(men)要求撤下您的作(zuo)品(pin)。
歡迎關注每日(ri)經(jing)濟(ji)新(xin)聞(wen)APP