每日經(jing)濟(ji)新聞(wen) 2024-05-25 14:52:28
◎硅谷巨頭“卷”價格(ge)、“卷”速度(du)真的(de)會贏(ying)得未來嗎?
每經記者|文巧 每經編輯|蘭(lan)素英
5月以來,國(guo)內大模(mo)型打響了(le)“價格戰(zhan)”。從(cong)每百(bai)萬個Token只要1塊錢,到只要8毛(mao)錢、5毛(mao)錢……國(guo)內大廠(chang)如(ru)字節跳(tiao)動、阿里、百(bai)度(du)、智譜AI、科(ke)大訊飛等不斷接力,有廠(chang)商甚至直接打出了(le)“免費”的口號(hao),震驚整個科(ke)技(ji)圈子。
實(shi)際上(shang),硅谷也在(zai)上(shang)演著類似的情(qing)形。《每日經(jing)濟新聞》記者注意到,硅谷大模型的價(jia)格也出現了下降趨勢(shi)。
API價格(ge)戰(zhan)首先在OpenAI和谷歌這對(dui)“老對(dui)手”之間展開,不過幅度相對(dui)較小。其中,OpenAI的(de)(de)GPT-4o調用(yong)API的(de)(de)價格(ge)比GPT-4-turbo降低了一(yi)半,為5美(mei)元/百萬(wan)Tokens,谷歌Gemini 1.5 Flash的(de)(de)價格(ge)降到(dao)了0.35美(mei)元/百萬(wan)Tokens。
到底是什(shen)么在左右(you)API“價(jia)格戰”?在降價(jia)之外(wai),有媒體(ti)指出,加快模型(xing)推(tui)理速度(即每秒生成Token的(de)數(shu)量)也是硅谷大模型(xing)市場(chang)的(de)主要(yao)競爭點。但“卷(juan)”價(jia)格、“卷(juan)”速度真的(de)會贏得未(wei)來嗎?
5月中旬,字節跳動豆(dou)包(bao)以0.0008元/千Tokens的(de)(de)價(jia)格直接將國(guo)內(nei)大(da)模(mo)(mo)型(xing)(xing)的(de)(de)市場(chang)價(jia)格帶入“厘時代”。隨即,大(da)模(mo)(mo)型(xing)(xing)廠商便開始了價(jia)格上的(de)(de)角力。百(bai)度甚至(zhi)直接祭出“文心大(da)模(mo)(mo)型(xing)(xing)兩大(da)主力模(mo)(mo)型(xing)(xing)全面(mian)免(mian)費”的(de)(de)大(da)招(zhao),直接將“價(jia)格戰”推(tui)向(xiang)新的(de)(de)高度。科大(da)訊(xun)飛、騰(teng)訊(xun)等也“坐不住(zhu)”了,要(yao)么降(jiang)價(jia),要(yao)么免(mian)費。
短(duan)短(duan)數天,國內(nei)大模型企業的混戰(zhan)便(bian)從“低價”走向(xiang)了“免費”。而在硅谷,類似的情形其實也在上演。
《每日經(jing)濟(ji)新(xin)聞(wen)》記者(zhe)注意到,實際(ji)上,降低API價格和推升AI推理速度也已逐(zhu)漸成為硅谷各大模型提供(gong)商的競爭焦點。
API價(jia)格戰首(shou)先是(shi)在OpenAI和谷歌這對“老(lao)對手(shou)”之間展開的(de)。當地(di)時間5月13日,OpenAI發布全(quan)新模型GPT-4o,該模型支持(chi)免費(fei)試用(yong),據(ju)傳未來將供用(yong)戶免費(fei)試用(yong)。此(ci)外,調用(yong)GPT-4o API的(de)價(jia)格比(bi)GPT-4-turbo降低了一半,為5美元/百萬Tokens。
在第二天(tian)的(de)谷歌(ge)全(quan)球開發者(zhe)大會上,谷歌(ge)宣布當家王牌Gemini大模型系(xi)列之(zhi)一Gemini 1.5 Flash 的(de)API價(jia)格為0.35美元/百萬Tokens,遠低于GPT-4o的(de)價(jia)格。
比GPT-4o更(geng)具性價比的還有硅谷當紅AI初創(chuang)公司Anthropic和Mistral AI模型的API價格。
除了“拼”模型調用價格,有媒體指出,硅谷AI芯片公司正以加快模型推理速度——即每秒生成Token的數量——以吸引客戶。例(li)如,美國(guo)芯片(pian)廠商(shang)Groq公司(si)專(zhuan)注于提高每秒生(sheng)成Token的數量,以此作為其主要的市場競爭點。
據科(ke)技外媒Medium今年4月(yue)的(de)報(bao)道(dao),Groq最(zui)新(xin)的(de)AI芯片在(zai)Meta的(de)開(kai)源模型LLaMA 3上達(da)到了(le)驚人(ren)的(de)每秒生(sheng)成(cheng)800個token,并(bing)稱這“標志著(zhu)AI推理(li)效(xiao)率(lv)和能力(li)的(de)巨(ju)大轉變”。截至目前,英偉達(da)一直主導著(zhu)AI芯片市場。該報(bao)道(dao)分析認為(wei),Groq的(de)最(zui)新(xin)成(cheng)就可(ke)能將(jiang)對英偉達(da)的(de)統治(zhi)地位構成(cheng)嚴峻挑戰(zhan)。
根據Groq的數據,許多開(kai)源模型據稱(cheng)在Groq芯片上的運行速度都(dou)得到提升,例如(ru),Mixtral8×7B版(ban)本每秒(miao)輸出(chu)500個Token;Llama 2 70B版(ban)本每秒(miao)輸出(chu)300個Token。
《每日經濟新聞》記者查詢數據發現,當前配備英偉達芯片處理的硅谷熱門大模型推理速度遠低于此。例如,GPT-4 Turbo每秒生成約48個token,GPT-4為每秒約10個token;谷歌的Gemini 1.5 Pro約為每秒54.2個token。
硅谷為何也(ye)會面臨大(da)模(mo)型(xing)(xing)的(de)API“價格戰”問題?這主(zhu)要是跟模(mo)型(xing)(xing)的(de)性能有關。
上個(ge)月(yue),紐約大(da)(da)學知名教(jiao)授(shou)Gary Marcus發表(biao)(biao)了(le)一篇名為《證據表(biao)(biao)明(ming)LLM正(zheng)達到收益(yi)遞減點(dian)》的(de)文章,駁(bo)斥了(le)賓夕法(fa)尼亞大(da)(da)學沃頓商學院(yuan)教(jiao)授(shou)Ethan Mollick的(de)一個(ge)觀點(dian),后者(zhe)聲稱目前對大(da)(da)型(xing)(xing)語言模型(xing)(xing)改(gai)進率的(de)最(zui)佳估計顯(xian)示,能力每(mei)5~14個(ge)月(yue)翻一番。
Gary Marcus認(ren)為,從(cong)某些(xie)指(zhi)標來看(kan),在2020~2023年(nian)間,大模型的(de)能力的(de)確遵照上述定律(lv)翻了(le)一番,但在過去13個月里這(zhe)種情況并未發生。“相反,我看(kan)到許多(duo)跡象表明我們已經進入(ru)了(le)收益遞減期。”他這(zhe)樣寫道。
若以MMLU(一種常見的大模型基準指標)為基準,可以看到,從GPT-2到GPT3再到GPT-4呈現了飛躍式的遞增,但GPT-4到今年4月發布的GPT-4 Turbo的能力改進并不明顯。
其(qi)次(ci),自(zi)GPT-4發(fa)布以(yi)來,硅谷各大(da)模型的能(neng)力正在(zai)(zai)趨同。LiquidAI的機器學習科學家(jia)Maxime Labonne在(zai)(zai)X平臺上表示,表現最好的閉源(yuan)模型(GPT-4級別)和開源(yuan)模型在(zai)(zai)性能(neng)上的差距正在(zai)(zai)越來越小。
與(yu)此同時,隨著企業對定制(zhi)化大(da)模型(xing)的需(xu)求越(yue)來越(yue)高,硅谷科技(ji)公司正在推(tui)出一(yi)系列小模型(xing),例如微軟在4月推(tui)出了名(ming)為Phi-3 Mini的輕量級模型(xing)。The Information分析(xi)稱(cheng),像Phi這類小型(xing)模型(xing)的激增(zeng)可能會削弱(ruo)OpenAI的主導地位。
據The Information,微(wei)軟產(chan)品團(tuan)隊已經將內置的(de)(de)GPT-4換成(cheng)開(kai)源模型,以在Bing等產(chan)品中執行(xing)更基(ji)本的(de)(de)任(ren)務(wu)。而最初為 OpenAI大模型支付高(gao)價的(de)(de)一(yi)些公司(si),近期開(kai)始轉(zhuan)向包(bao)括開(kai)源模型在內的(de)(de)更便宜的(de)(de)競爭對手。
隨著GPT-4之后模(mo)(mo)型(xing)能力(li)的趨同(tong),以(yi)及更多開源模(mo)(mo)型(xing)和小模(mo)(mo)型(xing)的出現,競爭加劇之下,高價大模(mo)(mo)型(xing)的降(jiang)價似乎是一種必然。
然而,一味“卷”價格會有未來嗎?
眾所周知(zhi),算力成(cheng)本是開發(fa)大模(mo)型(xing)無法(fa)繞過的(de)難點之一。根據斯坦福大學(xue)HAI研(yan)究所今(jin)年發(fa)布(bu)的(de)AI報(bao)告,訓(xun)練(lian)(lian)巨型(xing)模(mo)型(xing)的(de)成(cheng)本呈指數級增長(chang),谷歌Gemini Ultra的(de)訓(xun)練(lian)(lian)成(cheng)本估計(ji)為1.91億美(mei)元,GPT-4的(de)訓(xun)練(lian)(lian)成(cheng)本估計(ji)為7800萬美(mei)元。
據報道,Anthropic的(de)(de)CEO此前曾表示,目前正在訓練的(de)(de)模型成(cheng)本已接近10億美元,到2025年和2026年,將飆升至(zhi)50億或(huo)100億美元。
科技巨(ju)頭已(yi)經在硅谷大模型領域(yu)建(jian)立(li)牢固的立(li)足點,前(qian)沿基礎模型市(shi)場呈現出強烈(lie)的市(shi)場集中(zhong)化趨勢。分析(xi)認為,價格(ge)戰持續下去,公司利(li)潤勢必被擠壓(ya),財力雄厚(hou)的科技巨(ju)頭尚有基礎,但初創公司則可(ke)能面臨風險。
對于大(da)模型公司來說,提升模型性能才是贏得競爭的最(zui)終手段。正(zheng)如(ru)Gary Marcus所講,如(ru)果(guo)收(shou)益遞減的趨勢持續,低(di)級錯(cuo)誤(wu)無法修正(zheng),大(da)模型可能永遠無法到達黃金時段。
另一(yi)(yi)方面,對于芯片(pian)廠商來說,“卷”每秒生(sheng)成Token的數量(liang)仍然更多只是一(yi)(yi)種噱頭,縮短(duan)第(di)一(yi)(yi)個Token生(sheng)成的時間(jian)或將成為下(xia)一(yi)(yi)個新(xin)的競爭點。
盡管Medium分析認為,每秒生成Token數量的提高等同于推理能力的上升,但硅谷AI公司SambaNova在5月初發表的一篇博客文章中表示,當涉及到一些較為復雜和繁重的長文本任務時,每秒生成Token數量并非最重要的指標,也不能全面反映大模型的推理性能。而相對地,第一個Token生成的時間才更加重要。
這篇(pian)文章直白(bai)地指(zhi)出(chu),對每秒高Token數量(liang)的追求可能是一(yi)種“炒作”。盡(jin)管其確實可以(yi)實現令(ling)人印象深刻的解碼速度,但存(cun)在芯片利用率低,第一(yi)個Token生成速度較(jiao)慢,難以(yi)處理較(jiao)長的文本輸入等重大缺點。
如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新(xin)聞》報社授權,嚴(yan)禁轉(zhuan)載或鏡像(xiang),違者(zhe)必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望(wang)作(zuo)品(pin)(pin)出現在(zai)本(ben)站,可聯(lian)系我們要求(qiu)撤下您的作(zuo)品(pin)(pin)。
歡迎關注每日經(jing)濟新聞APP