每日經濟新聞(wen) 2025-03-29 21:15:27
3月29日,在2025中關(guan)村論(lun)壇年(nian)會期間的“未來人工智能(neng)先鋒論(lun)壇”上(shang),生數科技創始人兼首席(xi)科學家朱(zhu)軍宣布(bu),生數科技正式發布(bu)業(ye)內(nei)首個高(gao)可(ke)控視(shi)頻大模(mo)型Vidu Q1,并計劃于4月全球(qiu)上(shang)線。該模(mo)型在技術層面實現重大突破,能(neng)夠(gou)接受(shou)空間布(bu)局信息作(zuo)為輸(shu)入(ru),極大提升了視(shi)頻生成的可(ke)控性(xing)。朱(zhu)軍認為,2025年(nian)將是AI視(shi)頻模(mo)型商(shang)業(ye)化(hua)快速發展的一年(nian)。
每(mei)(mei)經記者|可楊 每(mei)(mei)經編輯|陳俊(jun)杰
大(da)模型的發展日新月(yue)異(yi)。
3月29日,在2025中關村論壇(tan)年(nian)會(hui)期(qi)間舉辦的“未來(lai)人(ren)工智(zhi)能(neng)(neng)先(xian)鋒論壇(tan)”上,清華大學人(ren)工智(zhi)能(neng)(neng)研究院副(fu)院長、生數(shu)科技創(chuang)始人(ren)兼首(shou)席科學家朱軍(jun)宣布,生數(shu)科技正(zheng)式發布業(ye)內首(shou)個高可控視頻大模型Vidu Q1,并(bing)計(ji)劃于4月全球上線。
會后,在接(jie)受媒體采訪(fang)時,朱軍談到(dao),2025年將(jiang)是AI(人工智能)視頻(pin)(pin)商(shang)業化(hua)快速發展的(de)一年。視頻(pin)(pin)大(da)模(mo)型的(de)商(shang)業化(hua)路徑相較于語言大(da)模(mo)型更加(jia)多元,行業競爭(zheng)格局(ju)也不同于“大(da)模(mo)型內卷”態勢(shi)。
朱(zhu)軍(jun)認為,未來視頻大(da)模型不(bu)會(hui)出現類似(si)語言模型市場那(nei)樣的“一超多(duo)強(qiang)”格局,而(er)是依(yi)賴持續創新能力,向更高(gao)質量、更長時長、更強(qiang)敘事性的方(fang)向發展。
主辦方供圖
朱軍(jun)介紹,相較于生數科(ke)技在(zai)1月推(tui)出的Vidu 2.0,Vidu Q1在(zai)技術層面實現了(le)重大(da)突(tu)破,能夠(gou)接受空間布(bu)局(ju)信息(xi)作為輸入,極大(da)提(ti)升了(le)視頻生成(cheng)的可控性(xing),使視頻生成(cheng)走向“高(gao)可控”時(shi)代(dai)成(cheng)為可能。
朱軍(jun)指出(chu),走向高可(ke)控為AI視(shi)頻生(sheng)(sheng)成(cheng)的(de)(de)發展找到了(le)新(xin)路徑,清晰指出(chu)了(le)AI視(shi)頻生(sheng)(sheng)成(cheng)的(de)(de)痛點,通過技術手(shou)段引入多元素(su)控制(zhi),它(ta)不再是沒有頭(tou)緒的(de)(de)“亂(luan)生(sheng)(sheng)成(cheng)”,而是人為可(ke)控,這就讓AI視(shi)頻生(sheng)(sheng)成(cheng)與當下精益求精的(de)(de)制(zhi)作逐漸(jian)趨(qu)向一(yi)致。
另一方面(mian),高可(ke)控(kong)意(yi)味著AI視頻生(sheng)(sheng)成的創意(yi)呈現更(geng)極致(zhi)、更(geng)多元。朱(zhu)軍(jun)表示,過去(qu)Vidu陸(lu)續在(zai)畫面(mian)生(sheng)(sheng)成、生(sheng)(sheng)成速(su)度、多主體一致(zhi)等視頻生(sheng)(sheng)成關(guan)鍵(jian)環節下功夫,現在(zai),當“高可(ke)控(kong)”時(shi)(shi)代到來時(shi)(shi),人們將(jiang)能(neng)夠更(geng)便捷地(di)將(jiang)自己頭腦中的想法變(bian)成現實(shi)。具體而言(yan),Vidu Q1在(zai)多主體細節可(ke)控(kong)、音效同步可(ke)控(kong) 、畫質增強方面(mian)均(jun)取得成效。
對于(yu)多模(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)型(xing)層面的(de)(de)(de)探索,朱軍在(zai)(zai)采訪中表示(shi),生(sheng)數(shu)科技自成立之初便專注于(yu)多模(mo)(mo)(mo)態(tai)(tai)大模(mo)(mo)(mo)型(xing)研(yan)發,Vidu的(de)(de)(de)基(ji)座本(ben)身就是(shi)一(yi)(yi)個(ge)多模(mo)(mo)(mo)態(tai)(tai)大模(mo)(mo)(mo)型(xing),視(shi)頻只(zhi)是(shi)多模(mo)(mo)(mo)態(tai)(tai)技術的(de)(de)(de)其中一(yi)(yi)種表現形式(shi)。除(chu)此之外(wai),公司(si)還(huan)在(zai)(zai)探索音頻及機器人可控操(cao)作數(shu)據(ju)的(de)(de)(de)應用等(deng)多種模(mo)(mo)(mo)態(tai)(tai)。“對我們來說底層架構基(ji)本(ben)上是(shi)一(yi)(yi)樣的(de)(de)(de),沒有修改就可以去(qu)適應多模(mo)(mo)(mo)態(tai)(tai),只(zhi)是(shi)面向用戶的(de)(de)(de)需求,在(zai)(zai)不同階段(duan)會推出(chu)。”
朱軍認為,未來多模(mo)態的(de)(de)發展方(fang)向是(shi)智能(neng)體(ti)與(yu)(yu)工(gong)作(zuo)(zuo)流(liu)(liu)的(de)(de)全(quan)面打通(tong)(tong)(tong),這種打通(tong)(tong)(tong)也(ye)是(shi)生數科技規(gui)劃(hua)的(de)(de)重要方(fang)向。朱軍表(biao)示,未來也(ye)需要通(tong)(tong)(tong)過推動智能(neng)體(ti)與(yu)(yu)工(gong)作(zuo)(zuo)流(liu)(liu)的(de)(de)打通(tong)(tong)(tong),實現(xian)不同模(mo)態之間的(de)(de)協同,以更好(hao)地服務各行業用戶。
在(zai)(zai)商(shang)業(ye)(ye)化(hua)(hua)(hua)方(fang)面,朱軍坦(tan)言,隨著(zhu)AI視頻技術的(de)(de)(de)商(shang)業(ye)(ye)價值(zhi)不(bu)斷提升,資本市場對生數科技的(de)(de)(de)關注(zhu)重點也在(zai)(zai)發(fa)(fa)生變(bian)化(hua)(hua)(hua)。朱軍表示,在(zai)(zai)公司(si)早期階段,投資人更(geng)關注(zhu)團隊(dui)實(shi)力,而如今,除(chu)了(le)技術壁壘,商(shang)業(ye)(ye)化(hua)(hua)(hua)進展已成為核心考量因素。“視頻的(de)(de)(de)價值(zhi)密度更(geng)高(gao),商(shang)業(ye)(ye)化(hua)(hua)(hua)進程也更(geng)快(kuai)(kuai)。2025年將是(shi)AI視頻模型商(shang)業(ye)(ye)化(hua)(hua)(hua)快(kuai)(kuai)速發(fa)(fa)展的(de)(de)(de)一年。”
目前,其SaaS(軟件即服(fu)務(wu))產品已覆蓋全球(qiu)200多個(ge)(ge)國家和地區(qu),上線100天(tian)內(nei)用戶突破(po)千(qian)萬,增速位居全球(qiu)第一。同(tong)時,在MaaS(模型即服(fu)務(wu))端(duan),AI視(shi)頻技術(shu)正在深(shen)入應用于動漫影視(shi)、文(wen)旅、廣(guang)告、游戲等多個(ge)(ge)行(xing)業,重塑(su)內(nei)容生產模式(shi)。
近期(qi),OpenAI宣(xuan)布在(zai)GPT-4o模型(xing)中(zhong)集成(cheng)了迄今(jin)為(wei)止最(zui)先進的圖像生成(cheng)器,并(bing)將其整合進ChatGPT中(zhong),未來(lai),視頻生成(cheng)能力會否同(tong)樣被集成(cheng)進大(da)模型(xing)?朱軍認為(wei),現(xian)在(zai)談這(zhe)個問題為(wei)時尚(shang)早(zao)。
目前(qian),視頻生(sheng)成(cheng)(cheng)的(de)(de)重點仍然(ran)是提升視頻生(sheng)成(cheng)(cheng)的(de)(de)質量(liang)和(he)效(xiao)率,而隨(sui)著基座模型(xing)的(de)(de)不斷優化,AI視頻生(sheng)成(cheng)(cheng)自然(ran)會逐步(bu)向交互(hu)式方向發展,但其中最核心突破點仍在于(yu)理解能力和(he)可控(kong)性。朱軍表示,只有實現真(zhen)正的(de)(de)高可控(kong)生(sheng)成(cheng)(cheng),才(cai)能滿足未來交互(hu)式AI視頻的(de)(de)需(xu)求。
在談(tan)及高(gao)可控能(neng)力是否會影響創意表達時,朱軍表示兩者(zhe)并不沖突。相反,提升可控性(xing)能(neng)夠讓(rang)創作過程更加高(gao)效(xiao)、精準,減少用戶反復試驗(yan)的(de)成(cheng)本(ben),提高(gao)創作體驗(yan)。
“在AI視頻(pin)創(chuang)(chuang)作(zuo)中,用戶(hu)的(de)(de)輸入可能(neng)是圖片(pian)或文字,我們的(de)(de)任(ren)務是精準理解并實(shi)現(xian)他們的(de)(de)需求。”朱軍(jun)解釋(shi)道,過去,AI視頻(pin)生成往往帶有較高(gao)的(de)(de)隨機性,用戶(hu)需要反復嘗試才能(neng)獲得理想的(de)(de)結果。而高(gao)可控能(neng)力(li)的(de)(de)引入,使模型(xing)能(neng)夠更準確地理解并執行用戶(hu)的(de)(de)創(chuang)(chuang)作(zuo)意(yi)圖,同時保(bao)持(chi)創(chuang)(chuang)意(yi)表達的(de)(de)自由度,例如動(dong)作(zuo)幅度、想象(xiang)力(li)等方面依然可以充分發揮(hui)。
朱(zhu)軍在(zai)接受(shou)采訪時表示,2025年行(xing)業整體落地(di)(di)進展非常快,例如(ru)在(zai)視頻和(he)音(yin)頻領域,由于其應(ying)(ying)用場景(jing)較為(wei)通用,市場接受(shou)度更高,而語言模(mo)型(xing)的落地(di)(di)則往往需(xu)要結合行(xing)業專業知(zhi)識,因此鏈路(lu)相對較長。不(bu)過,目前行(xing)業內同樣(yang)有(you)應(ying)(ying)用公司(si)致力于推(tui)進大語言模(mo)型(xing)的落地(di)(di)應(ying)(ying)用。
談及(ji)技(ji)術突破(po),朱軍強調,目前階(jie)段最重要的仍然是通用基(ji)(ji)礎(chu)模型的提升(sheng)。“它決定(ding)了我(wo)們后端在控制和(he)一致性方面的能(neng)力,所有后端的實現(xian)都依賴于基(ji)(ji)礎(chu)模型的進展。”基(ji)(ji)于基(ji)(ji)礎(chu)模型,生數科技(ji)也在不斷探(tan)索(suo),以(yi)實現(xian)更高的模型一致性和(he)可控性。
朱(zhu)軍認為,與語(yu)言(yan)模型(xing)(xing)不(bu)同(tong),視(shi)(shi)頻大模型(xing)(xing)的(de)商業化路徑(jing)相對(dui)更(geng)快。他指出,視(shi)(shi)頻的(de)消費需求(qiu)非(fei)常曠闊,因此,當前(qian)行業內(nei)領先(xian)的(de)公司在視(shi)(shi)頻大模型(xing)(xing)領域各(ge)具特色,并形成了不(bu)同(tong)的(de)商業化布局。這(zhe)一領域并不(bu)像語(yu)言(yan)模型(xing)(xing)市場那(nei)樣“內(nei)卷”,而是呈現出更(geng)多元化的(de)競爭格局。
目(mu)前,大(da)(da)語(yu)言(yan)模(mo)型(xing)行(xing)業(ye)逐步進入(ru)收(shou)購(gou)與被收(shou)購(gou)階段,朱(zhu)軍認為,這與行(xing)業(ye)發展狀(zhuang)態相關。語(yu)言(yan)模(mo)型(xing)的(de)競爭已經進入(ru)深(shen)水區,領先(xian)企業(ye)在(zai)技術和市場布局方(fang)(fang)面占據優(you)勢,而視頻大(da)(da)模(mo)型(xing)則完(wan)全(quan)不一(yi)樣,中國的(de)視頻大(da)(da)模(mo)型(xing)在(zai)全(quan)球(qiu)范(fan)圍內很多(duo)方(fang)(fang)面都有應(ying)用(yong),這與語(yu)言(yan)模(mo)型(xing)的(de)發展狀(zhuang)態截然不同。
未(wei)來,視頻(pin)大(da)模(mo)型行業是否(fou)會(hui)和語言大(da)模(mo)型一(yi)(yi)(yi)樣,只會(hui)留下幾家(jia)專注(zhu)于(yu)基礎模(mo)型研發(fa)(fa)的(de)公司?朱(zhu)軍認(ren)為,大(da)概率不(bu)會(hui)出現一(yi)(yi)(yi)家(jia)獨大(da)的(de)情況。一(yi)(yi)(yi)方面(mian)(mian),視頻(pin)大(da)模(mo)型行業不(bu)算(suan)擁擠;另(ling)一(yi)(yi)(yi)方面(mian)(mian),從人工智(zhi)能發(fa)(fa)展的(de)長期來看(kan),核心因素(su)在于(yu)團隊(dui)是否(fou)具備持(chi)續創(chuang)新能力。今(jin)天(tian),模(mo)型的(de)發(fa)(fa)展大(da)部分是階(jie)段性發(fa)(fa)展,盡管目前已經可以(yi)服務專業用戶并生成高質(zhi)量內容,但(dan)整體(ti)上(shang)仍有很(hen)大(da)提升空(kong)間,包(bao)括效(xiao)率、成本(ben)以(yi)及內容密度等方面(mian)(mian)的(de)突破。
相比于語(yu)言模(mo)型(xing)(xing),視(shi)頻生成模(mo)型(xing)(xing)的(de)起步稍晚(wan),但朱軍(jun)認為,這(zhe)種(zhong)“后(hou)發(fa)”反而(er)帶來了更(geng)快、更(geng)堅定的(de)前進(jin)步伐。他(ta)提(ti)到,視(shi)頻模(mo)型(xing)(xing)領(ling)域已經形成了對效(xiao)率優(you)化的(de)共識。例如,生數科技(ji)在(zai)推出Vidu2.0時(shi),就明確提(ti)出要做“最(zui)高效(xiao)、最(zui)便宜的(de)高質量視(shi)頻模(mo)型(xing)(xing)”。這(zhe)種(zhong)理念已經深入(ru)行業,因此,他(ta)判斷視(shi)頻領(ling)域很難(nan)出現類似(si)DeepSeek在(zai)語(yu)言模(mo)型(xing)(xing)中“效(xiao)率遙遙領(ling)先(xian)”的(de)局面,而(er)是更(geng)期待讓視(shi)頻模(mo)型(xing)(xing)朝著“更(geng)可控(kong)、更(geng)好用”的(de)方向發(fa)展。
談及(ji)開(kai)源,朱(zhu)軍表示,開(kai)源一(yi)直是人工(gong)智(zhi)能行業(ye)的重要(yao)趨勢(shi),生數科技也會開(kai)放部分(fen)創新(xin)方法供業(ye)界使用(yong)。然而(er),他指(zhi)出,大部分(fen)所(suo)謂的開(kai)源模(mo)型并未真正開(kai)放核心訓(xun)練(lian)過程及(ji)數據。“DeepSeek之所(suo)以(yi)受(shou)到(dao)用(yong)戶歡迎,核心在于其(qi)出色的效(xiao)果和(he)高效(xiao)率。對C端(duan)用(yong)戶而(er)言,最關心的始終(zhong)是質量和(he)效(xiao)率,而(er)非模(mo)型是開(kai)源還是閉源。”
目前,視(shi)頻(pin)生(sheng)成(cheng)模型(xing)大多(duo)集中在5秒以(yi)內的(de)(de)短(duan)視(shi)頻(pin),朱軍認為,這主要是成(cheng)本(ben)問題,而非能力(li)限制。同(tong)時(shi),用(yong)(yong)戶的(de)(de)使用(yong)(yong)習(xi)慣(guan)(guan)也影響了視(shi)頻(pin)時(shi)長的(de)(de)選(xuan)擇(ze)。“現階段,大部(bu)分用(yong)(yong)戶習(xi)慣(guan)(guan)于豎屏短(duan)視(shi)頻(pin),而如果要創作(zuo)1分鐘(zhong)以(yi)上的(de)(de)內容(rong)(rong),就需要更完整的(de)(de)故事架構,涉及(ji)到從文案策劃到內容(rong)(rong)創作(zuo)的(de)(de)完整流程,而不僅僅是簡單(dan)的(de)(de)‘圖生(sheng)視(shi)頻(pin)’。”
朱軍認為(wei),隨著(zhu)基礎模型能力(li)的提升,行業將逐步(bu)向更長(chang)時(shi)長(chang)、更具敘事(shi)性(xing)的場景拓展。“從短(duan)視(shi)頻向更長(chang)時(shi)長(chang)、敘事(shi)性(xing)更強的方向發展,將成為(wei)未來的一個重要趨勢。”
如需轉載請與《每日經濟新聞》報社聯系。
未經《每(mei)日經濟(ji)新聞(wen)》報社授權,嚴禁轉載或(huo)鏡(jing)像(xiang),違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取(qu)稿酬。如(ru)您(nin)不希望作(zuo)品出(chu)現在本站,可聯系我們要求撤下您(nin)的作(zuo)品。
歡迎關注(zhu)每日經濟(ji)新聞APP