要聞

對話生數科技創始人兼首席科學家朱軍：AI視頻生成正邁入“高可控”時代

每日經濟新聞(wen) 2025-03-29 21:15:27

3月29日，在2025中關(guan)村論(lun)壇年(nian)會期間的“未來人工智能(neng)先鋒論(lun)壇”上(shang)，生數科技創始人兼首席(xi)科學家朱(zhu)軍宣布(bu)，生數科技正式發布(bu)業(ye)內(nei)首個高(gao)可(ke)控視(shi)頻大模(mo)型Vidu Q1，并計劃于4月全球(qiu)上(shang)線。該模(mo)型在技術層面實現重大突破，能(neng)夠(gou)接受(shou)空間布(bu)局信息作(zuo)為輸(shu)入(ru)，極大提升了視(shi)頻生成的可(ke)控性(xing)。朱(zhu)軍認為，2025年(nian)將是AI視(shi)頻模(mo)型商(shang)業(ye)化(hua)快速發展的一年(nian)。

每(mei)(mei)經記者｜可楊每(mei)(mei)經編輯｜陳俊(jun)杰  

大(da)模型的發展日新月(yue)異(yi)。

3月29日，在2025中關村論壇(tan)年(nian)會(hui)期(qi)間舉辦的“未來(lai)人(ren)工智(zhi)能(neng)(neng)先(xian)鋒論壇(tan)”上，清華大學人(ren)工智(zhi)能(neng)(neng)研究院副(fu)院長、生數(shu)科技創(chuang)始人(ren)兼首(shou)席科學家朱軍(jun)宣布，生數(shu)科技正(zheng)式發布業(ye)內首(shou)個高可控視頻大模型Vidu Q1，并(bing)計(ji)劃于4月全球上線。

會后，在接(jie)受媒體采訪(fang)時，朱軍談到(dao)，2025年將(jiang)是AI（人工智能）視頻(pin)(pin)商(shang)業化(hua)快速發展的(de)一年。視頻(pin)(pin)大(da)模(mo)型的(de)商(shang)業化(hua)路徑相較于語言大(da)模(mo)型更加(jia)多元，行業競爭(zheng)格局(ju)也不同于“大(da)模(mo)型內卷”態勢(shi)。

朱(zhu)軍(jun)認為，未來視頻大(da)模型不(bu)會(hui)出現類似(si)語言模型市場那(nei)樣的“一超多(duo)強(qiang)”格局，而(er)是依(yi)賴持續創新能力，向更高(gao)質量、更長時長、更強(qiang)敘事性的方(fang)向發展。

主辦方供圖

談商業化：2025年將是AI視頻模型商業化快速發展的一年

朱軍(jun)介紹，相較于生數科(ke)技在(zai)1月推(tui)出的Vidu 2.0，Vidu Q1在(zai)技術層面實現了(le)重大(da)突(tu)破，能夠(gou)接受空間布(bu)局(ju)信息(xi)作為輸入，極大(da)提(ti)升了(le)視頻生成(cheng)的可控性(xing)，使視頻生成(cheng)走向“高(gao)可控”時(shi)代(dai)成(cheng)為可能。

朱軍(jun)指出(chu)，走向高可(ke)控為AI視(shi)頻生(sheng)(sheng)成(cheng)的(de)(de)發展找到了(le)新(xin)路徑，清晰指出(chu)了(le)AI視(shi)頻生(sheng)(sheng)成(cheng)的(de)(de)痛點，通過技術手(shou)段引入多元素(su)控制(zhi)，它(ta)不再是沒有頭(tou)緒的(de)(de)“亂(luan)生(sheng)(sheng)成(cheng)”，而是人為可(ke)控，這就讓AI視(shi)頻生(sheng)(sheng)成(cheng)與當下精益求精的(de)(de)制(zhi)作逐漸(jian)趨(qu)向一(yi)致。

另一方面(mian)，高可(ke)控(kong)意(yi)味著AI視頻生(sheng)(sheng)成的創意(yi)呈現更(geng)極致(zhi)、更(geng)多元。朱(zhu)軍(jun)表示，過去(qu)Vidu陸(lu)續在(zai)畫面(mian)生(sheng)(sheng)成、生(sheng)(sheng)成速(su)度、多主體一致(zhi)等視頻生(sheng)(sheng)成關(guan)鍵(jian)環節下功夫，現在(zai)，當“高可(ke)控(kong)”時(shi)(shi)代到來時(shi)(shi)，人們將(jiang)能(neng)夠更(geng)便捷地(di)將(jiang)自己頭腦中的想法變(bian)成現實(shi)。具體而言(yan)，Vidu Q1在(zai)多主體細節可(ke)控(kong)、音效同步可(ke)控(kong) 、畫質增強方面(mian)均(jun)取得成效。

對于(yu)多模(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)型(xing)層面的(de)(de)(de)探索，朱軍在(zai)(zai)采訪中表示(shi)，生(sheng)數(shu)科技自成立之初便專注于(yu)多模(mo)(mo)(mo)態(tai)(tai)大模(mo)(mo)(mo)型(xing)研(yan)發，Vidu的(de)(de)(de)基(ji)座本(ben)身就是(shi)一(yi)(yi)個(ge)多模(mo)(mo)(mo)態(tai)(tai)大模(mo)(mo)(mo)型(xing)，視(shi)頻只(zhi)是(shi)多模(mo)(mo)(mo)態(tai)(tai)技術的(de)(de)(de)其中一(yi)(yi)種表現形式(shi)。除(chu)此之外(wai)，公司(si)還(huan)在(zai)(zai)探索音頻及機器人可控操(cao)作數(shu)據(ju)的(de)(de)(de)應用等(deng)多種模(mo)(mo)(mo)態(tai)(tai)。“對我們來說底層架構基(ji)本(ben)上是(shi)一(yi)(yi)樣的(de)(de)(de)，沒有修改就可以去(qu)適應多模(mo)(mo)(mo)態(tai)(tai)，只(zhi)是(shi)面向用戶的(de)(de)(de)需求，在(zai)(zai)不同階段(duan)會推出(chu)。”

朱軍認為，未來多模(mo)態的(de)(de)發展方(fang)向是(shi)智能(neng)體(ti)與(yu)(yu)工(gong)作(zuo)(zuo)流(liu)(liu)的(de)(de)全(quan)面打通(tong)(tong)(tong)，這種打通(tong)(tong)(tong)也(ye)是(shi)生數科技規(gui)劃(hua)的(de)(de)重要方(fang)向。朱軍表(biao)示，未來也(ye)需要通(tong)(tong)(tong)過推動智能(neng)體(ti)與(yu)(yu)工(gong)作(zuo)(zuo)流(liu)(liu)的(de)(de)打通(tong)(tong)(tong)，實現(xian)不同模(mo)態之間的(de)(de)協同，以更好(hao)地服務各行業用戶。

在(zai)(zai)商(shang)業(ye)(ye)化(hua)(hua)(hua)方(fang)面，朱軍坦(tan)言，隨著(zhu)AI視頻技術的(de)(de)(de)商(shang)業(ye)(ye)價值(zhi)不(bu)斷提升，資本市場對生數科技的(de)(de)(de)關注(zhu)重點也在(zai)(zai)發(fa)(fa)生變(bian)化(hua)(hua)(hua)。朱軍表示，在(zai)(zai)公司(si)早期階段，投資人更(geng)關注(zhu)團隊(dui)實(shi)力，而如今，除(chu)了(le)技術壁壘，商(shang)業(ye)(ye)化(hua)(hua)(hua)進展已成為核心考量因素。“視頻的(de)(de)(de)價值(zhi)密度更(geng)高(gao)，商(shang)業(ye)(ye)化(hua)(hua)(hua)進程也更(geng)快(kuai)(kuai)。2025年將是(shi)AI視頻模型商(shang)業(ye)(ye)化(hua)(hua)(hua)快(kuai)(kuai)速發(fa)(fa)展的(de)(de)(de)一年。”

目前，其SaaS（軟件即服(fu)務(wu)）產品已覆蓋全球(qiu)200多個(ge)(ge)國家和地區(qu)，上線100天(tian)內(nei)用戶突破(po)千(qian)萬，增速位居全球(qiu)第一。同(tong)時，在MaaS（模型即服(fu)務(wu)）端(duan)，AI視(shi)頻技術(shu)正在深(shen)入應用于動漫影視(shi)、文(wen)旅、廣(guang)告、游戲等多個(ge)(ge)行(xing)業，重塑(su)內(nei)容生產模式(shi)。

近期(qi)，OpenAI宣(xuan)布在(zai)GPT-4o模型(xing)中(zhong)集成(cheng)了迄今(jin)為(wei)止最(zui)先進的圖像生成(cheng)器，并(bing)將其整合進ChatGPT中(zhong),未來(lai)，視頻生成(cheng)能力會否同(tong)樣被集成(cheng)進大(da)模型(xing)？朱軍認為(wei)，現(xian)在(zai)談這(zhe)個問題為(wei)時尚(shang)早(zao)。

目前(qian)，視頻生(sheng)成(cheng)(cheng)的(de)(de)重點仍然(ran)是提升視頻生(sheng)成(cheng)(cheng)的(de)(de)質量(liang)和(he)效(xiao)率，而隨(sui)著基座模型(xing)的(de)(de)不斷優化，AI視頻生(sheng)成(cheng)(cheng)自然(ran)會逐步(bu)向交互(hu)式方向發展，但其中最核心突破點仍在于(yu)理解能力和(he)可控(kong)性。朱軍表示，只有實現真(zhen)正的(de)(de)高可控(kong)生(sheng)成(cheng)(cheng)，才(cai)能滿足未來交互(hu)式AI視頻的(de)(de)需(xu)求。

在談(tan)及高(gao)可控能(neng)力是否會影響創意表達時，朱軍表示兩者(zhe)并不沖突。相反，提升可控性(xing)能(neng)夠讓(rang)創作過程更加高(gao)效(xiao)、精準，減少用戶反復試驗(yan)的(de)成(cheng)本(ben)，提高(gao)創作體驗(yan)。

“在AI視頻(pin)創(chuang)(chuang)作(zuo)中，用戶(hu)的(de)(de)輸入可能(neng)是圖片(pian)或文字，我們的(de)(de)任(ren)務是精準理解并實(shi)現(xian)他們的(de)(de)需求。”朱軍(jun)解釋(shi)道，過去，AI視頻(pin)生成往往帶有較高(gao)的(de)(de)隨機性，用戶(hu)需要反復嘗試才能(neng)獲得理想的(de)(de)結果。而高(gao)可控能(neng)力(li)的(de)(de)引入，使模型(xing)能(neng)夠更準確地理解并執行用戶(hu)的(de)(de)創(chuang)(chuang)作(zuo)意(yi)圖，同時保(bao)持(chi)創(chuang)(chuang)意(yi)表達的(de)(de)自由度，例如動(dong)作(zuo)幅度、想象(xiang)力(li)等方面依然可以充分發揮(hui)。

談行業：視頻行業很難出現類似DeepSeek的模型

朱(zhu)軍在(zai)接受(shou)采訪時表示，2025年行(xing)業整體落地(di)(di)進展非常快，例如(ru)在(zai)視頻和(he)音(yin)頻領域，由于其應(ying)(ying)用場景(jing)較為(wei)通用，市場接受(shou)度更高，而語言模(mo)型(xing)的落地(di)(di)則往往需(xu)要結合行(xing)業專業知(zhi)識，因此鏈路(lu)相對較長。不(bu)過，目前行(xing)業內同樣(yang)有(you)應(ying)(ying)用公司(si)致力于推(tui)進大語言模(mo)型(xing)的落地(di)(di)應(ying)(ying)用。

談及(ji)技(ji)術突破(po)，朱軍強調，目前階(jie)段最重要的仍然是通用基(ji)(ji)礎(chu)模型的提升(sheng)。“它決定(ding)了我(wo)們后端在控制和(he)一致性方面的能(neng)力，所有后端的實現(xian)都依賴于基(ji)(ji)礎(chu)模型的進展。”基(ji)(ji)于基(ji)(ji)礎(chu)模型，生數科技(ji)也在不斷探(tan)索(suo)，以(yi)實現(xian)更高的模型一致性和(he)可控性。

朱(zhu)軍認為，與語(yu)言(yan)模型(xing)(xing)不(bu)同(tong)，視(shi)(shi)頻大模型(xing)(xing)的(de)商業化路徑(jing)相對(dui)更(geng)快。他指出，視(shi)(shi)頻的(de)消費需求(qiu)非(fei)常曠闊，因此，當前(qian)行業內(nei)領先(xian)的(de)公司在視(shi)(shi)頻大模型(xing)(xing)領域各(ge)具特色，并形成了不(bu)同(tong)的(de)商業化布局。這(zhe)一領域并不(bu)像語(yu)言(yan)模型(xing)(xing)市場那(nei)樣“內(nei)卷”，而是呈現出更(geng)多元化的(de)競爭格局。

目(mu)前，大(da)(da)語(yu)言(yan)模(mo)型(xing)行(xing)業(ye)逐步進入(ru)收(shou)購(gou)與被收(shou)購(gou)階段，朱(zhu)軍認為，這與行(xing)業(ye)發展狀(zhuang)態相關。語(yu)言(yan)模(mo)型(xing)的(de)競爭已經進入(ru)深(shen)水區，領先(xian)企業(ye)在(zai)技術和市場布局方(fang)(fang)面占據優(you)勢，而視頻大(da)(da)模(mo)型(xing)則完(wan)全(quan)不一(yi)樣，中國的(de)視頻大(da)(da)模(mo)型(xing)在(zai)全(quan)球(qiu)范(fan)圍內很多(duo)方(fang)(fang)面都有應(ying)用(yong)，這與語(yu)言(yan)模(mo)型(xing)的(de)發展狀(zhuang)態截然不同。

未(wei)來，視頻(pin)大(da)模(mo)型行業是否(fou)會(hui)和語言大(da)模(mo)型一(yi)(yi)(yi)樣，只會(hui)留下幾家(jia)專注(zhu)于(yu)基礎模(mo)型研發(fa)(fa)的(de)公司？朱(zhu)軍認(ren)為，大(da)概率不(bu)會(hui)出現一(yi)(yi)(yi)家(jia)獨大(da)的(de)情況。一(yi)(yi)(yi)方面(mian)(mian)，視頻(pin)大(da)模(mo)型行業不(bu)算(suan)擁擠；另(ling)一(yi)(yi)(yi)方面(mian)(mian)，從人工智(zhi)能發(fa)(fa)展的(de)長期來看(kan)，核心因素(su)在于(yu)團隊(dui)是否(fou)具備持(chi)續創(chuang)新能力。今(jin)天(tian)，模(mo)型的(de)發(fa)(fa)展大(da)部分是階(jie)段性發(fa)(fa)展，盡管目前已經可以(yi)服務專業用戶并生成高質(zhi)量內容，但(dan)整體(ti)上(shang)仍有很(hen)大(da)提升空(kong)間，包(bao)括效(xiao)率、成本(ben)以(yi)及內容密度等方面(mian)(mian)的(de)突破。

相比于語(yu)言模(mo)型(xing)(xing)，視(shi)頻生成模(mo)型(xing)(xing)的(de)起步稍晚(wan)，但朱軍(jun)認為，這(zhe)種(zhong)“后(hou)發(fa)”反而(er)帶來了更(geng)快、更(geng)堅定的(de)前進(jin)步伐。他(ta)提(ti)到，視(shi)頻模(mo)型(xing)(xing)領(ling)域已經形成了對效(xiao)率優(you)化的(de)共識。例如，生數科技(ji)在(zai)推出Vidu2.0時(shi)，就明確提(ti)出要做“最(zui)高效(xiao)、最(zui)便宜的(de)高質量視(shi)頻模(mo)型(xing)(xing)”。這(zhe)種(zhong)理念已經深入(ru)行業，因此，他(ta)判斷視(shi)頻領(ling)域很難(nan)出現類似(si)DeepSeek在(zai)語(yu)言模(mo)型(xing)(xing)中“效(xiao)率遙遙領(ling)先(xian)”的(de)局面，而(er)是更(geng)期待讓視(shi)頻模(mo)型(xing)(xing)朝著“更(geng)可控(kong)、更(geng)好用”的(de)方向發(fa)展。

談及(ji)開(kai)源，朱(zhu)軍表示，開(kai)源一(yi)直是人工(gong)智(zhi)能行業(ye)的重要(yao)趨勢(shi)，生數科技也會開(kai)放部分(fen)創新(xin)方法供業(ye)界使用(yong)。然而(er)，他指(zhi)出，大部分(fen)所(suo)謂的開(kai)源模(mo)型并未真正開(kai)放核心訓(xun)練(lian)過程及(ji)數據。“DeepSeek之所(suo)以(yi)受(shou)到(dao)用(yong)戶歡迎，核心在于其(qi)出色的效(xiao)果和(he)高效(xiao)率。對C端(duan)用(yong)戶而(er)言，最關心的始終(zhong)是質量和(he)效(xiao)率，而(er)非模(mo)型是開(kai)源還是閉源。”

目前，視(shi)頻(pin)生(sheng)成(cheng)模型(xing)大多(duo)集中在5秒以(yi)內的(de)(de)短(duan)視(shi)頻(pin)，朱軍認為，這主要是成(cheng)本(ben)問題，而非能力(li)限制。同(tong)時(shi)，用(yong)(yong)戶的(de)(de)使用(yong)(yong)習(xi)慣(guan)(guan)也影響了視(shi)頻(pin)時(shi)長的(de)(de)選(xuan)擇(ze)。“現階段，大部(bu)分用(yong)(yong)戶習(xi)慣(guan)(guan)于豎屏短(duan)視(shi)頻(pin)，而如果要創作(zuo)1分鐘(zhong)以(yi)上的(de)(de)內容(rong)(rong)，就需要更完整的(de)(de)故事架構，涉及(ji)到從文案策劃到內容(rong)(rong)創作(zuo)的(de)(de)完整流程，而不僅僅是簡單(dan)的(de)(de)‘圖生(sheng)視(shi)頻(pin)’。”

朱軍認為(wei)，隨著(zhu)基礎模型能力(li)的提升，行業將逐步(bu)向更長(chang)時(shi)長(chang)、更具敘事(shi)性(xing)的場景拓展。“從短(duan)視(shi)頻向更長(chang)時(shi)長(chang)、敘事(shi)性(xing)更強的方向發展，將成為(wei)未來的一個重要趨勢。”

如需轉載請與《每日經濟新聞》報社聯系。
未經《每(mei)日經濟(ji)新聞(wen)》報社授權，嚴禁轉載或(huo)鏡(jing)像(xiang)，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取(qu)稿酬。如(ru)您(nin)不希望作(zuo)品出(chu)現在本站，可聯系我們要求撤下您(nin)的作(zuo)品。

Ai 大模(mo)型(xing) 生(sheng)數科技視頻大模型

上一篇文章

國務院國資委：將對整(zheng)車央(yang)企進行戰略性重組

返回每經網首頁

下一篇文章

#深圳首提100%容虧率國資在(zai)探索容錯機制方面(mian) , 邁出的前(qian)所未有(you)的一步