每日(ri)經濟新(xin)聞(wen) 2024-11-11 22:21:14
每(mei)經記(ji)者|王郁(yu)彪(biao) 楊昕怡 每(mei)經編輯(ji)|張海(hai)妮
字節(jie)跳動、快(kuai)手,兩位短視(shi)頻巨(ju)頭在AI領域迎(ying)來(lai)了正面交鋒(feng)。
11月(yue)8日,字(zi)節(jie)跳(tiao)(tiao)動旗下的(de)(de)(de)AI內容平(ping)(ping)臺即夢AI宣布(bu),由字(zi)節(jie)跳(tiao)(tiao)動自研(yan)的(de)(de)(de)視頻生(sheng)成模(mo)(mo)型Seaweed面向(xiang)平(ping)(ping)臺用戶正式開(kai)放(fang)(fang)。據字(zi)節(jie)跳(tiao)(tiao)動方(fang)面介(jie)紹(shao),本次開(kai)放(fang)(fang)使(shi)用的(de)(de)(de)豆包視頻生(sheng)成模(mo)(mo)型Seaweed是該款模(mo)(mo)型的(de)(de)(de)標準版(ban),僅需(xu)(xu)60秒(miao)即能生(sheng)成時(shi)長5秒(miao)的(de)(de)(de)高質量AI視頻,領先國內業界3至5分(fen)鐘的(de)(de)(de)所需(xu)(xu)生(sheng)成時(shi)間(jian)。
《每日(ri)經濟新聞》記者在(zai)(zai)對即(ji)夢(meng)、可靈(ling)的(de)初代(dai)版(ban)本和最(zui)新版(ban)本進(jin)行(xing)實測時發現,迭代(dai)后,兩款產品在(zai)(zai)視頻生成(cheng)(cheng)效果上(shang)均有多方面、不同程度的(de)提升,可靈(ling)在(zai)(zai)空間布局和畫面細節呈(cheng)現上(shang)更(geng)為準(zhun)確,且對生成(cheng)(cheng)內容效果的(de)調(diao)節更(geng)具靈(ling)活性(xing)、便捷性(xing);而(er)即(ji)夢(meng)在(zai)(zai)生成(cheng)(cheng)時長和視頻風格(ge)上(shang)有優勢(shi)。
視覺中國
一(yi)位大模型技術人員向記者表示(shi),視頻生成(cheng)模型要實現生產內容的不同“畫風”是(shi)很(hen)難的,“技術之外,還主(zhu)要看數據源的豐(feng)富程度(du)”。
短期內完成多次迭代
伴隨(sui)字(zi)節跳(tiao)動自研視(shi)頻生(sheng)成模型Seaweed 開放使用,國內視(shi)頻生(sheng)成模型大比拼里(li)最(zui)具看點的一(yi)對——即夢、可靈終于(yu)正式交手。
它們(men)都承載(zai)著理解物(wu)理世界,在衍生“真實(shi)”的(de)同時盡可能(neng)放大想象的(de)“AI造夢計劃(hua)”,但對于自身而言,即夢和可靈也都肩負字節跳動(dong)和快手又一番商業化(hua)前景開拓的(de)重任。
事(shi)實上(shang),即(ji)(ji)夢(meng)與可靈都在(zai)短短不(bu)到(dao)一年的時間,完(wan)成(cheng)了數次迭(die)代。即(ji)(ji)夢(meng)3月底開(kai)啟視頻生成(cheng)功(gong)能內測,半年后,字(zi)節跳動(dong)發布了豆包模型(xing)家族的兩(liang)款視頻生成(cheng)模型(xing)Seaweed和Pixeldance,并(bing)通過(guo)即(ji)(ji)夢(meng)AI、火山引擎(qing)小范圍邀測,如今Seaweed面(mian)向(xiang)平臺(tai)用戶正式開(kai)放。
工信(xin)(xin)部信(xin)(xin)息通信(xin)(xin)經(jing)濟專家(jia)委員(yuan)會委員(yuan)盤和林(lin)向《每日經(jing)濟新聞》記者表示,即夢使(shi)用的新模型(xing)生成速度有(you)所提升,給用戶的生成體驗更好了,“即夢AI目前在國內(nei)生成領(ling)(ling)域,還是比較(jiao)領(ling)(ling)先的”。
可靈在(zai)6月“出生”后一鳴(ming)驚人,發(fa)布至今(jin)經歷(li)了十余次更新(xin),包括發(fa)布圖生視(shi)頻(pin)功能以及(ji)1.5模型的上線(xian)等。截至目前,可靈擁有超過(guo)360萬用戶,累計生成3700萬個視(shi)頻(pin),并在(zai)近期正式(shi)上架獨立App(應用軟件)。
《每日經濟新聞》記者(zhe)選取(qu)了OpenAI官方公布的(de)5條Sora視(shi)頻提示(shi)詞(東京街頭(tou)的(de)女士、太空人、無人機(ji)視(shi)角的(de)海岸、3D動(dong)畫的(de)小怪(guai)物、云端(duan)讀(du)書的(de)年輕人)分(fen)別(bie)測試即夢和可靈的(de)初代版本和最(zui)新版本,縱向對比(bi)兩個視(shi)頻生成(cheng)模型的(de)視(shi)頻效(xiao)果。
對比(bi)即(ji)夢(meng)最初版本和最新(xin)版本生產(chan)的(de)(de)視頻效果后,記者發現,即(ji)夢(meng)有(you)(you)兩部分(fen)更(geng)新(xin)較為明顯:一個是在動態的(de)(de)“人(ren)事物”表(biao)現上,動作的(de)(de)捕捉和連貫性均有(you)(you)較為明顯的(de)(de)提升;另(ling)一個是畫面風(feng)格的(de)(de)差異化呈現也有(you)(you)比(bi)較大的(de)(de)進步。
以(yi)“東京街頭的(de)(de)女士(shi)”為(wei)例,初(chu)代(dai)即夢(meng)塑造的(de)(de)人(ren)物動(dong)作僵(jiang)硬,特別是在(zai)腿部、腳部動(dong)作的(de)(de)捕捉上,整體呈(cheng)現的(de)(de)效果是模(mo)糊(hu)和扭(niu)曲(qu)的(de)(de)。迭代(dai)后的(de)(de)新版(ban)即夢(meng),人(ren)物動(dong)作自然流暢,腳部動(dong)態的(de)(de)細節處理(li)更(geng)清晰、更(geng)符合真實世界的(de)(de)邏輯。
即夢與可靈差異明顯
兩個模型在(zai)迭代后(hou),生成效(xiao)果都更加穩(wen)定(ding),畫質也(ye)更優(you),流暢度和細節處理都更經得起推敲(qiao)。不過,它們在(zai)語義理解、關鍵詞捕捉和放大,以(yi)及創意想(xiang)象力和創意相關性的平衡(heng)上還是有(you)明顯區(qu)別。
橫向對比(bi),將最新版本的即(ji)(ji)夢(meng)與1.5模型可(ke)靈(ling),對5條Sora視頻(pin)提示詞的呈現進行比(bi)拼。語(yu)義的理(li)解和(he)(he)關鍵詞的捕捉,讓即(ji)(ji)夢(meng)和(he)(he)可(ke)靈(ling)的視頻(pin)呈現有所(suo)不(bu)同。
在(zai)“無人機視(shi)角的(de)(de)海岸”視(shi)頻中,即(ji)夢對(dui)提示詞中“帶有燈塔的(de)(de)小(xiao)島”進行了相對(dui)模糊化的(de)(de)處理(li),而無論是可靈還是Sora,這一畫(hua)面的(de)(de)重點都是“小(xiao)島”。而在(zai)對(dui)“海岸公路”的(de)(de)描述(shu)中,即(ji)夢的(de)(de)設置并不符合(he)真實世界的(de)(de)邏輯(ji)。
在“太空人”的(de)(de)視頻(pin)效果上,即夢(meng)對描述中的(de)(de)“冒(mao)險”并未(wei)進(jin)行描述,再次生成后,手拿咖啡騎(qi)著摩托的(de)(de)太空人也忽視了“冒(mao)險”的(de)(de)設定(ding)。可靈則通過(guo)人物的(de)(de)表情以及運鏡強調(diao)“冒(mao)險”。不過(guo),即夢(meng)和可靈都相對忽視了“電影預(yu)告片”這(zhe)一設定(ding),對比(bi)之下Sora的(de)(de)“太空人”視頻(pin)更有電影感(gan)。
在(zai)“3D動(dong)畫的(de)(de)(de)(de)小怪(guai)物(wu)”視頻生成中,即夢(meng)的(de)(de)(de)(de)小怪(guai)物(wu)設定與動(dong)畫電影(ying)《怪(guai)物(wu)公司》里的(de)(de)(de)(de)角色“薩利”幾乎相同。而(er)提(ti)示詞(ci)中有關小怪(guai)物(wu)的(de)(de)(de)(de)部分描述,即夢(meng)的(de)(de)(de)(de)呈現也相對不甚準確(que),比如“短毛”設定的(de)(de)(de)(de)執行。此(ci)外,在(zai)藝術風(feng)格(ge)的(de)(de)(de)(de)呈現上,提(ti)示詞(ci)著重強調(diao)了“光照和(he)紋(wen)理”,即夢(meng)的(de)(de)(de)(de)執行弱于可靈。
而在“東京街頭(tou)的(de)女士”視頻中(zhong),即夢(meng)在多主(zhu)體(ti)復雜(za)交互(hu)的(de)呈現(xian)(xian)上(shang)(shang),效果相(xiang)對(dui)(dui)于可靈,表現(xian)(xian)不佳。無(wu)論(lun)是(shi)對(dui)(dui)畫(hua)面主(zhu)體(ti)的(de)“女士”還是(shi)空間描述上(shang)(shang)都相(xiang)對(dui)(dui)準確,但對(dui)(dui)畫(hua)面中(zhong)的(de)行(xing)(xing)(xing)人普遍進行(xing)(xing)(xing)了(le)模糊處理,近景中(zhong)的(de)行(xing)(xing)(xing)人則出現(xian)(xian)扭(niu)曲變形。
不過(guo),即夢AI官方透露(lu),近期,Seaweed和(he)Pixeldance兩款視頻生成模型的Pro版將開放使(shi)用。Pro版模型會對(dui)多(duo)主體(ti)交(jiao)互以及多(duo)拍動作連貫性進行優化(hua),同時攻克多(duo)鏡頭切換(huan)的一(yi)致性等(deng)難題。
在功(gong)能與體驗上,經過數輪迭代后的(de)(de)可靈(ling),在生(sheng)成(cheng)視頻時,有“創意想(xiang)象力和創意相關(guan)性”參(can)數的(de)(de)調(diao)整(zheng),因此可以進行平衡調(diao)整(zheng)。對(dui)于(yu)不希望呈現的(de)(de)內容(rong),可靈(ling)也可以設(she)置,比如模(mo)糊(hu)、拼貼、變形、動畫等。生(sheng)成(cheng)操作(zuo)更靈(ling)活,效果可調(diao)整(zheng)。
經測(ce)試(shi),即夢視頻(pin)(pin)生成(cheng)(cheng)時(shi)間更短(duan),Sora的(de)(de)5條提示詞的(de)(de)視頻(pin)(pin)生成(cheng)(cheng)時(shi)間,每條都不超過半(ban)分鐘(zhong)。而1.5模型的(de)(de)可靈生成(cheng)(cheng)10秒高(gao)質量視頻(pin)(pin)則需要耗(hao)時(shi)10分鐘(zhong)以(yi)上(shang)。
需(xu)要注意的(de)是,上述即夢、可(ke)靈生(sheng)成(cheng)的(de)視頻(pin),均由記者測試(shi)生(sheng)成(cheng),不同版本、描述的(de)細節,都會造成(cheng)視頻(pin)生(sheng)成(cheng)效果的(de)差異。
AI視頻生成領域混戰
對(dui)于(yu)字節跳動、快(kuai)手這(zhe)兩大(da)短視(shi)頻巨頭而(er)言,AI視(shi)頻生(sheng)成領域的對(dui)手遠不止彼此。
例如,11月(yue)8日,“AI六小龍”之一的智譜對其視(shi)頻生成(cheng)工具(ju)清(qing)影(ying)進行(xing)升(sheng)級。升(sheng)級后的清(qing)影(ying)支持任(ren)意比(bi)例的圖像(xiang)生成(cheng)視(shi)頻,并且具(ju)備多(duo)通道(dao)生成(cheng)能(neng)(neng)力,同一指令或(huo)圖片可以(yi)一次性生成(cheng)4個視(shi)頻。此外,清(qing)影(ying)可以(yi)生成(cheng)與畫面(mian)匹配(pei)的音效(xiao),該音效(xiao)功(gong)能(neng)(neng)將在本月(yue)上線公測。
更早之(zhi)前,8月(yue)(yue)31日,MiniMax發布(bu)了其首(shou)款AI高清視頻生成模(mo)型(xing)(xing)技術abab-video-1,上(shang)線(xian)首(shou)月(yue)(yue)便捷報頻傳。據MiniMax官方公眾號披露,在視頻模(mo)型(xing)(xing)上(shang)線(xian)海螺AI的(de)首(shou)月(yue)(yue),海螺AI網(wang)頁版訪(fang)問量增(zeng)速超(chao)800%,用戶覆蓋全(quan)球(qiu)超(chao)180個國家和(he)地區,產(chan)品連奪AI產(chan)品榜(web)9月(yue)(yue)全(quan)球(qiu)增(zeng)速榜和(he)國內增(zeng)速榜榜首(shou)。
北京(jing)市(shi)社會科學院管理研究所(suo)副(fu)研究員王鵬(peng)向《每(mei)日經濟新(xin)聞》記者指出,目前國內外AI視頻產品都(dou)處于快速發展階段,國外Meta、Google等(deng)科技巨頭都(dou)在積(ji)極布局AI視頻領域;國內方面,快手可靈、即夢AI等(deng)產品也(ye)在不(bu)斷迭代升級,提(ti)升用戶體驗和商業化(hua)能力(li)。
在商業化可能(neng)性(xing)方面,東吳(wu)證券在今年8月(yue)發布(bu)的(de)研報提到,在AI滲透率為15%的(de)中性(xing)假(jia)設下,中國AI視(shi)頻生成行業的(de)潛在空間為3178億元;在全AI模式(shi)下,電影(ying)、長劇、動畫片(pian)和短(duan)劇的(de)制作成本,相較傳統模式(shi)將下降超95%。
龐大的(de)(de)潛在市場規模和降(jiang)本增(zeng)效的(de)(de)“超(chao)能力”也能從可(ke)靈的(de)(de)使用數據上窺(kui)見一二。
在10月舉行的(de)“2024中國計算機大會”上,快手(shou)(shou)副總裁、大模型團隊負責人(ren)張(zhang)迪透露,自今年6月發布以(yi)來,快手(shou)(shou)可靈AI已有(you)超過360萬(wan)用戶,累(lei)計生成(cheng)3700萬(wan)個(ge)視頻以(yi)及超過1億張(zhang)圖(tu)片。
盤和林在接(jie)受《每日經濟(ji)新聞》記者采(cai)訪時表(biao)示,可靈背(bei)靠快手,擁有流量支持,所以商業化進程很快,“AI視頻(pin)產品還(huan)是要背(bei)靠互聯網平臺,有流量才有商業潛力”。
相似的是(shi),字節(jie)跳動也(ye)將(jiang)視頻模(mo)型的商業化放在了任務單(dan)前(qian)列(lie)。在今年9月推出兩款視頻生(sheng)(sheng)成模(mo)型時,火山引擎總(zong)裁譚待(dai)曾公(gong)開(kai)表示,新(xin)款豆包視頻生(sheng)(sheng)成模(mo)型“從(cong)一(yi)落地(di)就開(kai)始考慮商業化”,使用領域包括電(dian)商營銷、動畫(hua)教育、城(cheng)市文旅和微(wei)劇本。
“AI視頻將在B端(duan)和(he)C端(duan)展現(xian)出不同的商(shang)業化(hua)潛力。”王鵬認為,面向B端(duan),AI視頻可以為企業提(ti)供更加(jia)高效、低成本的視頻制作和(he)分發(fa)解(jie)決方案;在C端(duan),AI視頻可以滿足用戶對個性化(hua)、高質量視頻內容的需求(qiu),還能與(yu)電商(shang)、廣告(gao)等行業相結合,實(shi)現(xian)更加(jia)精準(zhun)的營銷和(he)變現(xian)。
封面(mian)圖片來源(yuan):視覺中國(guo)
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日(ri)經濟新(xin)聞》報社(she)授權,嚴禁轉載或鏡像,違者必(bi)究。
讀者熱(re)線(xian):4008890008
特(te)別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬(chou)。如您不希望作(zuo)品(pin)出現在本站,可(ke)聯系我們要(yao)求撤下您的作(zuo)品(pin)。
歡迎關注每(mei)日經濟(ji)新聞(wen)APP