今日報紙

字節跳動、快手視頻AI正面交鋒：理解、捕捉和想象都有差異

每日(ri)經濟新(xin)聞(wen) 2024-11-11 22:21:14

每(mei)經記(ji)者｜王郁(yu)彪(biao) 楊昕怡  每(mei)經編輯(ji)｜張海(hai)妮  

字節(jie)跳動、快(kuai)手，兩位短視(shi)頻巨(ju)頭在AI領域迎(ying)來(lai)了正面交鋒(feng)。

11月(yue)8日，字(zi)節(jie)跳(tiao)(tiao)動旗下的(de)(de)(de)AI內容平(ping)(ping)臺即夢AI宣布(bu)，由字(zi)節(jie)跳(tiao)(tiao)動自研(yan)的(de)(de)(de)視頻生(sheng)成模(mo)(mo)型Seaweed面向(xiang)平(ping)(ping)臺用戶正式開(kai)放(fang)(fang)。據字(zi)節(jie)跳(tiao)(tiao)動方(fang)面介(jie)紹(shao)，本次開(kai)放(fang)(fang)使(shi)用的(de)(de)(de)豆包視頻生(sheng)成模(mo)(mo)型Seaweed是該款模(mo)(mo)型的(de)(de)(de)標準版(ban)，僅需(xu)(xu)60秒(miao)即能生(sheng)成時(shi)長5秒(miao)的(de)(de)(de)高質量AI視頻，領先國內業界3至5分(fen)鐘的(de)(de)(de)所需(xu)(xu)生(sheng)成時(shi)間(jian)。

《每日(ri)經濟新聞》記者在(zai)(zai)對即(ji)夢(meng)、可靈(ling)的(de)初代(dai)版(ban)本和最(zui)新版(ban)本進(jin)行(xing)實測時發現，迭代(dai)后，兩款產品在(zai)(zai)視頻生成(cheng)(cheng)效果上(shang)均有多方面、不同程度的(de)提升，可靈(ling)在(zai)(zai)空間布局和畫面細節呈(cheng)現上(shang)更(geng)為準(zhun)確，且對生成(cheng)(cheng)內容效果的(de)調(diao)節更(geng)具靈(ling)活性(xing)、便捷性(xing)；而(er)即(ji)夢(meng)在(zai)(zai)生成(cheng)(cheng)時長和視頻風格(ge)上(shang)有優勢(shi)。

視覺中國

一(yi)位大模型技術人員向記者表示(shi)，視頻生成(cheng)模型要實現生產內容的不同“畫風”是(shi)很(hen)難的，“技術之外，還主(zhu)要看數據源的豐(feng)富程度(du)”。

短期內完成多次迭代

伴隨(sui)字(zi)節跳(tiao)動自研視(shi)頻生(sheng)成模型Seaweed 開放使用，國內視(shi)頻生(sheng)成模型大比拼里(li)最(zui)具看點的一(yi)對——即夢、可靈終于(yu)正式交手。

它們(men)都承載(zai)著理解物(wu)理世界，在衍生“真實(shi)”的(de)同時盡可能(neng)放大想象的(de)“AI造夢計劃(hua)”，但對于自身而言，即夢和可靈也都肩負字節跳動(dong)和快手又一番商業化(hua)前景開拓的(de)重任。

事(shi)實上(shang)，即(ji)(ji)夢(meng)與可靈都在(zai)短短不(bu)到(dao)一年的時間，完(wan)成(cheng)了數次迭(die)代。即(ji)(ji)夢(meng)3月底開(kai)啟視頻生成(cheng)功(gong)能內測，半年后，字(zi)節跳動(dong)發布了豆包模型(xing)家族的兩(liang)款視頻生成(cheng)模型(xing)Seaweed和Pixeldance，并(bing)通過(guo)即(ji)(ji)夢(meng)AI、火山引擎(qing)小范圍邀測，如今Seaweed面(mian)向(xiang)平臺(tai)用戶正式開(kai)放。

工信(xin)(xin)部信(xin)(xin)息通信(xin)(xin)經(jing)濟專家(jia)委員(yuan)會委員(yuan)盤和林(lin)向《每日經(jing)濟新聞》記者表示，即夢使(shi)用的新模型(xing)生成速度有(you)所提升，給用戶的生成體驗更好了，“即夢AI目前在國內(nei)生成領(ling)(ling)域，還是比較(jiao)領(ling)(ling)先的”。

可靈在(zai)6月“出生”后一鳴(ming)驚人，發(fa)布至今(jin)經歷(li)了十余次更新(xin)，包括發(fa)布圖生視(shi)頻(pin)功能以及(ji)1.5模型的上線(xian)等。截至目前，可靈擁有超過(guo)360萬用戶，累計生成3700萬個視(shi)頻(pin)，并在(zai)近期正式(shi)上架獨立App（應用軟件）。

《每日經濟新聞》記者(zhe)選取(qu)了OpenAI官方公布的(de)5條Sora視(shi)頻提示(shi)詞（東京街頭(tou)的(de)女士、太空人、無人機(ji)視(shi)角的(de)海岸、3D動(dong)畫的(de)小怪(guai)物、云端(duan)讀(du)書的(de)年輕人）分(fen)別(bie)測試即夢和可靈的(de)初代版本和最(zui)新版本，縱向對比(bi)兩個視(shi)頻生成(cheng)模型的(de)視(shi)頻效(xiao)果。

對比(bi)即(ji)夢(meng)最初版本和最新(xin)版本生產(chan)的(de)(de)視頻效果后，記者發現，即(ji)夢(meng)有(you)(you)兩部分(fen)更(geng)新(xin)較為明顯：一個是在動態的(de)(de)“人(ren)事物”表(biao)現上，動作的(de)(de)捕捉和連貫性均有(you)(you)較為明顯的(de)(de)提升；另(ling)一個是畫面風(feng)格的(de)(de)差異化呈現也有(you)(you)比(bi)較大的(de)(de)進步。

以(yi)“東京街頭的(de)(de)女士(shi)”為(wei)例，初(chu)代(dai)即夢(meng)塑造的(de)(de)人(ren)物動(dong)作僵(jiang)硬，特別是在(zai)腿部、腳部動(dong)作的(de)(de)捕捉上，整體呈(cheng)現的(de)(de)效果是模(mo)糊(hu)和扭(niu)曲(qu)的(de)(de)。迭代(dai)后的(de)(de)新版(ban)即夢(meng)，人(ren)物動(dong)作自然流暢，腳部動(dong)態的(de)(de)細節處理(li)更(geng)清晰、更(geng)符合真實世界的(de)(de)邏輯。

即夢與可靈差異明顯

兩個模型在(zai)迭代后(hou)，生成效(xiao)果都更加穩(wen)定(ding)，畫質也(ye)更優(you)，流暢度和細節處理都更經得起推敲(qiao)。不過，它們在(zai)語義理解、關鍵詞捕捉和放大，以(yi)及創意想(xiang)象力和創意相關性的平衡(heng)上還是有(you)明顯區(qu)別。

橫向對比(bi)，將最新版本的即(ji)(ji)夢(meng)與1.5模型可(ke)靈(ling)，對5條Sora視頻(pin)提示詞的呈現進行比(bi)拼。語(yu)義的理(li)解和(he)(he)關鍵詞的捕捉，讓即(ji)(ji)夢(meng)和(he)(he)可(ke)靈(ling)的視頻(pin)呈現有所(suo)不(bu)同。

在(zai)“無人機視(shi)角的(de)(de)海岸”視(shi)頻中，即(ji)夢對(dui)提示詞中“帶有燈塔的(de)(de)小(xiao)島”進行了相對(dui)模糊化的(de)(de)處理(li)，而無論是可靈還是Sora，這一畫(hua)面的(de)(de)重點都是“小(xiao)島”。而在(zai)對(dui)“海岸公路”的(de)(de)描述(shu)中，即(ji)夢的(de)(de)設置并不符合(he)真實世界的(de)(de)邏輯(ji)。

在“太空人”的(de)(de)視頻(pin)效果上，即夢(meng)對描述中的(de)(de)“冒(mao)險”并未(wei)進(jin)行描述，再次生成后，手拿咖啡騎(qi)著摩托的(de)(de)太空人也忽視了“冒(mao)險”的(de)(de)設定(ding)。可靈則通過(guo)人物的(de)(de)表情以及運鏡強調(diao)“冒(mao)險”。不過(guo)，即夢(meng)和可靈都相對忽視了“電影預(yu)告片”這(zhe)一設定(ding)，對比(bi)之下Sora的(de)(de)“太空人”視頻(pin)更有電影感(gan)。

在(zai)“3D動(dong)畫的(de)(de)(de)(de)小怪(guai)物(wu)”視頻生成中，即夢(meng)的(de)(de)(de)(de)小怪(guai)物(wu)設定與動(dong)畫電影(ying)《怪(guai)物(wu)公司》里的(de)(de)(de)(de)角色“薩利”幾乎相同。而(er)提(ti)示詞(ci)中有關小怪(guai)物(wu)的(de)(de)(de)(de)部分描述，即夢(meng)的(de)(de)(de)(de)呈現也相對不甚準確(que)，比如“短毛”設定的(de)(de)(de)(de)執行。此(ci)外，在(zai)藝術風(feng)格(ge)的(de)(de)(de)(de)呈現上，提(ti)示詞(ci)著重強調(diao)了“光照和(he)紋(wen)理”，即夢(meng)的(de)(de)(de)(de)執行弱于可靈。

而在“東京街頭(tou)的(de)女士”視頻中(zhong)，即夢(meng)在多主(zhu)體(ti)復雜(za)交互(hu)的(de)呈現(xian)(xian)上(shang)(shang)，效果相(xiang)對(dui)(dui)于可靈，表現(xian)(xian)不佳。無(wu)論(lun)是(shi)對(dui)(dui)畫(hua)面主(zhu)體(ti)的(de)“女士”還是(shi)空間描述上(shang)(shang)都相(xiang)對(dui)(dui)準確，但對(dui)(dui)畫(hua)面中(zhong)的(de)行(xing)(xing)(xing)人普遍進行(xing)(xing)(xing)了(le)模糊處理，近景中(zhong)的(de)行(xing)(xing)(xing)人則出現(xian)(xian)扭(niu)曲變形。

不過(guo)，即夢AI官方透露(lu)，近期，Seaweed和(he)Pixeldance兩款視頻生成模型的Pro版將開放使(shi)用。Pro版模型會對(dui)多(duo)主體(ti)交(jiao)互以及多(duo)拍動作連貫性進行優化(hua)，同時攻克多(duo)鏡頭切換(huan)的一(yi)致性等(deng)難題。

在功(gong)能與體驗上，經過數輪迭代后的(de)(de)可靈(ling)，在生(sheng)成(cheng)視頻時，有“創意想(xiang)象力和創意相關(guan)性”參(can)數的(de)(de)調(diao)整(zheng)，因此可以進行平衡調(diao)整(zheng)。對(dui)于(yu)不希望呈現的(de)(de)內容(rong)，可靈(ling)也可以設(she)置，比如模(mo)糊(hu)、拼貼、變形、動畫等。生(sheng)成(cheng)操作(zuo)更靈(ling)活，效果可調(diao)整(zheng)。

經測(ce)試(shi)，即夢視頻(pin)(pin)生成(cheng)(cheng)時(shi)間更短(duan)，Sora的(de)(de)5條提示詞的(de)(de)視頻(pin)(pin)生成(cheng)(cheng)時(shi)間，每條都不超過半(ban)分鐘(zhong)。而1.5模型的(de)(de)可靈生成(cheng)(cheng)10秒高(gao)質量視頻(pin)(pin)則需要耗(hao)時(shi)10分鐘(zhong)以(yi)上(shang)。

需(xu)要注意的(de)是，上述即夢、可(ke)靈生(sheng)成(cheng)的(de)視頻(pin)，均由記者測試(shi)生(sheng)成(cheng)，不同版本、描述的(de)細節，都會造成(cheng)視頻(pin)生(sheng)成(cheng)效果的(de)差異。

AI視頻生成領域混戰

對(dui)于(yu)字節跳動、快(kuai)手這(zhe)兩大(da)短視(shi)頻巨頭而(er)言，AI視(shi)頻生(sheng)成領域的對(dui)手遠不止彼此。

例如，11月(yue)8日，“AI六小龍”之一的智譜對其視(shi)頻生成(cheng)工具(ju)清(qing)影(ying)進行(xing)升(sheng)級。升(sheng)級后的清(qing)影(ying)支持任(ren)意比(bi)例的圖像(xiang)生成(cheng)視(shi)頻，并且具(ju)備多(duo)通道(dao)生成(cheng)能(neng)(neng)力，同一指令或(huo)圖片可以(yi)一次性生成(cheng)4個視(shi)頻。此外，清(qing)影(ying)可以(yi)生成(cheng)與畫面(mian)匹配(pei)的音效(xiao)，該音效(xiao)功(gong)能(neng)(neng)將在本月(yue)上線公測。

更早之(zhi)前，8月(yue)(yue)31日，MiniMax發布(bu)了其首(shou)款AI高清視頻生成模(mo)型(xing)(xing)技術abab-video-1，上(shang)線(xian)首(shou)月(yue)(yue)便捷報頻傳。據MiniMax官方公眾號披露，在視頻模(mo)型(xing)(xing)上(shang)線(xian)海螺AI的(de)首(shou)月(yue)(yue)，海螺AI網(wang)頁版訪(fang)問量增(zeng)速超(chao)800%，用戶覆蓋全(quan)球(qiu)超(chao)180個國家和(he)地區，產(chan)品連奪AI產(chan)品榜（web）9月(yue)(yue)全(quan)球(qiu)增(zeng)速榜和(he)國內增(zeng)速榜榜首(shou)。

北京(jing)市(shi)社會科學院管理研究所(suo)副(fu)研究員王鵬(peng)向《每(mei)日經濟新(xin)聞》記者指出，目前國內外AI視頻產品都(dou)處于快速發展階段，國外Meta、Google等(deng)科技巨頭都(dou)在積(ji)極布局AI視頻領域；國內方面，快手可靈、即夢AI等(deng)產品也(ye)在不(bu)斷迭代升級，提(ti)升用戶體驗和商業化(hua)能力(li)。

在商業化可能(neng)性(xing)方面，東吳(wu)證券在今年8月(yue)發布(bu)的(de)研報提到，在AI滲透率為15%的(de)中性(xing)假(jia)設下，中國AI視(shi)頻生成行業的(de)潛在空間為3178億元；在全AI模式(shi)下，電影(ying)、長劇、動畫片(pian)和短(duan)劇的(de)制作成本，相較傳統模式(shi)將下降超95%。

龐大的(de)(de)潛在市場規模和降(jiang)本增(zeng)效的(de)(de)“超(chao)能力”也能從可(ke)靈的(de)(de)使用數據上窺(kui)見一二。

在10月舉行的(de)“2024中國計算機大會”上，快手(shou)(shou)副總裁、大模型團隊負責人(ren)張(zhang)迪透露，自今年6月發布以(yi)來，快手(shou)(shou)可靈AI已有(you)超過360萬(wan)用戶，累(lei)計生成(cheng)3700萬(wan)個(ge)視頻以(yi)及超過1億張(zhang)圖(tu)片。

盤和林在接(jie)受《每日經濟(ji)新聞》記者采(cai)訪時表(biao)示，可靈背(bei)靠快手，擁有流量支持，所以商業化進程很快，“AI視頻(pin)產品還(huan)是要背(bei)靠互聯網平臺，有流量才有商業潛力”。

相似的是(shi)，字節(jie)跳動也(ye)將(jiang)視頻模(mo)型的商業化放在了任務單(dan)前(qian)列(lie)。在今年9月推出兩款視頻生(sheng)(sheng)成模(mo)型時，火山引擎總(zong)裁譚待(dai)曾公(gong)開(kai)表示，新(xin)款豆包視頻生(sheng)(sheng)成模(mo)型“從(cong)一(yi)落地(di)就開(kai)始考慮商業化”，使用領域包括電(dian)商營銷、動畫(hua)教育、城(cheng)市文旅和微(wei)劇本。

“AI視頻將在B端(duan)和(he)C端(duan)展現(xian)出不同的商(shang)業化(hua)潛力。”王鵬認為，面向B端(duan)，AI視頻可以為企業提(ti)供更加(jia)高效、低成本的視頻制作和(he)分發(fa)解(jie)決方案；在C端(duan)，AI視頻可以滿足用戶對個性化(hua)、高質量視頻內容的需求(qiu)，還能與(yu)電商(shang)、廣告(gao)等行業相結合，實(shi)現(xian)更加(jia)精準(zhun)的營銷和(he)變現(xian)。

封面(mian)圖片來源(yuan)：視覺中國(guo)

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日(ri)經濟新(xin)聞》報社(she)授權，嚴禁轉載或鏡像，違者必(bi)究。

讀者熱(re)線(xian)：4008890008

特(te)別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬(chou)。如您不希望作(zuo)品(pin)出現在本站，可(ke)聯系我們要(yao)求撤下您的作(zuo)品(pin)。

視(shi)頻(pin) Ai 正面快手(shou)

上一篇文章

施美藥業(ye)擬(ni)創業(ye)板(ban)上市與(yu)去年第三大客戶(hu)對簿公堂

返回每經網首頁

下一篇文章

第十(shi)五屆珠海(hai)航展明日開幕：多款空軍裝備將集中亮相，低空經濟再成熱(re)點