要聞

即夢半斤可靈八兩？字節、快手視頻AI正面交鋒：理解、捕捉和想象都有差異

每日經濟新聞 2024-11-10 17:28:18

◎伴隨(sui)字節自研視頻生成模型Seaweed開放使用，國內(nei)視頻生成模型大比拼里最(zui)具看點的一對——即夢、可(ke)靈終于正式交(jiao)手。

每(mei)(mei)經記(ji)者(zhe)｜王郁彪楊昕怡每(mei)(mei)經編輯(ji)｜張(zhang)海(hai)妮

字(zi)節、快手，兩位短(duan)視頻巨頭(tou)在AI領域(yu)里迎來了(le)正面交(jiao)鋒。

11月8日，字節(jie)跳動(dong)旗下的AI內容平臺即夢AI宣布，由字節(jie)跳動(dong)自研的視(shi)頻(pin)生成模型Seaweed面向平臺用戶正(zheng)式開放(fang)。

據(ju)字節方面(mian)介紹(shao)，本(ben)次開(kai)放(fang)使用的(de)豆包視頻(pin)生(sheng)(sheng)成模型Seaweed是該款模型的(de)標(biao)準(zhun)版，僅需(xu)60秒(miao)(miao)即能生(sheng)(sheng)成時長5秒(miao)(miao)的(de)高質量(liang)AI視頻(pin)，領先國(guo)內業界3至5分鐘的(de)所需(xu)生(sheng)(sheng)成時間。

《每日經濟新(xin)聞》記者在對即夢、可靈(ling)(ling)的(de)(de)初代版本和(he)最新(xin)版本進行實測(ce)時(shi)也發(fa)現，迭(die)代后，兩款產(chan)品在視頻生(sheng)成效果上均有多方面(mian)、不同程度的(de)(de)提升(sheng)，可靈(ling)(ling)在空間(jian)布局和(he)畫(hua)面(mian)細節呈現上更為(wei)準確，且(qie)對生(sheng)成內容效果的(de)(de)調節更具(ju)靈(ling)(ling)活性、便捷性；而(er)即夢在生(sheng)成時(shi)長和(he)視頻風格上有優勢。

一(yi)位大(da)模型技術(shu)人(ren)員向《每日(ri)經濟新(xin)聞》記者表示，視(shi)頻生成模型要實現生產內(nei)容的不同“畫風”是(shi)很難(nan)做的，“技術(shu)之外(wai)，還主要看數據(ju)源的豐富程度(du)”。

當短視頻(pin)進入AI時代，字節和(he)快手兩員(yuan)猛將下場，誰(shui)將拔得頭籌？

初代VS迭代：半年時間，即夢、可靈更新了什么？

伴隨字節自(zi)研視頻生(sheng)成(cheng)模型Seaweed開放(fang)使用，國內視頻生(sheng)成(cheng)模型大比拼里最(zui)具(ju)看點的一對——即夢(meng)、可靈(ling)終(zhong)于(yu)正式交(jiao)手(shou)。

它(ta)們(men)都承載著(zhu)理(li)解物理(li)世界，在衍生(sheng)“真實”的(de)(de)同(tong)時(shi)盡可(ke)能放大想象的(de)(de)“AI造夢計劃”，但對于(yu)自身而(er)言，即夢和(he)(he)可(ke)靈也都肩(jian)負字節和(he)(he)快手又一番商業化前景開拓的(de)(de)重(zhong)任。

事實上，即夢(meng)(meng)與(yu)可靈(ling)都在短短不到一年(nian)(nian)的(de)時間，完成(cheng)了(le)數(shu)次迭(die)代。即夢(meng)(meng)3月底開啟(qi)視頻生成(cheng)功能內測，半年(nian)(nian)后，字節發布了(le)豆包模(mo)型(xing)家族的(de)兩款(kuan)視頻生成(cheng)模(mo)型(xing)Seaweed和Pixeldance，并(bing)通過即夢(meng)(meng)AI、火山引擎小范圍邀測，至如今(jin)Seaweed面向(xiang)平臺用戶正式開放。

工信(xin)部信(xin)息(xi)通信(xin)經濟專家委員(yuan)會委員(yuan)盤和林向(xiang)《每日經濟新聞》記者表示，即夢使用(yong)(yong)的(de)新模型生成速度有所提升，給用(yong)(yong)戶的(de)生成體驗更好了，“即夢AI目前在國(guo)內生成領域(yu)，還是(shi)比(bi)較(jiao)領先的(de)”。

可靈(ling)(ling)在6月“出生”后一(yi)鳴驚(jing)人，發布至(zhi)(zhi)今(jin)經歷了十余(yu)次更新，包括發布圖(tu)生視頻(pin)功能以(yi)及1.5模型的上線等重(zhong)要更新。截至(zhi)(zhi)目(mu)前(qian)，可靈(ling)(ling)擁(yong)有(you)超(chao)過(guo)360萬用戶(hu)，累計生成3700萬個視頻(pin)，并在近期正式上架獨立App（應用軟件）。

《每(mei)日經濟新聞(wen)》記者選(xuan)取了OpenAI官(guan)方公(gong)布(bu)的5條(tiao)Sora視頻提示詞(ci)（東京街頭的女士、太空(kong)人(ren)、無人(ren)機視角的海岸、3D動(dong)畫的小怪物、云端讀書(shu)的年輕(qing)人(ren)）分別測(ce)試(shi)即夢和可靈的初(chu)代版(ban)本(ben)和最新版(ban)本(ben)，縱向對比兩(liang)個視頻生(sheng)成模型(xing)的視頻效果。

對比即夢(meng)最(zui)初(chu)版本和(he)(he)最(zui)新版本生產的(de)視頻效(xiao)果后(hou)，我們(men)發現(xian)，即夢(meng)有(you)兩部分(fen)更新較為(wei)明顯(xian)：一個是在(zai)動態的(de)“人事物(wu)”表現(xian)上(shang)，動作的(de)捕捉和(he)(he)連貫性均有(you)較為(wei)明顯(xian)的(de)提(ti)升；另(ling)一個是畫面風格的(de)差(cha)異化呈現(xian)也有(you)比較大的(de)進步。

以(yi)“東京街頭的(de)(de)(de)女士”為例(li)，初代即夢塑造的(de)(de)(de)人物動作僵硬(ying)，特別是(shi)在腿部、腳(jiao)部動作的(de)(de)(de)捕捉上，整體呈現的(de)(de)(de)效(xiao)果(guo)是(shi)模糊和扭曲(qu)的(de)(de)(de)。迭代后的(de)(de)(de)新版即夢，人物動作自然流暢，腳(jiao)部動態的(de)(de)(de)細節處(chu)理更清晰(xi)、更符合真實世界(jie)的(de)(de)(de)邏(luo)輯。

從畫(hua)面風(feng)格(ge)的(de)差異化上(shang)看，版(ban)本更新后的(de)即夢畫(hua)風(feng)區分度更高，無(wu)論對真實(shi)世界(jie)畫(hua)面，還是(shi)超現(xian)實(shi)畫(hua)面的(de)描述上(shang)，都做出了不同風(feng)格(ge)呈現(xian)。

這一點(dian)在“云端讀(du)書的(de)年輕人”視頻生(sheng)成(cheng)的(de)效(xiao)果上(shang)對(dui)比明(ming)顯。初代即(ji)夢(meng)將這一超現實畫(hua)面做了完(wan)全動畫(hua)風格的(de)處理(li)，而新版即(ji)夢(meng)對(dui)人物的(de)呈(cheng)現更傾(qing)向(xiang)寫(xie)實風。

初(chu)代(dai)版(ban)本即夢“云(yun)端讀書的年輕人”視頻(pin)截圖(tu)

新版即(ji)夢(meng)“云端讀(du)書的年輕人”視頻截圖(tu)

可靈“云端(duan)讀書(shu)的年輕(qing)人”視頻截圖(tu)

“太(tai)空(kong)人(ren)”的(de)視頻生成效果也是如此，初代(dai)即夢生成的(de)太(tai)空(kong)人(ren)“游戲建(jian)模”感較(jiao)重，而新版完全寫實。

初(chu)代可(ke)靈和(he)數次迭代后1.5模(mo)型(xing)的(de)可(ke)靈，視頻(pin)生成(cheng)效(xiao)(xiao)果提升更(geng)加(jia)明顯。變化(hua)之(zhi)一就是空間布(bu)(bu)局(ju)(ju)和(he)畫面細節的(de)呈現更(geng)精致(zhi)。在“無人機視角的(de)海(hai)岸(an)”生成(cheng)效(xiao)(xiao)果上，能夠看到在空間布(bu)(bu)局(ju)(ju)上，畫面更(geng)具縱深感，空間布(bu)(bu)局(ju)(ju)更(geng)加(jia)復雜，房(fang)屋、馬路等細節設置也(ye)更(geng)豐富。

即夢PK可靈：理解、捕捉和想象都有差異

兩個模型在迭代后(hou)，生(sheng)成效果都(dou)更(geng)(geng)(geng)加穩定(ding)，畫質(zhi)也(ye)更(geng)(geng)(geng)優(you)，流暢度和細節處(chu)理都(dou)更(geng)(geng)(geng)經(jing)得(de)起(qi)推敲。不過，它們在語義理解、關鍵詞捕(bu)捉和放大(da)，以(yi)及創意想象力和創意相關性的平衡上還是有明顯區別。

我們橫向(xiang)對(dui)比，將最新版本的(de)(de)即夢與1.5模型可靈，對(dui)5條Sora視(shi)頻提(ti)示詞（東京街頭的(de)(de)女士、太空人(ren)(ren)、無人(ren)(ren)機視(shi)角的(de)(de)海岸、3D動畫的(de)(de)小怪物、云端讀書(shu)的(de)(de)年(nian)輕人(ren)(ren)）的(de)(de)呈現進行比拼。

語義的理解(jie)和(he)關鍵詞的捕(bu)捉，讓(rang)即夢和(he)可靈的視(shi)頻呈現(xian)有所不同。

在“無人機視(shi)角的(de)海岸”視(shi)頻(pin)中，即夢對提示詞中“帶(dai)有燈(deng)塔的(de)小島(dao)”進行(xing)了相對模(mo)糊(hu)化的(de)處理(li)，而無論(lun)是可靈還是Sora，這一(yi)畫面的(de)重點都是“小島(dao)”。而在對“海岸公(gong)路”的(de)描述(shu)中，即夢的(de)設(she)置并(bing)不符合(he)真(zhen)實世界的(de)邏輯。

即夢(meng)“無人機視角下的小島(dao)”視頻截圖

可(ke)靈“無人機視(shi)角下的小島”視(shi)頻截(jie)圖

而在“太(tai)(tai)(tai)空(kong)人”的(de)(de)(de)視頻(pin)效果上，即夢對(dui)描(miao)(miao)述(shu)中的(de)(de)(de)“冒險(xian)”并未(wei)進(jin)行描(miao)(miao)述(shu)，再次生成后，手(shou)拿咖啡騎著(zhu)摩托的(de)(de)(de)太(tai)(tai)(tai)空(kong)人也忽視了(le)“冒險(xian)”的(de)(de)(de)設定。可靈則通過(guo)人物的(de)(de)(de)表情以(yi)及(ji)運鏡強(qiang)調里“冒險(xian)”。不過(guo)，即夢和可靈都相對(dui)忽視了(le)“電影(ying)預告片”這一設定，對(dui)比之下Sora的(de)(de)(de)“太(tai)(tai)(tai)空(kong)人”視頻(pin)更(geng)有電影(ying)感(gan)。

即夢“太空人(ren)”視頻(pin)截圖

可(ke)靈“太空人”視頻截(jie)圖(tu)

在“3D動畫的(de)(de)小(xiao)(xiao)怪物”視頻生(sheng)成中，即夢(meng)的(de)(de)小(xiao)(xiao)怪物設(she)定與動畫電(dian)影《怪物公司》里的(de)(de)角(jiao)色(se)“薩利”幾乎相同。而(er)提(ti)示(shi)詞中有關小(xiao)(xiao)怪物的(de)(de)部分描述，即夢(meng)的(de)(de)呈現(xian)也相對不甚準確(que)，比如“短毛(mao)”設(she)定的(de)(de)執行。此(ci)外(wai)，在藝術風格的(de)(de)呈現(xian)上(shang)，提(ti)示(shi)詞著重強調了“光照和紋理”，即夢(meng)的(de)(de)執行弱于可靈(ling)。

即夢“小怪物”視頻截圖

可靈“小怪物(wu)”視頻截(jie)圖

而在“東京街頭的(de)(de)女士(shi)”視頻中，即夢(meng)在多(duo)主(zhu)(zhu)體復雜交互(hu)的(de)(de)呈現(xian)上(shang)，效果相對(dui)(dui)于可靈，表現(xian)不佳。無(wu)論是(shi)對(dui)(dui)畫(hua)面主(zhu)(zhu)體的(de)(de)“女士(shi)”還是(shi)空間描述上(shang)都(dou)相對(dui)(dui)準確(que)，但畫(hua)面中的(de)(de)行人普遍進行了模糊處理，近(jin)景中的(de)(de)行人則出(chu)現(xian)扭(niu)曲變形。

即夢“東京街(jie)頭的女士”視頻截圖

可靈“東(dong)京街頭的女士(shi)”視頻(pin)截圖

不過，即夢AI官(guan)方(fang)透(tou)露，近期，Seaweed和Pixeldance兩款視頻生成模型的(de)Pro版(ban)也將開放使(shi)用。Pro版(ban)模型會對多(duo)主體(ti)交互以及多(duo)拍動(dong)作連貫性上進(jin)行優化(hua)，同時(shi)攻克多(duo)鏡頭切換(huan)的(de)一致性等(deng)難題。

在(zai)功能與體驗上，經過數(shu)(shu)輪迭代(dai)后的可(ke)靈，在(zai)生成視頻時，有“創意想象(xiang)力(li)和創意相關性”參數(shu)(shu)的調(diao)整，因(yin)此(ci)可(ke)以進行平衡調(diao)整。對于不希望呈現的內容，可(ke)靈也可(ke)以設置(zhi)，比(bi)如模(mo)糊、拼貼、變(bian)形、動畫等(deng)。生成操作更靈活，效果可(ke)調(diao)整。

即夢(meng)生(sheng)成(cheng)(cheng)視頻(pin)(pin)的操作更(geng)加便捷。此(ci)外，經測(ce)試，即夢(meng)視頻(pin)(pin)生(sheng)成(cheng)(cheng)時間更(geng)短，Sora的5條(tiao)提示詞的視頻(pin)(pin)生(sheng)成(cheng)(cheng)時間，每(mei)條(tiao)都不超過半分(fen)鐘(zhong)。而(er)1.5模(mo)型的可(ke)靈生(sheng)成(cheng)(cheng)10秒高(gao)質量視頻(pin)(pin)則需要耗時10分(fen)鐘(zhong)以上。

不過，需要注意的是，上述(shu)即夢、可(ke)靈生(sheng)成的視(shi)(shi)頻(pin)(pin)，均由記(ji)者測試生(sheng)成，不同版(ban)本、描述(shu)的細節(jie)，都會(hui)造成視(shi)(shi)頻(pin)(pin)生(sheng)成效果(guo)的差(cha)異。并(bing)且，目前Sora仍未開放，所生(sheng)成視(shi)(shi)頻(pin)(pin)均為官方發(fa)布版(ban)本，后續開放，用戶(hu)實際測試效果(guo)與(yu)官方視(shi)(shi)頻(pin)(pin)可(ke)能存在一定的差(cha)異。

AI視頻生成領域混戰，何為勝負手？

對(dui)于字節(jie)、快手這兩大短視頻巨頭而(er)言，要在AI視頻生(sheng)成領域中進行較量，對(dui)手還遠(yuan)不只彼此。

例如(ru)，11月8日，“AI六小龍”之一的(de)(de)智譜對其(qi)視頻生(sheng)成(cheng)工(gong)具清(qing)影進(jin)行了新升級(ji)。值得關注的(de)(de)是，升級(ji)后的(de)(de)清(qing)影支持任意比例的(de)(de)圖像生(sheng)成(cheng)視頻，并(bing)且具備多(duo)通道生(sheng)成(cheng)能(neng)(neng)力，同一指令或圖片可以(yi)一次(ci)性生(sheng)成(cheng)4個(ge)視頻。此外(wai)，新清(qing)影可以(yi)生(sheng)成(cheng)與畫面(mian)匹配的(de)(de)音效(xiao)(xiao)，該音效(xiao)(xiao)功能(neng)(neng)將在(zai)本(ben)月上線公測(ce)。

其中(zhong)已有(you)初露鋒芒(mang)的玩家出現。

8月(yue)31日，MiniMax發布了(le)其首(shou)款AI高(gao)清(qing)視(shi)頻(pin)生成模型(xing)技(ji)術abab-video-1，上線首(shou)月(yue)便捷(jie)報(bao)頻(pin)傳。MiniMax官方公眾(zhong)號(hao)披露，在視(shi)頻(pin)模型(xing)上線海螺AI的首(shou)月(yue)，海螺AI網頁版(ban)訪問量增(zeng)(zeng)速超800%，用(yong)戶覆蓋(gai)全球(qiu)超180個國家(jia)和地區，產(chan)品(pin)連奪AI產(chan)品(pin)榜(bang)(bang)（web）9月(yue)全球(qiu)增(zeng)(zeng)速榜(bang)(bang)和國內增(zeng)(zeng)速榜(bang)(bang)兩榜(bang)(bang)榜(bang)(bang)首(shou)。

北京市社會科(ke)學院管(guan)理(li)研究所副研究員王鵬向《每日經濟新(xin)聞》記者指出，目前(qian)國內(nei)外(wai)AI視(shi)頻產品都處于(yu)快速發展(zhan)階(jie)段，國外(wai)Meta、Google等科(ke)技巨頭都在積極布局AI視(shi)頻領域(yu)；國內(nei)方面，快手可靈、即夢AI等產品也在不斷(duan)迭代升級，提升用(yong)戶體驗和商業化(hua)能力。

同(tong)時，東吳證券(quan)在(zai)今年8月(yue)發(fa)布的研報也指出(chu)了(le)國(guo)產(chan)AI視(shi)頻大模(mo)型(xing)(xing)的迭代、落(luo)地發(fa)展之快、競爭之激(ji)烈(lie)——技術層面(mian)，新(xin)模(mo)型(xing)(xing)生成時長、分辨(bian)率(lv)(lv)、幀率(lv)(lv)上快速提升(sheng)，縮小了(le)與Sora之間(jian)的差距；產(chan)品方面(mian)，許(xu)多新(xin)產(chan)品和模(mo)型(xing)(xing)升(sheng)級面(mian)向(xiang)全體用戶(hu)開(kai)放，部(bu)分已應用于微短劇創作，國(guo)內(nei)公司在(zai)用戶(hu)開(kai)放和商業化落(luo)地方面(mian)進展迅速。

在商業化可能性方面，該份研報(bao)中提(ti)到，在AI滲透率為(wei)15%的中性假設下(xia)，中國AI視頻生成的行業潛在空間(jian)為(wei)3178億元；在全AI模(mo)式下(xia)，電(dian)影、長劇、動(dong)畫片和(he)短(duan)劇的制作成本，相較(jiao)傳(chuan)統(tong)模(mo)式將(jiang)下(xia)降(jiang)超95%。

龐大的(de)潛在市(shi)場規模和降本增效的(de)“超能(neng)力”也能(neng)從可靈(ling)的(de)使用數(shu)據上窺見一二。

在10月舉行的“2024中國(guo)計(ji)算(suan)機大(da)會”上，快(kuai)手(shou)副總裁、大(da)模型(xing)團隊負責人張(zhang)迪透(tou)露，自今(jin)年6月發布以(yi)(yi)來，快(kuai)手(shou)可靈AI已有(you)超(chao)過(guo)360萬用(yong)戶，累(lei)計(ji)生成3700萬個視頻以(yi)(yi)及(ji)超(chao)過(guo)1億張(zhang)圖片。

盤(pan)和林在接受《每日經濟新(xin)聞》記者采(cai)訪時表示，可靈背(bei)靠快手，擁有(you)流量(liang)支持，所以(yi)商業化進程(cheng)很快，“AI視頻產(chan)品還是要背(bei)靠互聯(lian)網平(ping)臺，有(you)流量(liang)才(cai)有(you)商業潛力”。

相似的是，字節也(ye)將視頻模型的商(shang)業化放在(zai)了任務單前列(lie)。在(zai)今年9月推出兩款視頻生成模型時，火山引擎總裁譚待曾公開表示，新款豆包視頻生成模型“從(cong)一(yi)落地就開始考慮商(shang)業化”，使用領域包括(kuo)電商(shang)營銷、動畫教育、城市文旅和微劇本。

“AI視(shi)頻將在B端(duan)和(he)C端(duan)展現(xian)出不同的商(shang)業化(hua)潛力。”王鵬認為(wei)，面向B端(duan)，AI視(shi)頻可以為(wei)企(qi)業提供更(geng)加高效(xiao)、低成本的視(shi)頻制作(zuo)和(he)分發解決方案；在C端(duan)，AI視(shi)頻可以滿足用(yong)戶對(dui)個性化(hua)、高質量視(shi)頻內(nei)容的需(xu)求，還能(neng)與電商(shang)、廣(guang)告等行業相結合，實現(xian)更(geng)加精準的營(ying)銷和(he)變現(xian)。

不(bu)過對于商(shang)業化，也有如(ru)MiniMax創始人閆(yan)俊杰這般(ban)的(de)想法：“在(zai)目前(qian)階段，最重要(yao)的(de)東西還不(bu)是商(shang)業化，是技術能達到廣泛‘可用’的(de)程度。”但(dan)毫無疑問的(de)是，在(zai)兩位短(duan)視(shi)頻巨頭(tou)下場(chang)、初創獨角獸“另辟蹊徑”，以及不(bu)一(yi)樣(yang)的(de)商(shang)業化節奏等因素的(de)共同作用下，這場(chang)在(zai)AI視(shi)頻生成領域(yu)的(de)賽跑(pao)已越(yue)發有看點了。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報(bao)社授權，嚴禁轉載(zai)或(huo)鏡(jing)像，違者(zhe)必究。

讀者熱線：4008890008

特別(bie)提醒(xing)：如果我們使用了您的圖片，請作者與本站聯系索取稿酬(chou)。如(ru)您不希望(wang)作品出(chu)現在本站，可聯系我們(men)要求撤下您的作品。

視頻(pin) Ai 快手字節

上一篇文章

國資委：推(tui)動(dong)央企(qi)探索與各類企(qi)業深化合作有效模式，高質量組織(zhi)聯合出海

返回每經網首頁

下一篇文章

國海證券給予光威復材買入評(ping)級，公司動態(tai)研究：三季度扣(kou)非(fei)歸母凈利潤(run)同比大增，碳梁(liang)業務實現恢復性增長