每日經濟新聞 2024-11-10 17:28:18
◎伴隨(sui)字節自研視頻生成模型Seaweed開放使用,國內(nei)視頻生成模型大比拼里最(zui)具看點的一對——即夢、可(ke)靈終于正式交(jiao)手。
每(mei)(mei)經記(ji)者(zhe)|王郁彪 楊昕怡 每(mei)(mei)經編輯(ji)|張(zhang)海(hai)妮
字(zi)節、快手,兩位短(duan)視頻巨頭(tou)在AI領域(yu)里迎來了(le)正面交(jiao)鋒。
11月8日,字節(jie)跳動(dong)旗下的AI內容平臺即夢AI宣布,由字節(jie)跳動(dong)自研的視(shi)頻(pin)生成模型Seaweed面向平臺用戶正(zheng)式開放(fang)。
據(ju)字節方面(mian)介紹(shao),本(ben)次開(kai)放(fang)使用的(de)豆包視頻(pin)生(sheng)(sheng)成模型Seaweed是該款模型的(de)標(biao)準(zhun)版,僅需(xu)60秒(miao)(miao)即能生(sheng)(sheng)成時長5秒(miao)(miao)的(de)高質量(liang)AI視頻(pin),領先國(guo)內業界3至5分鐘的(de)所需(xu)生(sheng)(sheng)成時間。
《每日經濟新(xin)聞》記者在對即夢、可靈(ling)(ling)的(de)(de)初代版本和(he)最新(xin)版本進行實測(ce)時(shi)也發(fa)現,迭(die)代后,兩款產(chan)品在視頻生(sheng)成效果上均有多方面(mian)、不同程度的(de)(de)提升(sheng),可靈(ling)(ling)在空間(jian)布局和(he)畫(hua)面(mian)細節呈現上更為(wei)準確,且(qie)對生(sheng)成內容效果的(de)(de)調節更具(ju)靈(ling)(ling)活性、便捷性;而(er)即夢在生(sheng)成時(shi)長和(he)視頻風格上有優勢。
一(yi)位大(da)模型技術(shu)人(ren)員向《每日(ri)經濟新(xin)聞》記者表示,視(shi)頻生成模型要實現生產內(nei)容的不同“畫風”是(shi)很難(nan)做的,“技術(shu)之外(wai),還主要看數據(ju)源的豐富程度(du)”。
當短視頻(pin)進入AI時代,字節和(he)快手兩員(yuan)猛將下場,誰(shui)將拔得頭籌?
伴隨字節自(zi)研視頻生(sheng)成(cheng)模型Seaweed開放(fang)使用,國內視頻生(sheng)成(cheng)模型大比拼里最(zui)具(ju)看點的一對——即夢(meng)、可靈(ling)終(zhong)于(yu)正式交(jiao)手(shou)。
它(ta)們(men)都承載著(zhu)理(li)解物理(li)世界,在衍生(sheng)“真實”的(de)(de)同(tong)時(shi)盡可(ke)能放大想象的(de)(de)“AI造夢計劃”,但對于(yu)自身而(er)言,即夢和(he)(he)可(ke)靈也都肩(jian)負字節和(he)(he)快手又一番商業化前景開拓的(de)(de)重(zhong)任。
事實上,即夢(meng)(meng)與(yu)可靈(ling)都在短短不到一年(nian)(nian)的(de)時間,完成(cheng)了(le)數(shu)次迭(die)代。即夢(meng)(meng)3月底開啟(qi)視頻生成(cheng)功能內測,半年(nian)(nian)后,字節發布了(le)豆包模(mo)型(xing)家族的(de)兩款(kuan)視頻生成(cheng)模(mo)型(xing)Seaweed和Pixeldance,并(bing)通過即夢(meng)(meng)AI、火山引擎小范圍邀測,至如今(jin)Seaweed面向(xiang)平臺用戶正式開放。
工信(xin)部信(xin)息(xi)通信(xin)經濟專家委員(yuan)會委員(yuan)盤和林向(xiang)《每日經濟新聞》記者表示,即夢使用(yong)(yong)的(de)新模型生成速度有所提升,給用(yong)(yong)戶的(de)生成體驗更好了,“即夢AI目前在國(guo)內生成領域(yu),還是(shi)比(bi)較(jiao)領先的(de)”。
可靈(ling)(ling)在6月“出生”后一(yi)鳴驚(jing)人,發布至(zhi)(zhi)今(jin)經歷了十余(yu)次更新,包括發布圖(tu)生視頻(pin)功能以(yi)及1.5模型的上線等重(zhong)要更新。截至(zhi)(zhi)目(mu)前(qian),可靈(ling)(ling)擁(yong)有(you)超(chao)過(guo)360萬用戶(hu),累計生成3700萬個視頻(pin),并在近期正式上架獨立App(應用軟件)。
《每(mei)日經濟新聞(wen)》記者選(xuan)取了OpenAI官(guan)方公(gong)布(bu)的5條(tiao)Sora視頻提示詞(ci)(東京街頭的女士、太空(kong)人(ren)、無人(ren)機視角的海岸、3D動(dong)畫的小怪物、云端讀書(shu)的年輕(qing)人(ren))分別測(ce)試(shi)即夢和可靈的初(chu)代版(ban)本(ben)和最新版(ban)本(ben),縱向對比兩(liang)個視頻生(sheng)成模型(xing)的視頻效果。
對比即夢(meng)最(zui)初(chu)版本和(he)(he)最(zui)新版本生產的(de)視頻效(xiao)果后(hou),我們(men)發現(xian),即夢(meng)有(you)兩部分(fen)更新較為(wei)明顯(xian):一個是在(zai)動態的(de)“人事物(wu)”表現(xian)上(shang),動作的(de)捕捉和(he)(he)連貫性均有(you)較為(wei)明顯(xian)的(de)提(ti)升;另(ling)一個是畫面風格的(de)差(cha)異化呈現(xian)也有(you)比較大的(de)進步。
以(yi)“東京街頭的(de)(de)(de)女士”為例(li),初代即夢塑造的(de)(de)(de)人物動作僵硬(ying),特別是(shi)在腿部、腳(jiao)部動作的(de)(de)(de)捕捉上,整體呈現的(de)(de)(de)效(xiao)果(guo)是(shi)模糊和扭曲(qu)的(de)(de)(de)。迭代后的(de)(de)(de)新版即夢,人物動作自然流暢,腳(jiao)部動態的(de)(de)(de)細節處(chu)理更清晰(xi)、更符合真實世界(jie)的(de)(de)(de)邏(luo)輯。
從畫(hua)面風(feng)格(ge)的(de)差異化上(shang)看,版(ban)本更新后的(de)即夢畫(hua)風(feng)區分度更高,無(wu)論對真實(shi)世界(jie)畫(hua)面,還是(shi)超現(xian)實(shi)畫(hua)面的(de)描述上(shang),都做出了不同風(feng)格(ge)呈現(xian)。
這一點(dian)在“云端讀(du)書的(de)年輕人”視頻生(sheng)成(cheng)的(de)效(xiao)果上(shang)對(dui)比明(ming)顯。初代即(ji)夢(meng)將這一超現實畫(hua)面做了完(wan)全動畫(hua)風格的(de)處理(li),而新版即(ji)夢(meng)對(dui)人物的(de)呈(cheng)現更傾(qing)向(xiang)寫(xie)實風。
“太(tai)空(kong)人(ren)”的(de)視頻生成效果也是如此,初代(dai)即夢生成的(de)太(tai)空(kong)人(ren)“游戲建(jian)模”感較(jiao)重,而新版完全寫實。
初(chu)代可(ke)靈和(he)數次迭代后1.5模(mo)型(xing)的(de)可(ke)靈,視頻(pin)生成(cheng)效(xiao)(xiao)果提升更(geng)加(jia)明顯。變化(hua)之(zhi)一就是空間布(bu)(bu)局(ju)(ju)和(he)畫面細節的(de)呈現更(geng)精致(zhi)。在“無人機視角的(de)海(hai)岸(an)”生成(cheng)效(xiao)(xiao)果上,能夠看到在空間布(bu)(bu)局(ju)(ju)上,畫面更(geng)具縱深感,空間布(bu)(bu)局(ju)(ju)更(geng)加(jia)復雜,房(fang)屋、馬路等細節設置也(ye)更(geng)豐富。
兩個模型在迭代后(hou),生(sheng)成效果都(dou)更(geng)(geng)(geng)加穩定(ding),畫質(zhi)也(ye)更(geng)(geng)(geng)優(you),流暢度和細節處(chu)理都(dou)更(geng)(geng)(geng)經(jing)得(de)起(qi)推敲。不過,它們在語義理解、關鍵詞捕(bu)捉和放大(da),以(yi)及創意想象力和創意相關性的平衡上還是有明顯區別。
我們橫向(xiang)對(dui)比,將最新版本的(de)(de)即夢與1.5模型可靈,對(dui)5條Sora視(shi)頻提(ti)示詞(東京街頭的(de)(de)女士、太空人(ren)(ren)、無人(ren)(ren)機視(shi)角的(de)(de)海岸、3D動畫的(de)(de)小怪物、云端讀書(shu)的(de)(de)年(nian)輕人(ren)(ren))的(de)(de)呈現進行比拼。
語義的理解(jie)和(he)關鍵詞的捕(bu)捉,讓(rang)即夢和(he)可靈的視(shi)頻呈現(xian)有所不同。
在“無人機視(shi)角的(de)海岸”視(shi)頻(pin)中,即夢對提示詞中“帶(dai)有燈(deng)塔的(de)小島(dao)”進行(xing)了相對模(mo)糊(hu)化的(de)處理(li),而無論(lun)是可靈還是Sora,這一(yi)畫面的(de)重點都是“小島(dao)”。而在對“海岸公(gong)路”的(de)描述(shu)中,即夢的(de)設(she)置并(bing)不符合(he)真(zhen)實世界的(de)邏輯。
而在“太(tai)(tai)(tai)空(kong)人”的(de)(de)(de)視頻(pin)效果上,即夢對(dui)描(miao)(miao)述(shu)中的(de)(de)(de)“冒險(xian)”并未(wei)進(jin)行描(miao)(miao)述(shu),再次生成后,手(shou)拿咖啡騎著(zhu)摩托的(de)(de)(de)太(tai)(tai)(tai)空(kong)人也忽視了(le)“冒險(xian)”的(de)(de)(de)設定。可靈則通過(guo)人物的(de)(de)(de)表情以(yi)及(ji)運鏡強(qiang)調里“冒險(xian)”。不過(guo),即夢和可靈都相對(dui)忽視了(le)“電影(ying)預告片”這一設定,對(dui)比之下Sora的(de)(de)(de)“太(tai)(tai)(tai)空(kong)人”視頻(pin)更(geng)有電影(ying)感(gan)。
在“3D動畫的(de)(de)小(xiao)(xiao)怪物”視頻生(sheng)成中,即夢(meng)的(de)(de)小(xiao)(xiao)怪物設(she)定與動畫電(dian)影《怪物公司》里的(de)(de)角(jiao)色(se)“薩利”幾乎相同。而(er)提(ti)示(shi)詞中有關小(xiao)(xiao)怪物的(de)(de)部分描述,即夢(meng)的(de)(de)呈現(xian)也相對不甚準確(que),比如“短毛(mao)”設(she)定的(de)(de)執行。此(ci)外(wai),在藝術風格的(de)(de)呈現(xian)上(shang),提(ti)示(shi)詞著重強調了“光照和紋理”,即夢(meng)的(de)(de)執行弱于可靈(ling)。
而在“東京街頭的(de)(de)女士(shi)”視頻中,即夢(meng)在多(duo)主(zhu)(zhu)體復雜交互(hu)的(de)(de)呈現(xian)上(shang),效果相對(dui)(dui)于可靈,表現(xian)不佳。無(wu)論是(shi)對(dui)(dui)畫(hua)面主(zhu)(zhu)體的(de)(de)“女士(shi)”還是(shi)空間描述上(shang)都(dou)相對(dui)(dui)準確(que),但畫(hua)面中的(de)(de)行人普遍進行了模糊處理,近(jin)景中的(de)(de)行人則出(chu)現(xian)扭(niu)曲變形。
不過,即夢AI官(guan)方(fang)透(tou)露,近期,Seaweed和Pixeldance兩款視頻生成模型的(de)Pro版(ban)也將開放使(shi)用。Pro版(ban)模型會對多(duo)主體(ti)交互以及多(duo)拍動(dong)作連貫性上進(jin)行優化(hua),同時(shi)攻克多(duo)鏡頭切換(huan)的(de)一致性等(deng)難題。
在(zai)功能與體驗上,經過數(shu)(shu)輪迭代(dai)后的可(ke)靈,在(zai)生成視頻時,有“創意想象(xiang)力(li)和創意相關性”參數(shu)(shu)的調(diao)整,因(yin)此(ci)可(ke)以進行平衡調(diao)整。對于不希望呈現的內容,可(ke)靈也可(ke)以設置(zhi),比(bi)如模(mo)糊、拼貼、變(bian)形、動畫等(deng)。生成操作更靈活,效果可(ke)調(diao)整。
即夢(meng)生(sheng)成(cheng)(cheng)視頻(pin)(pin)的操作更(geng)加便捷。此(ci)外,經測(ce)試,即夢(meng)視頻(pin)(pin)生(sheng)成(cheng)(cheng)時間更(geng)短,Sora的5條(tiao)提示詞的視頻(pin)(pin)生(sheng)成(cheng)(cheng)時間,每(mei)條(tiao)都不超過半分(fen)鐘(zhong)。而(er)1.5模(mo)型的可(ke)靈生(sheng)成(cheng)(cheng)10秒高(gao)質量視頻(pin)(pin)則需要耗時10分(fen)鐘(zhong)以上。
不過,需要注意的是,上述(shu)即夢、可(ke)靈生(sheng)成的視(shi)(shi)頻(pin)(pin),均由記(ji)者測試生(sheng)成,不同版(ban)本、描述(shu)的細節(jie),都會(hui)造成視(shi)(shi)頻(pin)(pin)生(sheng)成效果(guo)的差(cha)異。并(bing)且,目前Sora仍未開放,所生(sheng)成視(shi)(shi)頻(pin)(pin)均為官方發(fa)布版(ban)本,后續開放,用戶(hu)實際測試效果(guo)與(yu)官方視(shi)(shi)頻(pin)(pin)可(ke)能存在一定的差(cha)異。
對(dui)于字節(jie)、快手這兩大短視頻巨頭而(er)言,要在AI視頻生(sheng)成領域中進行較量,對(dui)手還遠(yuan)不只彼此。
例如(ru),11月8日,“AI六小龍”之一的(de)(de)智譜對其(qi)視頻生(sheng)成(cheng)工(gong)具清(qing)影進(jin)行了新升級(ji)。值得關注的(de)(de)是,升級(ji)后的(de)(de)清(qing)影支持任意比例的(de)(de)圖像生(sheng)成(cheng)視頻,并(bing)且具備多(duo)通道生(sheng)成(cheng)能(neng)(neng)力,同一指令或圖片可以(yi)一次(ci)性生(sheng)成(cheng)4個(ge)視頻。此外(wai),新清(qing)影可以(yi)生(sheng)成(cheng)與畫面(mian)匹配的(de)(de)音效(xiao)(xiao),該音效(xiao)(xiao)功能(neng)(neng)將在(zai)本(ben)月上線公測(ce)。
其中(zhong)已有(you)初露鋒芒(mang)的玩家出現。
8月(yue)31日,MiniMax發布了(le)其首(shou)款AI高(gao)清(qing)視(shi)頻(pin)生成模型(xing)技(ji)術abab-video-1,上線首(shou)月(yue)便捷(jie)報(bao)頻(pin)傳。MiniMax官方公眾(zhong)號(hao)披露,在視(shi)頻(pin)模型(xing)上線海螺AI的首(shou)月(yue),海螺AI網頁版(ban)訪問量增(zeng)(zeng)速超800%,用(yong)戶覆蓋(gai)全球(qiu)超180個國家(jia)和地區,產(chan)品(pin)連奪AI產(chan)品(pin)榜(bang)(bang)(web)9月(yue)全球(qiu)增(zeng)(zeng)速榜(bang)(bang)和國內增(zeng)(zeng)速榜(bang)(bang)兩榜(bang)(bang)榜(bang)(bang)首(shou)。
北京市社會科(ke)學院管(guan)理(li)研究所副研究員王鵬向《每日經濟新(xin)聞》記者指出,目前(qian)國內(nei)外(wai)AI視(shi)頻產品都處于(yu)快速發展(zhan)階(jie)段,國外(wai)Meta、Google等科(ke)技巨頭都在積極布局AI視(shi)頻領域(yu);國內(nei)方面,快手可靈、即夢AI等產品也在不斷(duan)迭代升級,提升用(yong)戶體驗和商業化(hua)能力。
同(tong)時,東吳證券(quan)在(zai)今年8月(yue)發(fa)布的研報也指出(chu)了(le)國(guo)產(chan)AI視(shi)頻大模(mo)型(xing)(xing)的迭代、落(luo)地發(fa)展之快、競爭之激(ji)烈(lie)——技術層面(mian),新(xin)模(mo)型(xing)(xing)生成時長、分辨(bian)率(lv)(lv)、幀率(lv)(lv)上快速提升(sheng),縮小了(le)與Sora之間(jian)的差距;產(chan)品方面(mian),許(xu)多新(xin)產(chan)品和模(mo)型(xing)(xing)升(sheng)級面(mian)向(xiang)全體用戶(hu)開(kai)放,部(bu)分已應用于微短劇創作,國(guo)內(nei)公司在(zai)用戶(hu)開(kai)放和商業化落(luo)地方面(mian)進展迅速。
在商業化可能性方面,該份研報(bao)中提(ti)到,在AI滲透率為(wei)15%的中性假設下(xia),中國AI視頻生成的行業潛在空間(jian)為(wei)3178億元;在全AI模(mo)式下(xia),電(dian)影、長劇、動(dong)畫片和(he)短(duan)劇的制作成本,相較(jiao)傳(chuan)統(tong)模(mo)式將(jiang)下(xia)降(jiang)超95%。
龐大的(de)潛在市(shi)場規模和降本增效的(de)“超能(neng)力”也能(neng)從可靈(ling)的(de)使用數(shu)據上窺見一二。
在10月舉行的“2024中國(guo)計(ji)算(suan)機大(da)會”上,快(kuai)手(shou)副總裁、大(da)模型(xing)團隊負責人張(zhang)迪透(tou)露,自今(jin)年6月發布以(yi)(yi)來,快(kuai)手(shou)可靈AI已有(you)超(chao)過(guo)360萬用(yong)戶,累(lei)計(ji)生成3700萬個視頻以(yi)(yi)及(ji)超(chao)過(guo)1億張(zhang)圖片。
盤(pan)和林在接受《每日經濟新(xin)聞》記者采(cai)訪時表示,可靈背(bei)靠快手,擁有(you)流量(liang)支持,所以(yi)商業化進程(cheng)很快,“AI視頻產(chan)品還是要背(bei)靠互聯(lian)網平(ping)臺,有(you)流量(liang)才(cai)有(you)商業潛力”。
相似的是,字節也(ye)將視頻模型的商(shang)業化放在(zai)了任務單前列(lie)。在(zai)今年9月推出兩款視頻生成模型時,火山引擎總裁譚待曾公開表示,新款豆包視頻生成模型“從(cong)一(yi)落地就開始考慮商(shang)業化”,使用領域包括(kuo)電商(shang)營銷、動畫教育、城市文旅和微劇本。
“AI視(shi)頻將在B端(duan)和(he)C端(duan)展現(xian)出不同的商(shang)業化(hua)潛力。”王鵬認為(wei),面向B端(duan),AI視(shi)頻可以為(wei)企(qi)業提供更(geng)加高效(xiao)、低成本的視(shi)頻制作(zuo)和(he)分發解決方案;在C端(duan),AI視(shi)頻可以滿足用(yong)戶對(dui)個性化(hua)、高質量視(shi)頻內(nei)容的需(xu)求,還能(neng)與電商(shang)、廣(guang)告等行業相結合,實現(xian)更(geng)加精準的營(ying)銷和(he)變現(xian)。
不(bu)過對于商(shang)業化,也有如(ru)MiniMax創始人閆(yan)俊杰這般(ban)的(de)想法:“在(zai)目前(qian)階段,最重要(yao)的(de)東西還不(bu)是商(shang)業化,是技術能達到廣泛‘可用’的(de)程度。”但(dan)毫無疑問的(de)是,在(zai)兩位短(duan)視(shi)頻巨頭(tou)下場(chang)、初創獨角獸“另辟蹊徑”,以及不(bu)一(yi)樣(yang)的(de)商(shang)業化節奏等因素的(de)共同作用下,這場(chang)在(zai)AI視(shi)頻生成領域(yu)的(de)賽跑(pao)已越(yue)發有看點了。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報(bao)社授權,嚴禁轉載(zai)或(huo)鏡(jing)像,違者(zhe)必究。
讀者熱線:4008890008
特別(bie)提醒(xing):如果我們使用了您的圖片,請作者與本站聯系索取稿酬(chou)。如(ru)您不希望(wang)作品出(chu)現在本站,可聯系我們(men)要求撤下您的作品。
歡迎關注每日經濟新(xin)聞APP