每日(ri)經濟新(xin)聞 2024-06-08 11:19:03
每經編輯|杜宇(yu)
據新華社,近日,快手“可靈”視(shi)頻生(sheng)成大(da)模(mo)型(xing)官網正式(shi)上線。相較此前(qian)各家放(fang)出的(de)(de)視(shi)頻大(da)模(mo)型(xing)以展(zhan)示視(shi)頻為主,本次亮相的(de)(de)可靈大(da)模(mo)型(xing)已在快手旗下的(de)(de)快影App開放(fang)邀(yao)測體驗。
圖片來源:可靈大(da)模型(xing)官網
據官網介紹,快手在短視頻視頻技術方面有多年的深入積累,其視頻生成大模型也有天然、廣泛的應用場景。可靈大模型為快手AI團隊自研,具備諸多優勢:能夠生成大幅度的合理運動;能夠模擬物理世界特性;具備強大的概念組合能力和想象力;生成的視頻分辨率高達1080p,時長高達2分鐘(幀率30fps),且支持自由的寬高比。
“可靈”大模型為快手AI團隊自研,基于快手在視頻技術方面的多年積累,采用“Sora”相似的技術路線,結合多項自研技術創新,效果對標“Sora”。
據(ju)悉,可靈使用了與Sora一樣的Diffusion Transformer架構,3D時空(kong)聯合注意力機制等(deng),該架構巧妙地融合了時間(jian)與空(kong)間(jian)的信息,對視(shi)頻數據(ju)進行綜合分(fen)析(xi)和處理。
可精(jing)準捕捉到視(shi)頻(pin)幀(zhen)(zhen)內的(de)(de)(de)局(ju)部空間特(te)征以及跨幀(zhen)(zhen)的(de)(de)(de)時間動(dong)態特(te)征,從而更全面(mian)地理解和再現視(shi)頻(pin)中的(de)(de)(de)運動(dong)信息。
所以,無論是快速移動的物體、劇烈變化的場景,還是復雜的人物動作都能被精確捕捉,使得生成的視頻內容動態性十足,同時具有很高的物理世界真實感。
讓(rang)我們一睹官方效(xiao)(xiao)果,動圖截取(qu)有壓縮,畫質(zhi)遜于展示視(shi)頻,效(xiao)(xiao)果以(yi)官網為準。
提示詞(ci):兩朵花在黑色背(bei)景下(xia)緩慢(man)綻放,展(zhan)示出細膩的花瓣和花蕊
提(ti)示詞:一只戴(dai)眼鏡的小白兔坐(zuo)在咖啡館的椅(yi)子(zi)上(shang)看(kan)報紙,桌上(shang)有一杯熱咖啡
提示詞(ci):一(yi)只手將牛奶(nai)從鋼制(zhi)打奶(nai)壺倒入桌上一(yi)杯咖啡中(zhong),背景為模糊(hu)的廚房
基于對文本-視頻語義的深刻(ke)理解和 Diffusion Transformer 架構的強大能力(li),可靈能夠將用戶豐富的想象(xiang)力(li)轉化為具體的畫面,虛構真實世界(jie)中不(bu)會出(chu)現的的場景。
基于自研(yan)的3D人臉和(he)人體重建技術(shu),結合(he)背景穩(wen)定性和(he)重定向模塊,實(shi)現表情肢體全(quan)驅動技術(shu),僅需一張全(quan)身照片,即可體驗生動的“唱跳”玩法(fa)。
公開資料顯示,快(kuai)手(shou)已先后發(fa)布(bu)通用大(da)語言模(mo)型(xing)“快(kuai)意”、文生圖(tu)大(da)模(mo)型(xing)產品“可圖(tu)”,還推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等視頻(pin)關鍵技術,引發(fa)了廣泛(fan)關注。據悉,伴(ban)隨此次可靈大(da)模(mo)型(xing)的(de)發(fa)布(bu),快(kuai)手(shou)將持續加速大(da)模(mo)型(xing)的(de)研發(fa)與應用,帶來更(geng)加多元的(de)AI創作(zuo)與互動體驗。
每日經濟新聞綜合新華社、公開資料
如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟(ji)新聞》報社授權,嚴禁(jin)轉載或鏡像,違者必究。
讀者熱線:4008890008
特別(bie)提醒:如果我們使用了您的圖片,請作者與本站聯系索(suo)取稿(gao)酬。如(ru)您不希望作品出現在本站,可聯(lian)系我們要求撤下您的作品。
歡迎關注每日(ri)經濟新聞APP