男欢女爱销魂蚀骨免费阅读,性欧美丰满熟妇XXXX性久久久,适合单身男人看的影片,www天堂无人区在线观看,悟空影视免费高清

每日經濟新聞
今日報紙

每經網首頁 > 今日報紙 > 正(zheng)文

報告揭秘Sora六大優勢 業內:AGI可能在一兩年內實現

每日經濟新聞(wen) 2024-02-18 23:13:39

每經記者(zhe)|蘭(lan)素英    每經編(bian)輯|孫宇婷    

“兩只金毛獵犬在山頂播(bo)客(ke)”;

“火(huo)星上日落時的一場(chang)極(ji)具未來感的無(wu)人機比賽”;

“在一個(ge)與(yu)自然和(he)諧共生,同時又有超強朋克(ke)氣質和(he)高科技屬性的未(wei)來城市漫游……”

根據上述提(ti)示(shi)詞,OpenAI首席執(zhi)行官阿(a)爾特(te)曼在X平(ping)臺上發布了一系列(lie)視頻(pin),精美的場景讓用戶(hu)驚嘆不已(yi)。而這些視頻(pin)全(quan)都是(shi)通過OpenAI 2月16日發布的最新視頻(pin)生成(cheng)模型Sora制(zhi)作的,用戶(hu)震驚之余,也給(gei)予(yu)了Sora高度評價,將其描述為“絕(jue)無僅有”和(he)“游(you)戲規則改變(bian)者”。

Sora采用了OpenAI文(wen)生圖模(mo)型DALL·E 3背(bei)后的強(qiang)大(da)技術(shu),可將簡短的文(wen)本描(miao)述(shu)轉化成(cheng)(cheng)長達(da)1分鐘(zhong)的高清視(shi)頻(pin)。業界(jie)大(da)佬(lao)Gabor Cselle將Sora和(he)Pika、RunwayML和(he)Stable Video進(jin)行對比后發現,在輸入相(xiang)同的提示后,其他主流(liu)工具生成(cheng)(cheng)的視(shi)頻(pin)都大(da)約只有5秒(miao)(miao)鐘(zhong),Sora可以在一段(duan)長達(da)17秒(miao)(miao)視(shi)頻(pin)場景中(zhong),保持動作和(he)畫面一致性。

英偉達人工智能研(yan)究院首席(xi)研(yan)究科學(xue)家Jim Fan也對Sora的(de)能力發(fa)出感嘆,稱(cheng)這是(shi)視頻生(sheng)成領域的(de)GPT-3時刻。他表(biao)示,Sora是(shi)一個“數據驅動(dong)的(de)物理引擎”,一個可學(xue)習的(de)模擬器或“世(shi)界模型(xing)”。360集團(tuan)創始人、董事長(chang)周鴻祎則稱(cheng),隨著Sora的(de)到來,人類離AGI真的(de)就不遠了,不是(shi)10年、20年的(de)問題,可能一兩年很快就可以實現。

在隨后發布的(de)技術(shu)報告(gao)中,OpenAI介紹了Sora的(de)強(qiang)大性(xing)能以及(ji)背后的(de)支撐技術(shu),也對Sora的(de)局限性(xing)進行了客觀(guan)的(de)分析。《每日經(jing)濟新聞》記者通過梳理,總結出了Sora的(de)六大核(he)心(xin)優(you)勢(shi)。

從技術上(shang)看,Sora有望將數字內容的創(chuang)造力和真(zhen)實感提升到(dao)新的水平,但凡事總有兩面(mian)性,影(ying)視、廣告制作和視頻(pin)(pin)等行業(ye)也將面(mian)臨嚴重的沖擊(ji)。另外,有專家(jia)對(dui)于技術的迅猛發展也表示出了(le)擔憂,稱(cheng)這(zhe)類技術可能會導(dao)致“深度偽造”視頻(pin)(pin),讓人難以識別,產生濫(lan)用(yong)等問題。

報告揭秘Sora六大優勢

值得注(zhu)意的(de)是(shi),Sora推出的(de)同一天,谷歌發布了(le)Gemini多模態模型(xing)的(de)更(geng)新(xin)版本,而三天前,Stability AI推出了(le)新(xin)的(de)圖(tu)像(xiang)生(sheng)(sheng)成(cheng)模型(xing)Stable Cascade。OpenAI的(de)最新(xin)舉動無疑將加(jia)劇生(sheng)(sheng)成(cheng)式AI圖(tu)片和視頻(pin)領域的(de)競爭(zheng)。

而在Sora推出后不久,OpenAI發(fa)布(bu)了這款新工具的(de)技術報告。在報告中,OpenAI首先(xian)重(zhong)點介(jie)紹了如何將不同類型(xing)的(de)視(shi)覺數據轉化為統一的(de)格式(shi),以便于對生成模(mo)型(xing)進(jin)(jin)行(xing)(xing)大規(gui)模(mo)訓練的(de)方法,并對Sora的(de)能(neng)力和局限性進(jin)(jin)行(xing)(xing)了評價(jia)。

《每日經(jing)濟新聞》記者對報告進(jin)行梳理(li),總結出了Sora的六(liu)大優(you)勢:

(1)準(zhun)確性(xing)和(he)(he)多樣(yang)性(xing):Sora可(ke)將簡短的(de)(de)(de)文本(ben)描(miao)述(shu)轉化(hua)成長(chang)達1分鐘的(de)(de)(de)高清視(shi)頻(pin)。它(ta)可(ke)以準(zhun)確地解(jie)釋用戶提供的(de)(de)(de)文本(ben)輸入,并生成具有各種場(chang)景和(he)(he)人物的(de)(de)(de)高質量(liang)視(shi)頻(pin)剪輯(ji)。它(ta)涵蓋了廣(guang)泛的(de)(de)(de)主題,從人物和(he)(he)動物到郁郁蔥蔥的(de)(de)(de)風景、城市(shi)場(chang)景、花園(yuan),甚至(zhi)是水下的(de)(de)(de)紐約市(shi),可(ke)根據(ju)用戶的(de)(de)(de)要求提供多樣(yang)化(hua)的(de)(de)(de)內容(rong)。另據(ju)Medium,Sora能夠準(zhun)確解(jie)釋長(chang)達135個單詞(ci)的(de)(de)(de)長(chang)提示。

(2)強大(da)的(de)語言理解:OpenAI利(li)用(yong)Dall·E模(mo)型(xing)的(de)recaptioning(重述(shu)要點(dian))技術(shu),生成視覺訓練數據的(de)描述(shu)性(xing)(xing)字(zi)幕,不(bu)僅能(neng)(neng)提(ti)高(gao)文(wen)本(ben)的(de)準確(que)性(xing)(xing),還能(neng)(neng)提(ti)升視頻(pin)的(de)整體(ti)質量(liang)。此(ci)外(wai),與(yu)DALL·E 3類似,OpenAI還利(li)用(yong)GPT技術(shu)將(jiang)簡短的(de)用(yong)戶提(ti)示(shi)(shi)轉換為(wei)更長(chang)的(de)詳細轉譯,并將(jiang)其發送到視頻(pin)模(mo)型(xing)。這使Sora能(neng)(neng)夠精確(que)地按(an)照用(yong)戶提(ti)示(shi)(shi)生成高(gao)質量(liang)的(de)視頻(pin)。

(3)以圖/視頻(pin)(pin)(pin)生成(cheng)視頻(pin)(pin)(pin):Sora除了(le)可(ke)以將文(wen)本(ben)轉化(hua)為(wei)視頻(pin)(pin)(pin),還能(neng)接受(shou)其他類型(xing)的(de)(de)(de)輸(shu)入(ru)(ru)提示,如(ru)已經存在(zai)的(de)(de)(de)圖像(xiang)(xiang)或視頻(pin)(pin)(pin)。這使Sora能(neng)夠(gou)執行(xing)廣泛的(de)(de)(de)圖像(xiang)(xiang)和(he)視頻(pin)(pin)(pin)編輯(ji)任務,如(ru)創建(jian)完(wan)美的(de)(de)(de)循環(huan)視頻(pin)(pin)(pin)、將靜態圖像(xiang)(xiang)轉化(hua)為(wei)動(dong)畫、向前(qian)或向后(hou)擴展(zhan)(zhan)視頻(pin)(pin)(pin)等。OpenAI在(zai)報告中展(zhan)(zhan)示了(le)基(ji)于(yu)DALL·E 2和(he)DALL·E 3的(de)(de)(de)圖像(xiang)(xiang)生成(cheng)的(de)(de)(de)demo視頻(pin)(pin)(pin)。這不僅證明了(le)Sora的(de)(de)(de)強(qiang)大(da)功能(neng),還展(zhan)(zhan)示了(le)它在(zai)圖像(xiang)(xiang)和(he)視頻(pin)(pin)(pin)編輯(ji)領域的(de)(de)(de)無限潛力。 (4)視頻(pin)(pin)(pin)擴展(zhan)(zhan)功能(neng):由于(yu)可(ke)接受(shou)多(duo)樣化(hua)的(de)(de)(de)輸(shu)入(ru)(ru)提示,用(yong)戶可(ke)以根據圖像(xiang)(xiang)創建(jian)視頻(pin)(pin)(pin)或補充現有(you)視頻(pin)(pin)(pin)。作為(wei)基(ji)于(yu)Transformer的(de)(de)(de)擴散模型(xing),Sora還能(neng)沿時間線向前(qian)或向后(hou)擴展(zhan)(zhan)視頻(pin)(pin)(pin)。

(5)優異的設備適(shi)配性:Sora具備出色(se)的采樣能力,從寬屏的 1920x1080p 到 豎 屏 的1080x1920,兩者之間的任何視頻尺(chi)寸都能輕(qing)松應對。這意味著Sora能夠為(wei)各種(zhong)設備生(sheng)成(cheng)與其(qi)原(yuan)始縱(zong)橫比完美匹配的內容。而在生(sheng)成(cheng)高分辨率內容之前,Sora還能以小尺(chi)寸迅(xun)速創建內容原(yuan)型。

(6)場景(jing)(jing)和物體的一(yi)致性和連續性:Sora可以生成帶有(you)動態視角變化的視頻(pin),人(ren)物和場景(jing)(jing)元素在三維空(kong)間中的移動會顯(xian)得更加自然。Sora 能夠(gou)很好地處理遮(zhe)擋問(wen)題。現有(you)模型的一(yi)個(ge)問(wen)題是(shi),當(dang)物體離開視野(ye)時,它們可能無法對其(qi)進(jin)行追蹤(zong)。而通過一(yi)次(ci)性提供多幀(zhen)預測,Sora可確保畫面主(zhu)體即使(shi)暫時離開視野(ye)也能保持不(bu)變。

Sora讓AGI很快實現?

英偉達人工智能研(yan)究院首席研(yan)究科學(xue)家Jim Fan在X平臺(tai)發文(wen)表示,“如果你還(huan)是(shi)(shi)把Sora看成DALLE那(nei)樣的生成式玩具(ju),還(huan)是(shi)(shi)好(hao)好(hao)想(xiang)想(xiang)吧,這是(shi)(shi)一個(ge)數(shu)據驅動(dong)的物理(li)引(yin)擎。他是(shi)(shi)對(dui)許多世界的模(mo)擬,無論是(shi)(shi)真實的還(huan)是(shi)(shi)幻想(xiang)的。”他認為,Sora是(shi)(shi)一個(ge)可(ke)學(xue)習的模(mo)擬器(qi),或“世界模(mo)型”。

在(zai)他(ta)看來(lai),Sora代表(biao)了文本(ben)生(sheng)成(cheng)視(shi)(shi)(shi)頻(pin)的(de)GPT-3時刻。而針對部分稱“Sora并(bing)沒(mei)有學(xue)習(xi)物理(li),僅僅是在(zai)二維空間里對像素(su)進行操作”的(de)聲音,他(ta)表(biao)示,Sora所展現的(de)軟物理(li)仿真實際上是一(yi)種隨著規模(mo)擴大而出現的(de)特性。Sora必須學(xue)習(xi)一(yi)些(xie)隱式的(de)文本(ben)到3D、3D 變(bian)換(huan)、光線追蹤渲染和物理(li)規則,才有可能(neng)精(jing)確地模(mo)擬(ni)視(shi)(shi)(shi)頻(pin)像素(su)。它必須理(li)解游戲引擎(qing)的(de)概念,才有可能(neng)生(sheng)成(cheng)視(shi)(shi)(shi)頻(pin)。

值得一提的(de)是,有網(wang)友在網(wang)上評論Sora生成的(de)60秒時尚女(nv)子在東京街(jie)頭散步時稱,“gg Pixar(皮克斯(si)動畫制作公司(si))”(編注(zhu):gg為Good Games縮寫,代指“打得好,我認輸”),隨后馬斯(si)克回復,“gg humans(人類)”。

對于Sora的(de)(de)(de)(de)(de)最大(da)優(you)勢(shi),360集團(tuan)創(chuang)始人、董(dong)事長周鴻祎說,“這(zhe)(zhe)次OpenAI利用它(ta)的(de)(de)(de)(de)(de)大(da)語言(yan)模型優(you)勢(shi),讓Sora實(shi)現(xian)(xian)了對現(xian)(xian)實(shi)世(shi)界的(de)(de)(de)(de)(de)理(li)解(jie)和對世(shi)界的(de)(de)(de)(de)(de)模擬(ni)兩層能(neng)力,這(zhe)(zhe)樣產(chan)生的(de)(de)(de)(de)(de)視(shi)頻(pin)才是(shi)真實(shi)的(de)(de)(de)(de)(de),才能(neng)跳出2D的(de)(de)(de)(de)(de)范圍模擬(ni)真實(shi)的(de)(de)(de)(de)(de)物理(li)世(shi)界。”他同時稱(cheng):“一(yi)旦人工智能(neng)接上攝像(xiang)頭,把所有的(de)(de)(de)(de)(de)電(dian)影都(dou)看一(yi)遍,把YouTube和TikTok的(de)(de)(de)(de)(de)視(shi)頻(pin)都(dou)看一(yi)遍,對世(shi)界的(de)(de)(de)(de)(de)理(li)解(jie)將(jiang)遠(yuan)遠(yuan)超過(guo)文字(zi)學(xue)習(xi),一(yi)幅圖勝過(guo)千言(yan)萬語,這(zhe)(zhe)就(jiu)(jiu)離AGI真的(de)(de)(de)(de)(de)就(jiu)(jiu)不遠(yuan)了,不是(shi)10年(nian)、20年(nian)的(de)(de)(de)(de)(de)問題,可(ke)能(neng)一(yi)兩年(nian)很快(kuai)就(jiu)(jiu)可(ke)以實(shi)現(xian)(xian)。”

影視等行業面臨顛覆

然而,Sora在帶(dai)來(lai)無限可能的(de)同時(shi),也將對部(bu)分行業產生(sheng)巨大的(de)影響,包括影視、廣告制作(zuo)、教(jiao)育、游戲、新聞和動畫等領域(yu)。

談及Sora的(de)(de)行業(ye)沖擊時,Jim Fan評價道,Sora的(de)(de)物理學理解目前還是脆弱的(de)(de),遠非完美。它仍然會產(chan)生幻覺(jue),生成(cheng)與物理常識(shi)不符的(de)(de)事(shi)物,還沒有很好(hao)地掌握物體交互的(de)(de)原理。

周鴻祎對此也深以為然,他指出,AI不一定那(nei)么快顛覆所有行業,但它能(neng)(neng)激發(fa)更多人的(de)創作(zuo)力(li)。他表示,“Sora只(zhi)是(shi)小試牛刀(dao),它展(zhan)現的(de)不僅僅是(shi)一個視頻(pin)制作(zuo)的(de)能(neng)(neng)力(li),而(er)是(shi)大模型(xing)對真實世界有了理(li)解和(he)模擬之后,會帶(dai)來(lai)新的(de)成果和(he)突破。”

他解釋(shi)說(shuo),“機器能生產一個(ge)好視頻,但視頻的(de)(de)主題(ti)、腳本和分鏡頭(tou)策劃、臺詞的(de)(de)配合,都需(xu)要人的(de)(de)創(chuang)意(yi)至少需(xu)要人給提示(shi)詞。”他強調(diao),科(ke)技競爭最終(zhong)比拼(pin)的(de)(de)是(shi)人才密度(du)和深厚積累。

而(er)對于Sora存(cun)在的(de)(de)(de)弱(ruo)點,OpenAI也明確指出(chu),它可(ke)(ke)能(neng)難以準確模(mo)擬(ni)復雜場(chang)景(jing)的(de)(de)(de)物理原理,并且可(ke)(ke)能(neng)無(wu)法理解(jie)因果關系(xi)。該模(mo)型還可(ke)(ke)能(neng)混(hun)淆(xiao)提示的(de)(de)(de)空(kong)間(jian)細(xi)節,例如混(hun)淆(xiao)左(zuo)右,并且可(ke)(ke)能(neng)難以精(jing)確描述隨著時間(jian)推移發生(sheng)的(de)(de)(de)事件,如遵循特(te)定的(de)(de)(de)相(xiang)機軌(gui)跡。而(er)這些缺陷可(ke)(ke)能(neng)導致Sora生(sheng)成一(yi)(yi)些不合邏輯的(de)(de)(de)東西,比如一(yi)(yi)個(ge)人在跑(pao)步機上跑(pao)錯方(fang)(fang)向,以不自然的(de)(de)(de)方(fang)(fang)式改(gai)變主題,甚至出(chu)現憑(ping)空(kong)消失現象。

濫用仍是最大的擔憂

隨著名人等(deng)人物的深度造假(jia)視頻在(zai)網上變得越(yue)來(lai)越(yue)普遍,相應的倫理和安(an)全問題(ti)也(ye)讓人心驚。

Gartner 分 析 師(shi) Arun Chandrasekaran表(biao)示,“鑒于這項(xiang)技術確(que)(que)實(shi)非常新,他(ta)們必須(xu)對其進行(xing)充分控制,以防止其被濫(lan)用(yong)和誤用(yong),甚(shen)至客戶在沒有(you)認識(shi)到這項(xiang)新興技術所有(you)局限(xian)性的情況下使用(yong)它。”他(ta)補充道,OpenAI為該模(mo)型(xing)設置的防護措施以及確(que)(que)定誰可以獲得訪問權(quan)限(xian)至關重要。

牛津互聯網學院(yuan)客座政策研究員Mutale Nkonde也(ye)(ye)表示(shi),任何人(ren)都可(ke)(ke)以輕松地將(jiang)文本轉換為視(shi)頻這(zhe)一想(xiang)法令人(ren)興奮(fen)。但同時,她(ta)也(ye)(ye)擔心這(zhe)些工具(ju)可(ke)(ke)能會植入社會偏見等內容,對人(ren)們生計造成影響等。

普(pu)林(lin)斯頓大學(xue)計算機科學(xue)教(jiao)授(shou)Arvind Narayanan對(dui)此(ci)也有(you)擔憂(you),認為Sora這(zhe)類(lei)技(ji)術可(ke)能會導致“深度偽(wei)造”視(shi)頻(pin),讓人們難以識別(bie)。雖然AI制作的(de)(de)視(shi)頻(pin)仍會有(you)一些不(bu)一致的(de)(de)地方,但普(pu)通(tong)人可(ke)能不(bu)會注意到這(zhe)些細節。“遲早,我們需要適應現(xian)實主義不(bu)再(zai)是(shi)真實性的(de)(de)標志這(zhe)一事實。”

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日(ri)經濟新聞(wen)》報社授權,嚴禁轉載(zai)或鏡像,違者必究(jiu)。

讀者熱線:4008890008

特別提(ti)醒:如果我們使用了您的圖片,請作者與本站聯系索(suo)取(qu)稿酬。如您不希望(wang)作品(pin)出(chu)現在本站(zhan),可聯系我(wo)們要求撤下您的作品(pin)。

“兩只金毛獵犬在山頂播客”; “火星上日落時的一場極具未來感的無人機比賽”; “在一個與自然和諧共生,同時又有超強朋克氣質和高科技屬性的未來城市漫游……” 根據上述提示詞,OpenAI首席執行官阿爾特曼在X平臺上發布了一系列視頻,精美的場景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月16日發布的最新視頻生成模型Sora制作的,用戶震驚之余,也給予了Sora高度評價,將其描述為“絕無僅有”和“游戲規則改變者”。 Sora采用了OpenAI文生圖模型DALL·E 3背后的強大技術,可將簡短的文本描述轉化成長達1分鐘的高清視頻。業界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進行對比后發現,在輸入相同的提示后,其他主流工具生成的視頻都大約只有5秒鐘,Sora可以在一段長達17秒視頻場景中,保持動作和畫面一致性。 英偉達人工智能研究院首席研究科學家Jim Fan也對Sora的能力發出感嘆,稱這是視頻生成領域的GPT-3時刻。他表示,Sora是一個“數據驅動的物理引擎”,一個可學習的模擬器或“世界模型”。360集團創始人、董事長周鴻祎則稱,隨著Sora的到來,人類離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實現。 在隨后發布的技術報告中,OpenAI介紹了Sora的強大性能以及背后的支撐技術,也對Sora的局限性進行了客觀的分析。《每日經濟新聞》記者通過梳理,總結出了Sora的六大核心優勢。 從技術上看,Sora有望將數字內容的創造力和真實感提升到新的水平,但凡事總有兩面性,影視、廣告制作和視頻等行業也將面臨嚴重的沖擊。另外,有專家對于技術的迅猛發展也表示出了擔憂,稱這類技術可能會導致“深度偽造”視頻,讓人難以識別,產生濫用等問題。 報告揭秘Sora六大優勢 值得注意的是,Sora推出的同一天,谷歌發布了Gemini多模態模型的更新版本,而三天前,Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動無疑將加劇生成式AI圖片和視頻領域的競爭。 而在Sora推出后不久,OpenAI發布了這款新工具的技術報告。在報告中,OpenAI首先重點介紹了如何將不同類型的視覺數據轉化為統一的格式,以便于對生成模型進行大規模訓練的方法,并對Sora的能力和局限性進行了評價。 《每日經濟新聞》記者對報告進行梳理,總結出了Sora的六大優勢: (1)準確性和多樣性:Sora可將簡短的文本描述轉化成長達1分鐘的高清視頻。它可以準確地解釋用戶提供的文本輸入,并生成具有各種場景和人物的高質量視頻剪輯。它涵蓋了廣泛的主題,從人物和動物到郁郁蔥蔥的風景、城市場景、花園,甚至是水下的紐約市,可根據用戶的要求提供多樣化的內容。另據Medium,Sora能夠準確解釋長達135個單詞的長提示。 (2)強大的語言理解:OpenAI利用Dall·E模型的recaptioning(重述要點)技術,生成視覺訓練數據的描述性字幕,不僅能提高文本的準確性,還能提升視頻的整體質量。此外,與DALL·E 3類似,OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯,并將其發送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。 (3)以圖/視頻生成視頻:Sora除了可以將文本轉化為視頻,還能接受其他類型的輸入提示,如已經存在的圖像或視頻。這使Sora能夠執行廣泛的圖像和視頻編輯任務,如創建完美的循環視頻、將靜態圖像轉化為動畫、向前或向后擴展視頻等。OpenAI在報告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強大功能,還展示了它在圖像和視頻編輯領域的無限潛力。 (4)視頻擴展功能:由于可接受多樣化的輸入提示,用戶可以根據圖像創建視頻或補充現有視頻。作為基于Transformer的擴散模型,Sora還能沿時間線向前或向后擴展視頻。 (5)優異的設備適配性:Sora具備出色的采樣能力,從寬屏的 1920x1080p 到 豎 屏 的1080x1920,兩者之間的任何視頻尺寸都能輕松應對。這意味著Sora能夠為各種設備生成與其原始縱橫比完美匹配的內容。而在生成高分辨率內容之前,Sora還能以小尺寸迅速創建內容原型。 (6)場景和物體的一致性和連續性:Sora可以生成帶有動態視角變化的視頻,人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題。現有模型的一個問題是,當物體離開視野時,它們可能無法對其進行追蹤。而通過一次性提供多幀預測,Sora可確保畫面主體即使暫時離開視野也能保持不變。 Sora讓AGI很快實現? 英偉達人工智能研究院首席研究科學家Jim Fan在X平臺發文表示,“如果你還是把Sora看成DALLE那樣的生成式玩具,還是好好想想吧,這是一個數據驅動的物理引擎。他是對許多世界的模擬,無論是真實的還是幻想的。”他認為,Sora是一個可學習的模擬器,或“世界模型”。 在他看來,Sora代表了文本生成視頻的GPT-3時刻。而針對部分稱“Sora并沒有學習物理,僅僅是在二維空間里對像素進行操作”的聲音,他表示,Sora所展現的軟物理仿真實際上是一種隨著規模擴大而出現的特性。Sora必須學習一些隱式的文本到3D、3D 變換、光線追蹤渲染和物理規則,才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念,才有可能生成視頻。 值得一提的是,有網友在網上評論Sora生成的60秒時尚女子在東京街頭散步時稱,“gg Pixar(皮克斯動畫制作公司)”(編注:gg為Good Games縮寫,代指“打得好,我認輸”),隨后馬斯克回復,“gg humans(人類)”。 對于Sora的最大優勢,360集團創始人、董事長周鴻祎說,“這次OpenAI利用它的大語言模型優勢,讓Sora實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界。”他同時稱:“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube和TikTok的視頻都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,這就離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實現。” 影視等行業面臨顛覆 然而,Sora在帶來無限可能的同時,也將對部分行業產生巨大的影響,包括影視、廣告制作、教育、游戲、新聞和動畫等領域。 談及Sora的行業沖擊時,Jim Fan評價道,Sora的物理學理解目前還是脆弱的,遠非完美。它仍然會產生幻覺,生成與物理常識不符的事物,還沒有很好地掌握物體交互的原理。 周鴻祎對此也深以為然,他指出,AI不一定那么快顛覆所有行業,但它能激發更多人的創作力。他表示,“Sora只是小試牛刀,它展現的不僅僅是一個視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。” 他解釋說,“機器能生產一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創意至少需要人給提示詞。”他強調,科技競爭最終比拼的是人才密度和深厚積累。 而對于Sora存在的弱點,OpenAI也明確指出,它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。該模型還可能混淆提示的空間細節,例如混淆左右,并且可能難以精確描述隨著時間推移發生的事件,如遵循特定的相機軌跡。而這些缺陷可能導致Sora生成一些不合邏輯的東西,比如一個人在跑步機上跑錯方向,以不自然的方式改變主題,甚至出現憑空消失現象。 濫用仍是最大的擔憂 隨著名人等人物的深度造假視頻在網上變得越來越普遍,相應的倫理和安全問題也讓人心驚。 Gartner 分 析 師 Arun Chandrasekaran表示,“鑒于這項技術確實非常新,他們必須對其進行充分控制,以防止其被濫用和誤用,甚至客戶在沒有認識到這項新興技術所有局限性的情況下使用它。”他補充道,OpenAI為該模型設置的防護措施以及確定誰可以獲得訪問權限至關重要。 牛津互聯網學院客座政策研究員Mutale Nkonde也表示,任何人都可以輕松地將文本轉換為視頻這一想法令人興奮。但同時,她也擔心這些工具可能會植入社會偏見等內容,對人們生計造成影響等。 普林斯頓大學計算機科學教授Arvind Narayanan對此也有擔憂,認為Sora這類技術可能會導致“深度偽造”視頻,讓人們難以識別。雖然AI制作的視頻仍會有一些不一致的地方,但普通人可能不會注意到這些細節。“遲早,我們需要適應現實主義不再是真實性的標志這一事實。”
Sora 視頻

歡迎關(guan)注每日經濟(ji)新聞APP

每經經濟新聞官方APP

0

0