男欢女爱销魂蚀骨免费阅读,性欧美丰满熟妇XXXX性久久久,适合单身男人看的影片,www天堂无人区在线观看,悟空影视免费高清

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

智能不夠、人工來湊?Sora首批使用者“揭秘”:爆火短片,3人耗時兩周,全靠人工后期

每日經濟新聞 2024-05-09 13:01:07

每(mei)經編輯(ji)|黃(huang)勝    每(mei)經實(shi)習編輯(ji)|宋欣悅    

2月15日(ri), 美國(guo)人工智能公(gong)司OpenAI發布了最新“文生(sheng)視(shi)(shi)頻”大模型Sora,并附帶發布了由它生(sheng)成的48段視(shi)(shi)頻,引(yin)發了整(zheng)個(ge)市場(chang)的高度關注。Sora生(sheng)成視(shi)(shi)頻的畫面逼(bi)真、連貫流暢,在視(shi)(shi)頻時長方面,也(ye)遠遠領先于其(qi)競爭對手,一度被視(shi)(shi)為吹向(xiang)好萊塢的一場(chang)大風(feng)暴。

在Sora公布的作品(pin)(pin)中(zhong),一部名為《氣(qi)球人(Air Head)》的短(duan)片(pian),因情節完整、敘事性強(qiang),引發(fa)廣(guang)泛(fan)討論。在國內外各大平臺上,網友們(men)更(geng)是毫不(bu)吝嗇地夸(kua)贊這(zhe)部作品(pin)(pin),甚至有人譽(yu)之為“Sora史(shi)上最佳發(fa)布”。

然而,近日,《氣(qi)球人(ren)(Air Head)》制(zhi)作團(tuan)隊Shy Kids在(zai)(zai)接受在(zai)(zai)線媒體(ti)平(ping)臺Fxguide的(de)采(cai)訪時,基(ji)于他們使用Sora的(de)親身體(ti)驗,揭示(shi)了(le)Sora在(zai)(zai)視頻生成方面的(de)局限。

Shy Kids揭露,《氣球人》這部短片,是三人耗費近兩周才完成,后期工作量只增不減。

圖(tu)片來(lai)源:截圖(tu)于fxguide

用戶界面僅支持文本輸入

在Sora的(de)(de)(de)(de)用戶操作界面中,藝術(shu)家(jia)可以輸入文本,隨后ChatGPT會將這些文本轉(zhuan)化成(cheng)更長的(de)(de)(de)(de)一(yi)(yi)(yi)段(duan)文字(zi),從而(er)觸發(fa)生成(cheng)一(yi)(yi)(yi)段(duan)視頻。然而(er),Sora目(mu)前并沒有支持其他(ta)輸入方(fang)式,也(ye)(ye)沒有實現多模態功(gong)能。這是一(yi)(yi)(yi)個重要的(de)(de)(de)(de)短板,因為(wei)盡管Sora在同一(yi)(yi)(yi)鏡頭中的(de)(de)(de)(de)物體(ti)一(yi)(yi)(yi)致性處理得還不錯(cuo),但系統目(mu)前還無法(fa)確保第一(yi)(yi)(yi)個鏡頭中的(de)(de)(de)(de)內容與(yu)隨后的(de)(de)(de)(de)鏡頭完全匹(pi)配。也(ye)(ye)就是說,即便我們第二次輸入同樣的(de)(de)(de)(de)提示語,結果也(ye)(ye)可能不同。

帕特里克在Shy Kids制作團隊中,負責后期制作,他說:“我們能做的就是,在提示中盡可能對角色的服裝以及氣球的類型進行詳細地描述。”

Sora生(sheng)成的每個獨(du)立片段,就其所代表的技(ji)術而言,都是令人驚嘆的。然而,如何有效(xiao)利用(yong)這(zhe)些片段,取決于用(yong)戶(hu)對 Sora隱式(shi)或(huo)顯式(shi)鏡頭生(sheng)成方(fang)式(shi)的理解。

例如(ru)(ru),假設(she)你(ni)讓Sora生(sheng)成一(yi)(yi)個(ge)(ge)在廚房中(zhong)(zhong)的(de)(de)長跟蹤(zong)鏡頭,并確保畫面中(zhong)(zhong)的(de)(de)桌(zhuo)上有個(ge)(ge)香(xiang)蕉(jiao),Sora 將依賴于(yu)其(qi)對(dui)“香(xiang)蕉(jiao)”這(zhe)一(yi)(yi)概(gai)念的(de)(de)隱(yin)式理解來生(sheng)成一(yi)(yi)個(ge)(ge)顯示香(xiang)蕉(jiao)的(de)(de)視頻。通過訓練(lian)數據,Sora學習了香(xiang)蕉(jiao)的(de)(de)隱(yin)含特性(xing),如(ru)(ru)“黃色(se)”、“彎曲”、“有深色(se)末端”等,但它(ta)并未存(cun)有具(ju)體(ti)的(de)(de)香(xiang)蕉(jiao)圖(tu)像(xiang),也沒有一(yi)(yi)個(ge)(ge)“香(xiang)蕉(jiao)圖(tu)像(xiang)庫(ku)”,它(ta)只(zhi)有一(yi)(yi)個(ge)(ge)相(xiang)對(dui)較(jiao)小、用(yong)于(yu)壓縮存(cun)儲(chu)的(de)(de)“潛在空間(jian)”。在這(zhe)個(ge)(ge)空間(jian)中(zhong)(zhong),“香(xiang)蕉(jiao)”僅(jin)(jin)僅(jin)(jin)是一(yi)(yi)個(ge)(ge)抽象的(de)(de)概(gai)念。

這就意味著,每次生成的結果都是Sora對這個“潛在空間”的一種新的解讀,這就需要我們的提示盡可能精確地描述我們對這些隱式特征的理解。

靠后期制作,保持角色“Sonny”的一致性

Shy Kids團隊表示,在制作《氣球人》的過程中,很難確保實際黃色氣球人在每個鏡頭中保持一致,《氣球人》中場景,是通過多次后期剪輯來接近劇本的。即使團隊明確要求生成一個黃色氣球,但最后生成的氣球卻可能是其它顏色,有時(shi),氣(qi)(qi)球(qiu)上甚(shen)至會莫(mo)名出現一個臉部(bu)圖案。另外(wai),因(yin)為(wei)很多氣(qi)(qi)球(qiu)都帶有繩子(zi),Sora自(zi)動將“氣(qi)(qi)球(qiu)”和“繩子(zi)”關(guan)聯(lian)到了一起(qi)。在《氣(qi)(qi)球(qiu)人》中(zhong),角色Sonny的襯衫前面總是垂著一條繩子(zi),這些繩子(zi)都需(xu)要在后期(qi)制作中(zhong)移(yi)除。

帶有臉(lian)部圖案的氣球(qiu)人 圖片來源:fxguide

視頻分辨率較低 渲染時間長

雖說在(zai)《氣球(qiu)(qiu)人》的(de)(de)制作中,Shy Kids團隊(dui)使用的(de)(de)都(dou)(dou)是(shi)Sora所生(sheng)成(cheng)的(de)(de)畫面,但大(da)多經(jing)過(guo)了調色和再(zai)(zai)處理。帕特里(li)克解釋說,Sora最(zui)高(gao)可以支持720P的(de)(de)分(fen)(fen)辨率,1080P分(fen)(fen)辨率也(ye)已經(jing)推出(chu),但渲(xuan)染時間過(guo)長,為提高(gao)前期效率,團隊(dui)都(dou)(dou)是(shi)在(zai)較(jiao)低分(fen)(fen)辨率下生(sheng)成(cheng)的(de)(de)《氣球(qiu)(qiu)人》的(de)(de)所有制作內容,后(hou)期再(zai)(zai)通(tong)過(guo)Topaz軟件去(qu)提高(gao)分(fen)(fen)辨率。

Sora所(suo)(suo)生成的(de)(de)(de)視(shi)(shi)頻片段,能(neng)以(yi)不(bu)同(tong)的(de)(de)(de)時間(jian)(jian)長度(du)進行(xing)渲(xuan)染(ran)(ran)(ran)(ran),如(ru)3秒(miao)、5秒(miao)、10秒(miao)、20秒(miao),最長可達(da)一分鐘。渲(xuan)染(ran)(ran)(ran)(ran)時間(jian)(jian)會根據(ju)一天中的(de)(de)(de)時間(jian)(jian)和云服務的(de)(de)(de)需(xu)求而有(you)所(suo)(suo)變化(hua)。帕特(te)里克回憶(yi)說(shuo):“通(tong)常情(qing)況下(xia),每(mei)次渲(xuan)染(ran)(ran)(ran)(ran)大約需(xu)要(yao)10到20分鐘。渲(xuan)染(ran)(ran)(ran)(ran)的(de)(de)(de)段落長度(du)對實(shi)際渲(xuan)染(ran)(ran)(ran)(ran)時間(jian)(jian)的(de)(de)(de)影響并(bing)不(bu)太(tai)大。如(ru)果(guo)渲(xuan)染(ran)(ran)(ran)(ran)的(de)(de)(de)內容長度(du)在3秒(miao)到20秒(miao)之間(jian)(jian),實(shi)際所(suo)(suo)需(xu)的(de)(de)(de)渲(xuan)染(ran)(ran)(ran)(ran)時間(jian)(jian)通(tong)常都在10到20分鐘這個范圍(wei)內。”他解釋說(shuo):“我(wo)們之所(suo)(suo)以(yi)會這樣(yang)做(zuo),是因為,如(ru)果(guo)獲得了(le)一段完整的(de)(de)(de)20秒(miao)視(shi)(shi)頻,我(wo)們就(jiu)有(you)更大的(de)(de)(de)機會進行(xing)剪輯操作,這也相應地(di)增加了(le)得到滿意成果(guo)的(de)(de)(de)可能(neng)性。”

時間控制不精確 焦點過于固定

盡管可以在(zai)時間(jian)線上對(dui)關鍵幀進行(xing)調整,但對(dui)于動作發生的確切(qie)時間(jian)點(dian)控制并(bing)不(bu)(bu)精確,結(jie)果具有一定的不(bu)(bu)確定性。帕(pa)特里(li)克說,“這有點(dian)像摸黑射擊,就像老虎機一樣(yang),不(bu)(bu)確定它是否能在(zai)此時實現這些效果。”當然,Shy Kids使用的是Sora的最早原型之一,而Sora仍在(zai)不(bu)(bu)斷地進行(xing)改進。

除了(le)選擇分辨率(lv)外,Sora還(huan)允(yun)許(xu)用戶選擇畫面比例,如(ru)縱(zong)向、橫(heng)向(或正方形)。這(zhe)在從Sonny的(de)牛(niu)仔褲向上掃到他的(de)氣(qi)球(qiu)頭(tou)的(de)鏡(jing)頭(tou)中派(pai)上了(le)用場。不幸的(de)是,Sora原生不支持這(zhe)樣(yang)的(de)動(dong)作(zuo),它總是希望鏡(jing)頭(tou)的(de)主焦點——氣(qi)球(qiu)人(ren)——始終處于畫面中。因此(ci),團隊選擇了(le)縱(zong)向模式進(jin)行渲染,然后(hou)在后(hou)期通(tong)過裁剪(jian)手動(dong)創建了(le)向上掃描的(de)效果(guo)。

 

Sora生成的鏡(jing)頭(tou)需(xu)要(yao)后期手動裁剪 圖片(pian)來源:fxguide

難以理解和執行鏡頭運動指令

Sora 在理解和執行鏡頭運動指令方面,如“跟蹤”、“平移”、“傾斜”或“推進”等,其理解和執行能力尚待加強。盡管用戶可以輸入如“相機平移”的提示,但 Sora 并不總是能夠準確執行。

帕特里克(ke)提到,Sora在處理攝(she)(she)像機角度方(fang)面的(de)(de)處理似(si)(si)乎(hu)有些隨意。“OpenAI的(de)(de)研究人(ren)員并沒有真正像電影(ying)制作者那樣思考(kao),更(geng)多的(de)(de)是在專(zhuan)注于圖像的(de)(de)生成,而對(dui)于能否真正接收到或理解攝(she)(she)影(ying)指令這個問題,他們似(si)(si)乎(hu)沒有太多考(kao)慮。”

但目前,幾乎所有(you)視(shi)頻生成AI公司都(dou)面(mian)臨這個問題。Runway AI或許在提(ti)供描述攝影(ying)機(ji)動(dong)作的用戶界面(mian)方(fang)面(mian)最為先進,但Runway的渲染剪輯的質量和長(chang)度(du)都(dou)不如(ru)Sora。

素材與成品比例300:1

雖然所有圖像都是在(zai)Sora中生成的,但氣(qi)球仍需(xu)大(da)量的后期處理。除(chu)了(le)隔(ge)離氣(qi)球以便重新上色(se),有時氣(qi)球上會出現Sonny的臉,看(kan)似用馬克筆畫上的,這需(xu)要(yao)在(zai)AE(After Effects)中刪除(chu)。類似的其他(ta)瑕疵也常常需(xu)要(yao)移(yi)除(chu)。

Sora生成畫面 圖片來源:fxguide

 

后期處理畫面 圖片來源:fxguide

Shy Kids的方法類似于紀錄片的后期制作和剪輯方式,先積累大量的鏡頭,然后從這些材料中編織故事,而非嚴格按照劇本拍攝。雖然短片有劇本,但團隊仍需保持靈活并進行調整。“我們就是獲取大量的鏡頭,并嘗試以一種有趣的方式將其剪輯到旁白中,”帕特里克回憶道。對于最終進入電影的一分半鐘的鏡頭,帕特里克估計他們生成了“數百個生成片段,每個片段10到20秒”。他補充說:“我的數學不好,但我猜源材料到最終成片數量的比例,大概是300:1。”

拍攝合成和重新定時

在《氣(qi)球(qiu)人》里,團(tuan)隊并沒有(you)將(jiang)多個(ge)鏡頭合成在一(yi)起。例如,氣(qi)球(qiu)在賽車(che)上空漂浮的(de)鏡頭都是(shi)在一(yi)個(ge)鏡頭中生(sheng)成的(de)。

有趣的是(shi),許(xu)多(duo)《氣球人》的片段生成時(shi),就像(xiang)是(shi)慢(man)動作(zuo)拍(pai)攝(she)的,盡管這并非提示(shi)中(zhong)要求(qiu)。這種情況發生的原因不明,因此(ci)許(xu)多(duo)片段不得(de)不重新調整時(shi)間,使其看起來像(xiang)是(shi)實(shi)時(shi)拍(pai)攝(she)的。顯然,這比減慢(man)快速運動更容易(yi)做到(dao),但這確實(shi)也奇怪,可能(neng)是(shi)從訓練數據中(zhong)推斷出來的。“我不知道為什么,但似乎許(xu)多(duo)片段的速度在(zai)50%到(dao)75%之(zhi)間,”他補(bu)充說。“因此(ci),我們需(xu)要相當多(duo)的時(shi)間調整,以防止整個項目感覺像(xiang)是(shi)一個大型慢(man)動作(zuo)項目。”

場景照明和色彩分級調整

Shy Kids在(zai)他們(men)(men)的(de)提(ti)示詞中(zhong)使用了“35毫米膠片(pian)”這一(yi)(yi)術語,發現這樣的(de)提(ti)示能帶來(lai)較高(gao)一(yi)(yi)致性的(de)畫面(mian)效果。“如果我(wo)們(men)(men)需要高(gao)對(dui)比(bi)度,我(wo)們(men)(men)可以輸入‘高(gao)對(dui)比(bi)度’、‘主(zhu)光’,Sora通常會給我(wo)們(men)(men)接(jie)近(jin)所需的(de)效果,”帕特里克說(shuo)。“但我(wo)們(men)(men)仍然需要進行完整的(de)色彩(cai)調(diao)整,并且我(wo)們(men)(men)進行了自己(ji)的(de)數字電影外觀處(chu)理,我(wo)們(men)(men)在(zai)其中(zhong)添加(jia)了顆粒和(he)閃爍,以某(mou)種方式將一(yi)(yi)切融(rong)合(he)在(zai)一(yi)(yi)起。”Sora目(mu)前沒有提(ti)供額外的(de)通道選項,如遮罩或深度通道。

版權帶來的提示詞限制

為(wei)了(le)(le)尊重作(zuo)品的(de)(de)(de)版權(quan),OpenAI設定(ding)了(le)(le)一些規定(ding)和限制。舉例來說,如果你給Sora一個(ge)像是“在(zai)一個(ge)未來的(de)(de)(de)飛船上,一名男子手(shou)握光劍走了(le)(le)過(guo)來。”這樣(yang)的(de)(de)(de)提(ti)示(shi),并期(qi)望(wang)生(sheng)成(cheng)類似《星球(qiu)大戰》的(de)(de)(de)場景,Sora會拒(ju)絕生(sheng)成(cheng)這樣(yang)的(de)(de)(de)視頻(pin)。Shy Kids團隊在(zai)早期(qi)測(ce)試中,偶然遇到了(le)(le)這一問題。帕特(te)里克回憶(yi)說,當他們最初(chu)坐下來測(ce)試Sora時,拍(pai)攝了(le)(le)一個(ge)角色(se)背后的(de)(de)(de)鏡頭(tou),類似阿(a)羅諾夫(fu)斯基式的(de)(de)(de)跟隨鏡頭(tou),他在(zai)Sora上輸入了(le)(le)“阿(a)羅諾夫(fu)斯基式鏡頭(tou)”,但Sora為(wei)保護原作(zuo)版權(quan),拒(ju)絕了(le)(le)這個(ge)提(ti)示(shi)。

總結

Sora是一個引人注目的“文生視頻”大模型項目。Shy Kids團隊僅用大約1.5至2周的時間,由3人組成的團隊制作了爆火短片《氣球人》。目(mu)前,該團隊已經(jing)在(zai)(zai)制作一個自(zi)我(wo)意識強烈,或(huo)許帶有諷(feng)刺意味的(de)續集。“續集將從新聞角度出發,聚焦(jiao)到氣球人(ren)Sonny,以(yi)及他對名(ming)聲的(de)反(fan)應(ying)和隨后與世界的(de)決裂,”帕特里克(ke)說。“我(wo)們(men)還在(zai)(zai)探(tan)索新技術!”團隊希望在(zai)(zai)他們(men)的(de)實(shi)驗中更加技術化,將Sora元素與真(zhen)實(shi)的(de)實(shi)景拍攝進行AE合(he)成,并(bing)使用Sora作為輔助的(de)視(shi)覺效果工具。

Sora是一(yi)項(xiang)非常新的(de)(de)(de)(de)技術(shu),即使(shi)OpenAI已經為Sora勾(gou)勒出基本框架并(bing)展示(shi)了其(qi)(qi)應用(yong),這些框架也尚未開放給早(zao)期測試者(zhe)使(shi)用(yong)。Sora目前的(de)(de)(de)(de)形(xing)式(shi)(shi)似(si)乎不(bu)太可能很快發布(bu),但它(ta)在某種(zhong)類型的(de)(de)(de)(de)隱式(shi)(shi)圖像(xiang)生成方(fang)面已經有(you)了顯(xian)著(zhu)的(de)(de)(de)(de)進步。對(dui)于(yu)(yu)高端項(xiang)目來說(shuo),可能還需(xu)要(yao)(yao)一(yi)段時間(jian)才能滿足導演要(yao)(yao)求(qiu)的(de)(de)(de)(de)具體化程(cheng)度。對(dui)于(yu)(yu)許多其(qi)(qi)它(ta)項(xiang)目來說(shuo),它(ta)已經“足夠接近(jin)”,并(bing)能產生令(ling)人(ren)驚嘆(tan)的(de)(de)(de)(de)圖像(xiang)。《氣球人(ren)》仍然需(xu)要(yao)(yao)大量的(de)(de)(de)(de)編輯和人(ren)為指導,才能制作處這個引人(ren)入勝且(qie)有(you)趣的(de)(de)(de)(de)故事(shi)(shi)短片。帕特里克說(shuo),“我(wo)只是覺得人(ren)們(men)必須將(jiang)Sora作為他們(men)流程(cheng)的(de)(de)(de)(de)真實部分;然而,如(ru)果(guo)他們(men)不(bu)想參(can)與這樣的(de)(de)(de)(de)事(shi)(shi)情,那也沒關系。”

每(mei)日經濟新聞綜合(he)公開(kai)資料(liao)

封面(mian)圖片(pian)來源:每日經(jing)濟新聞 資料圖

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新(xin)聞》報(bao)社授(shou)權,嚴禁轉載(zai)或鏡像(xiang),違者必究。

讀者熱線(xian):4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索(suo)取稿(gao)酬。如(ru)您不希望(wang)作品出現(xian)在本站,可聯系我們(men)要求撤下您的作品。

Sora 鏡頭

歡(huan)迎關注每日經(jing)濟新聞APP

每經經濟新聞官方APP

2

0