編者按:本文來自微信公眾號(hào) 新智元(ID:AI_era),作者:新智元,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
昨天白天,「現(xiàn)實(shí)不存在了」開始全網(wǎng)刷屏。
「我們這么快就步入下一個(gè)時(shí)代了?Sora簡直太炸裂了」。
「這就是電影制作的未來」!
谷歌的Gemini Pro 1.5還沒出幾個(gè)小時(shí)的風(fēng)頭,天一亮,全世界的聚光燈就集中在了OpenAI的Sora身上。
Sora一出,眾視頻模型臣服。
就在幾小時(shí)后,OpenAI Sora的技術(shù)報(bào)告也發(fā)布了!
其中,「里程碑」也成為報(bào)告中的關(guān)鍵詞。
報(bào)告地址:https://openai.com/research/video-generation-models-as-world-simulators
技術(shù)報(bào)告主要介紹了兩個(gè)方面:
(1)如何將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,以便于對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練的方法;
(2)對(duì)Sora的能力和局限性的定性評(píng)價(jià)。
不過遺憾的是,報(bào)告不包括模型和實(shí)現(xiàn)細(xì)節(jié)。嗯,OpenAI還是那個(gè)「OpenAI」。
就連馬斯克都被Sora生成效果震撼到,并表示「gg人類」。
打造虛擬世界模擬器
此前,OpenAI的研究者一直在探索的一個(gè)難題就是,究竟怎樣在視頻數(shù)據(jù)上,應(yīng)用大規(guī)模訓(xùn)練的生成模型?
為此,研究者同時(shí)對(duì)對(duì)持續(xù)時(shí)間、分辨率和寬高比各不相同的視頻和圖片進(jìn)行了訓(xùn)練,而這一過程正是基于文本條件的擴(kuò)散模型。
他們采用了Transformer架構(gòu),這種架構(gòu)能夠處理視頻和圖片中時(shí)空片段的潛代碼。
隨之誕生的最強(qiáng)大模型Sora,也就具備了生成一分鐘高質(zhì)量視頻的能力。
OpenAI研究者發(fā)現(xiàn)了令人驚喜的一點(diǎn):擴(kuò)展視頻生成模型的規(guī)模,是構(gòu)建模擬物理世界通用模擬器的非常有希望的方向。
也就是說,順著這個(gè)方向發(fā)展,或許LLM真的能夠成為世界模型!
Sora的獨(dú)到之處在于哪里?
要知道,以前的許多研究,都是通過各種技術(shù)對(duì)視頻數(shù)據(jù)進(jìn)行生成模型建模,比如循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸Transformer和擴(kuò)散模型等方法。
它們往往只關(guān)注于特定類型的視覺數(shù)據(jù)、較短的視頻或者固定尺寸的視頻。
而Sora與它們不同,它是一種通用的視覺數(shù)據(jù)模型,能夠生成各種持續(xù)時(shí)間、寬高比和分辨率的視頻和圖片,甚至長達(dá)一分鐘的高清視頻。
有網(wǎng)友表示,「Sora雖然有一些不完美之處(可以檢測(cè)出來),例如從物理效果可以看出它是人工合成的。但是,它將會(huì)革命性地改變?cè)S多行業(yè)。
想象一下可以生成動(dòng)態(tài)的、個(gè)性化的廣告視頻進(jìn)行精準(zhǔn)定位,這將是一個(gè)萬億美元的產(chǎn)業(yè)」!
為了驗(yàn)證SORA的效果,業(yè)界大佬Gabor Cselle把它和Pika、RunwayML和Stable Video進(jìn)行了對(duì)比。
首先,他采用了與OpenAI示例中相同的Prompt。
結(jié)果顯示,其他主流工具生成的視頻都大約只有5秒鐘,而SORA可以在一段長達(dá)17秒視頻場(chǎng)景中,保持動(dòng)作和畫面一致性。
隨后,他將SORA的起始畫面用作參照,努力通過調(diào)整命令提示和控制相機(jī)動(dòng)作,嘗試使其他模型產(chǎn)出與SORA類似的效果。
相比之下,SORA在處理較長視頻場(chǎng)景方面的表現(xiàn)顯著更出色。
看到如此震撼的效果,也難怪業(yè)內(nèi)人士都在感嘆,SORA在AI視頻制作領(lǐng)域確實(shí)具有革命性意義。
將視覺數(shù)據(jù)轉(zhuǎn)化為patch
LLM之所以會(huì)成功,就是因?yàn)樗鼈冊(cè)诨ヂ?lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行了訓(xùn)練,獲得了廣泛能力。
它成功的一大關(guān)鍵,就是使用了token,這樣,文本的多種形態(tài)——代碼、數(shù)學(xué)公式以及各種自然語言,就優(yōu)雅地統(tǒng)一了起來。
OpenAI的研究者,正是從中找到了靈感。
該如何讓視覺數(shù)據(jù)的生成模型繼承token的這種優(yōu)勢(shì)?
注意,不同于LLM使用的文本token,Sora使用的是視覺patch。
此前已有研究表明,patch對(duì)視覺數(shù)據(jù)建模非常有效。
OpenAI研究者驚喜地發(fā)現(xiàn),patch這種高度可擴(kuò)展的有效表征形式,正適用于訓(xùn)練能處理多種類型視頻和圖片的生成模型。
從宏觀角度來看,研究者首先將視頻壓縮到一個(gè)低維潛空間中,隨后把這種表征分解為時(shí)空patch,這樣就實(shí)現(xiàn)了從視頻到patch的轉(zhuǎn)換。
視頻壓縮網(wǎng)絡(luò)
研究者開發(fā)了一個(gè)網(wǎng)絡(luò),來減少視覺數(shù)據(jù)的維度。
這個(gè)網(wǎng)絡(luò)可以接受原始視頻作為輸入,并輸出一個(gè)在時(shí)間上和空間上都進(jìn)行了壓縮的潛表征。
Sora在這個(gè)壓縮后的潛空間中進(jìn)行訓(xùn)練,之后用于生成視頻。
另外,研究者還設(shè)計(jì)了一個(gè)對(duì)應(yīng)的解碼器模型,用于將生成的潛數(shù)據(jù)轉(zhuǎn)換回像素空間。
潛空間patch
對(duì)于一個(gè)壓縮后的輸入視頻,研究者提取看一系列空間patch,作為Transformer的token使用。
這個(gè)方案同樣適用于圖像,因?yàn)閳D像可以被視為只有一幀的視頻。
基于patch的表征方法,研究者使得Sora能夠處理不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像。
在推理時(shí),可以通過在一個(gè)合適大小的網(wǎng)格中適當(dāng)排列隨機(jī)初始化的patch,從而控制生成視頻的大小。
擴(kuò)展Transformer
因此,視頻模型Sora是一個(gè)擴(kuò)散模型;它能夠接受帶有噪聲的patch(和條件信息,如文本提示)作為輸入,隨后被訓(xùn)練,來預(yù)測(cè)原始的「干凈」patch。
重要的是,Sora是基于Transformer的擴(kuò)散模型。在以往,Transformer在語言模型、計(jì)算機(jī)視覺和圖像生成等多個(gè)領(lǐng)域,都表現(xiàn)出卓越的擴(kuò)展能力。
令人驚喜的是,在這項(xiàng)工作中,研究者發(fā)現(xiàn)作為視頻模型的擴(kuò)散Transformer,也能有效地?cái)U(kuò)展。
下圖展示了訓(xùn)練過程中使用固定種子和輸入的視頻樣本比較。
隨著訓(xùn)練計(jì)算資源的增加,樣本質(zhì)量顯著提升。
視頻的多樣化表現(xiàn)
傳統(tǒng)上,圖像和視頻的生成技術(shù)往往會(huì)將視頻統(tǒng)一調(diào)整到一個(gè)標(biāo)準(zhǔn)尺寸,比如4秒鐘、分辨率256x256的視頻。
然而,OpenAI研究者發(fā)現(xiàn),直接在視頻的原始尺寸上進(jìn)行訓(xùn)練,能帶來諸多好處。
靈活的視頻制作
Sora能夠制作各種尺寸的視頻,從寬屏的1920x1080到豎屏的1080x1920,應(yīng)有盡有。
這也就意味著,Sora能夠?yàn)楦鞣N設(shè)備制作適配屏幕比例的內(nèi)容!
它還可以先以較低分辨率快速制作出視頻原型,再用相同的模型制作出全分辨率的視頻。
更優(yōu)的畫面表現(xiàn)
實(shí)驗(yàn)發(fā)現(xiàn),直接在視頻原始比例上訓(xùn)練,能夠顯著提升視頻的畫面表現(xiàn)和構(gòu)圖效果。
因此,研究者將Sora與另一個(gè)版本的模型進(jìn)行了比較,后者會(huì)將所有訓(xùn)練視頻裁剪為正方形,這是生成模型訓(xùn)練中的常見做法。
與之相比,Sora生成的視頻(右側(cè))在畫面構(gòu)成上則有了明顯的改進(jìn)。
深入的語言理解
訓(xùn)練文本到視頻的生成系統(tǒng),需要大量配有文本說明的視頻。
研究者采用了DALL·E 3中的重新標(biāo)注技術(shù),應(yīng)用在了視頻上。
首先,研究者訓(xùn)練了一個(gè)能生成詳細(xì)描述的標(biāo)注模型,然后用它為訓(xùn)練集中的所有視頻,生成文本說明。
他們發(fā)現(xiàn),使用詳細(xì)的視頻說明進(jìn)行訓(xùn)練,不僅能提高文本的準(zhǔn)確性,還能提升視頻的整體質(zhì)量。
類似于DALL·E 3,研究者也使用了GPT,把用戶的簡短提示轉(zhuǎn)化為詳細(xì)的說明,然后這些說明會(huì)被輸入到視頻模型中。
這樣,Sora就能根據(jù)用戶的具體要求,生成高質(zhì)量、準(zhǔn)確無誤的視頻。
圖像和視頻的多樣化提示
雖然展示的案例,都是Sora將文本轉(zhuǎn)換為視頻的demo,但其實(shí),Sora的能力不止于此。
它還可以接受圖像或視頻等其他形式的輸入。
這就讓Sora能夠完成一系列圖像和視頻編輯任務(wù),比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動(dòng)態(tài)、在時(shí)間線上擴(kuò)展視頻的長度等等。
為DALL·E圖像賦予生命
Sora能夠接受一張圖像和文本提示,然后基于這些輸入生成視頻。
下面即是Sora基于DALL·E 2和DALL·E 3圖像生成的視頻。
一只戴貝雷帽和黑高領(lǐng)衫的柴犬
一家五口怪物的插畫,采用了簡潔明快的扁平設(shè)計(jì)風(fēng)格。其中包括一只毛茸茸的棕色怪物,一只光滑的黑色怪物長著天線,還有一只綠色的帶斑點(diǎn)怪物和一只小巧的帶波點(diǎn)怪物,它們?cè)谝粋€(gè)歡快的場(chǎng)景中相互玩耍。
一張逼真的云朵照片,上面寫著「SORA」。
在一個(gè)典雅古老的大廳內(nèi),一道巨浪滔天,正要破浪而下。兩位沖浪者把握時(shí)機(jī),巧妙地滑行在浪尖上。
視頻時(shí)間線的靈活擴(kuò)展
Sora不僅能生成視頻,還能將視頻沿時(shí)間線向前或向后擴(kuò)展。
可以看到,demo中的視頻都是從同一個(gè)視頻片段開始,向時(shí)間線的過去延伸。盡管開頭各不相同,但它們最終都匯聚于同一個(gè)結(jié)尾。
而通過這種方法,我們就能將視頻向兩個(gè)方向延伸,創(chuàng)造出一個(gè)無縫的循環(huán)視頻。
圖像的生成能力
同樣,Sora也擁有生成圖像的能力。
為此,研究者將高斯噪聲patch排列在空間網(wǎng)格中,時(shí)間范圍為一幀。
該模型可生成不同大小的圖像,分辨率最高可達(dá)2048x2048像素。
左:一位女士在秋季的特寫照片,細(xì)節(jié)豐富,背景模糊。
右:一個(gè)生機(jī)勃勃的珊瑚礁,居住著五顏六色的魚類和海洋生物。
左:一幅數(shù)字繪畫,描繪了一只幼年老虎在蘋果樹下,采用了精美的啞光畫風(fēng)。
右:一個(gè)被雪覆蓋的山村,溫馨的小屋和壯麗的北極光相映成趣,畫面細(xì)膩逼真,采用了50mm f/1.2鏡頭拍攝。
視頻風(fēng)格和環(huán)境的變換
利用擴(kuò)散模型,就能通過文本提示來編輯圖像和視頻。
在這里,研究者將一種名為SDEdit的技術(shù)應(yīng)用于Sora,使其能夠不需要任何先驗(yàn)樣本,即可改變視頻的風(fēng)格和環(huán)境。
視頻之間的無縫連接
另外,還可以利用Sora在兩個(gè)不同的視頻之間創(chuàng)建平滑的過渡效果,即使這兩個(gè)視頻的主題和場(chǎng)景完全不同。
在下面的demo中,中間的視頻就實(shí)現(xiàn)了從左側(cè)到右側(cè)視頻的平滑過渡。
一個(gè)是城堡,一個(gè)是雪中小屋,非常自然地融進(jìn)一個(gè)畫面中。
涌現(xiàn)的模擬能力
隨著大規(guī)模訓(xùn)練的深入,可以發(fā)現(xiàn)視頻模型展現(xiàn)出了許多令人興奮的新能力。
Sora利用這些能力,能夠在不需要專門針對(duì)3D空間、物體等設(shè)置特定規(guī)則的情況下,就模擬出人類、動(dòng)物以及自然環(huán)境的某些特征。
這些能力的出現(xiàn),完全得益于模型規(guī)模的擴(kuò)大。
3D空間的真實(shí)感
Sora能創(chuàng)造出帶有動(dòng)態(tài)視角變化的視頻,讓人物和場(chǎng)景元素在三維空間中的移動(dòng),看起來十分自然。
如下,一對(duì)情侶漫步在雪天中的東京,視頻的生成和真實(shí)的運(yùn)鏡效果大差不差了。
再比如,Sora擁有更加遼闊的視野,生成山水風(fēng)景與人徒步爬山的視頻,有種無人機(jī)拍攝出的巨制趕腳。
視頻的一致性和物體的持續(xù)存在
在生成長視頻時(shí),保持場(chǎng)景和物體隨時(shí)間的連續(xù)性一直是個(gè)挑戰(zhàn)。
Sora能夠較好地處理這一問題,即便在物體被遮擋或離開畫面時(shí),也能保持其存在感。
下面例子中,窗臺(tái)前的花斑狗,即便中途有多個(gè)路人經(jīng)過,它的樣子依舊保持一致。
例如,它可以在一個(gè)視頻中多次展示同一個(gè)角色,而且角色的外觀在整個(gè)視頻中保持一致。
賽博風(fēng)格的機(jī)器人,從前到后旋轉(zhuǎn)一圈,都沒有跳幀。
與世界的互動(dòng)
甚至,Sora能模擬出影響世界狀態(tài)的簡單行為。
比如,畫家畫的櫻花樹,水彩紙上留下了持久的筆觸。
又或是,人吃漢堡時(shí)留下的咬痕清晰可見,Sora的生成符合物理世界的規(guī)則。
數(shù)字世界的模擬
Sora不僅能模擬現(xiàn)實(shí)世界,還能夠模擬數(shù)字世界,比如視頻游戲。
以「Minecraft」為例,Sora能夠在控制玩家角色的同時(shí),以高度逼真的方式渲染游戲世界和動(dòng)態(tài)變化。
而且,只需通過簡單的提示,如提及「Minecraft」,Sora就能展現(xiàn)這些能力。
這些新能力顯示出,持續(xù)擴(kuò)大視頻模型規(guī)模是一個(gè)極有希望的方向,讓模型向著精準(zhǔn)模擬物理世界和數(shù)字世界、以及其中的生物和物體的高級(jí)模擬器發(fā)展。
局限性
當(dāng)然,作為一個(gè)模擬器,Sora目前還存在不少的局限。
比如,它雖然能模擬一些基礎(chǔ)物理互動(dòng),比如玻璃的碎裂,但還不夠精確。
模擬吃食物的過程,也并不總是能準(zhǔn)確反映物體狀態(tài)的改變。
在網(wǎng)站首頁上,OpenAI詳細(xì)列出了模型的常見問題,比如在長視頻中出現(xiàn)的邏輯不連貫,或者物體會(huì)無緣無故地出現(xiàn)。
最后,OpenAI表示,Sora目前所展現(xiàn)出的能力,證明了不但提升視頻模式的規(guī)模是一個(gè)令人振奮的方向。
沿這個(gè)方向走下去,或許有一天,世界模型就會(huì)應(yīng)運(yùn)而生。
網(wǎng)友:未來游戲動(dòng)嘴做
OpenAI給出眾多的官方演示,看得出Sora似乎可以為更逼真的游戲生成鋪路——僅憑文字描述就能生成程序游戲。
這既令人興奮,又令人恐懼。
FutureHouseSF的聯(lián)合創(chuàng)始人猜測(cè),「或許Sora可以模擬我的世界。也許下一代游戲機(jī)將是「Sora box」,游戲?qū)⒁?-3段文字的形式發(fā)布」。
OpenAI技術(shù)人員Evan Morikawa稱,「在OpenAI發(fā)布的Sora視頻中,如下的視頻讓我大開眼界。通過經(jīng)典渲染器渲染這個(gè)場(chǎng)景是非常困難的。Sora模擬物理的方式和我們不同。它肯定仍然會(huì)出錯(cuò),但是我之前沒有預(yù)測(cè)到它能做得這么逼真」。
有網(wǎng)友稱,「人們沒有把『每個(gè)人都會(huì)成為電影制作人』這句話當(dāng)回事」。
我在15分鐘內(nèi)制作了這部20年代的預(yù)告片,使用了OpenAI Sora的片段,David Attenborough在Eleven Labs上的配音,并在iMovie上從YouTube上采樣了一些自然音樂。
還有人稱,「5年后,你將能夠生成完全沉浸式的世界,并實(shí)時(shí)體驗(yàn)它們,「全息甲板」即將變成現(xiàn)實(shí)」!
有人甚至表示,自己完全被Sora的AI視頻生成的出色效果驚呆了。
「它讓現(xiàn)有的視頻模型看起來像是愚蠢的玩具。每個(gè)人都將成為一名電影制作人」。
「新一代電影制作人即將與OpenAI的Sora一起涌現(xiàn)。再過10年,這將是一場(chǎng)有趣的比賽」!
「OpenAI的Sora暫不會(huì)取代好萊塢。它將為好萊塢以及個(gè)人電影制作者和內(nèi)容創(chuàng)作者,帶來巨大的推動(dòng)力。
想象一下,只需3人團(tuán)隊(duì),就能在一周內(nèi),完成一部120分鐘的A級(jí)故事片的初稿創(chuàng)作和觀眾測(cè)試。這就是我們的目標(biāo)」。
參考資料:
https://openai.com/research/video-generation-models-as-world-simulators?ref=upstract.com
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。