編者按:本文來(lái)自微信公眾號(hào) 阿爾法公社(ID:alphastartups),作者阿爾法公社創(chuàng)始合伙人許四清,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
2月16日凌晨,OpenAI發(fā)布了自己的首個(gè)AI視頻生成模型—Sora。這是一個(gè)歷史性的里程碑,擴(kuò)散模型結(jié)合OpenAI大獲成功的transformer,在視覺(jué)領(lǐng)域?qū)崿F(xiàn)了與大語(yǔ)言模型類似的突破。毫無(wú)疑問(wèn),視覺(jué)生成領(lǐng)域?qū)⒂幸淮未蟮募夹g(shù)和商業(yè)革命。
本文將分別討論:1. Sora是什么,怎么工作的,2. Sora引發(fā)的產(chǎn)業(yè)機(jī)會(huì),3. 是不是大樹之下寸草不生,這個(gè)領(lǐng)域的創(chuàng)業(yè)公司都要"掛"了。
Sora是什么?怎么工作的
Sora在多個(gè)方面重新定義了AI視頻生成模型的標(biāo)準(zhǔn):
a.它將視頻時(shí)長(zhǎng)從當(dāng)前的5-15秒,直接提升到了1分鐘,這個(gè)長(zhǎng)度完全可以應(yīng)對(duì)短視頻的創(chuàng)作需求。從OpenAI發(fā)表的文章看,如果需要,超過(guò)1分鐘毫無(wú)任何懸念。
b.它可以生成多個(gè)鏡頭,并且各個(gè)鏡頭具有角色和視覺(jué)風(fēng)格的一致性。
c.不僅可以用文字prompt生成視頻,還支持視頻到視頻的編輯,當(dāng)然也可以生成高質(zhì)量的圖片,Sora甚至還可以拼接完全不同的視頻,使之合二為一、前后連貫。
d.它是擴(kuò)散模型, 更是擴(kuò)散+Transformer的視覺(jué)大模型,并且產(chǎn)生了涌現(xiàn)現(xiàn)象,對(duì)現(xiàn)實(shí)世界有了更深刻的理解和互動(dòng)能力,具有了世界模型的雛形。
它能生成更真實(shí),一致性更強(qiáng)的多鏡頭長(zhǎng)視頻
OpenAI官方公布了數(shù)十個(gè)示例視頻,充分展示了Sora模型的強(qiáng)大能力。
人物的瞳孔、睫毛、皮膚紋理,都逼真到看不出一絲破綻,真實(shí)性與以往的AI生成視頻是史詩(shī)級(jí)的提升,AI視頻與現(xiàn)實(shí)的差距,更難辨認(rèn)。
無(wú)人機(jī)視角的東京街頭景色,讓Sora在復(fù)雜場(chǎng)景展現(xiàn),人物動(dòng)作自然度等方面的優(yōu)勢(shì)展露無(wú)遺。
在山道上穿梭的復(fù)古SUV,可以看到真實(shí)性很高。
Sora可以在兩個(gè)輸入視頻之間逐漸進(jìn)行轉(zhuǎn)場(chǎng),在完全不同主題和場(chǎng)景構(gòu)成的視頻之間創(chuàng)建無(wú)縫過(guò)渡。
擴(kuò)散模型+Transformer如何工作的
OpenAI的團(tuán)隊(duì)從大語(yǔ)言模型的大規(guī)模訓(xùn)練中汲取了靈感,對(duì)應(yīng)大語(yǔ)言模型的文本數(shù)據(jù)表示tokens,它們將視覺(jué)數(shù)據(jù)分割成數(shù)據(jù)塊 ,首先將視頻壓縮到較低維的隱式特征,然后分解為時(shí)空數(shù)據(jù)塊,這些數(shù)據(jù)塊的作用就相當(dāng)于token在大語(yǔ)言模型中的作用,用于訓(xùn)練Sora。
講中文,就是Sora式把圖片/視頻都token化了。
Sora是一個(gè)基于擴(kuò)散模型(Diffusion Model)的視頻模型,但是它是一個(gè)擴(kuò)散Transformer模型,Transformer已經(jīng)證明了把語(yǔ)言、視覺(jué)和圖像生成一同實(shí)現(xiàn)的強(qiáng)大能力。
它基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重標(biāo)注技術(shù),通過(guò)GPT的能力,使模型更加準(zhǔn)確地遵循用戶的文本指令生成視頻。
所以,Sora是擴(kuò)散模型+transformer的視覺(jué)大模型。
除了能根據(jù)文本指令生成視頻外,這款模型還能將現(xiàn)有的靜態(tài)圖像轉(zhuǎn)化成視頻,精確細(xì)致地賦予圖像中內(nèi)容以生動(dòng)的動(dòng)畫。模型還能擴(kuò)展現(xiàn)有視頻或補(bǔ)全缺失的幀。
Sora的出現(xiàn),進(jìn)一步拉大了中美在AI方面的差距。
Sora仍有很大缺陷
但是,盡管Sora在技術(shù)和性能表現(xiàn)上有了巨大的提升,它仍有不少的局限性,在理解復(fù)雜場(chǎng)景的物理原理、因果關(guān)系、空間細(xì)節(jié)、時(shí)間推移上存在弱點(diǎn)。例如它不能很好地表現(xiàn)玻璃碎裂。
還有在吹蠟燭之前和吹蠟燭之后,火苗沒(méi)有絲毫變化。
它也搞反了人在跑步機(jī)上跑步的方向。
OpenAI只是提供了生成的視頻展示,隨著Sora的發(fā)布,同時(shí)還引發(fā)了人們對(duì)濫用視頻生成技術(shù)的擔(dān)憂。為此,公司并未向外正式開放Sora的使用,而是精心挑選了一批"受信任"的專業(yè)人士做測(cè)試。
Sora引發(fā)的產(chǎn)業(yè)機(jī)會(huì)
首先,這是一個(gè)里程碑式的技術(shù)進(jìn)步。
其次,在視頻應(yīng)用的場(chǎng)景中,能展示不等于能實(shí)用。如果說(shuō)實(shí)現(xiàn)商業(yè)化需要做到100分(60分技術(shù)+40分場(chǎng)景),以往人工能做到90分,Sora的出現(xiàn)只解決了那60分,甚至到75分,還是有一段商業(yè)化的路徑,需要靠人工或技術(shù)+商業(yè)創(chuàng)新完成。
第一,可控性。無(wú)論是商業(yè)場(chǎng)景還是創(chuàng)作場(chǎng)景,視頻要按照人的意志或規(guī)律完成動(dòng)作,這無(wú)疑是個(gè)巨大的挑戰(zhàn)。
舉個(gè)例子,有人提出物理模型,實(shí)際上目前的Sora能精美生成和炫技,但如果要能展示特定場(chǎng)景,比如一個(gè)皮球掉到地上反復(fù)彈起來(lái),是要一個(gè)物理模型支撐的,目前Diffusion+transformer還無(wú)法解決。
第二,prompt(提示詞)的挑戰(zhàn)本身仍然是個(gè)技術(shù)活兒,視覺(jué)領(lǐng)域,一般非專業(yè)人員很難用好視覺(jué)的生成,這既需要訓(xùn)練,更有待技術(shù)突破,讓外行變內(nèi)行。
所以,創(chuàng)作要面向?qū)嵱脠?chǎng)景,空間依舊很大。75分之上,都是場(chǎng)景創(chuàng)新的機(jī)會(huì)。
場(chǎng)景創(chuàng)新的機(jī)會(huì),屬于懂場(chǎng)景、懂模型的創(chuàng)造者。
對(duì)于好萊塢,大家看過(guò)《繁花》就知道了。面對(duì)王家衛(wèi)那樣的大導(dǎo)演,科技創(chuàng)新的工具,目前最多可以提高實(shí)現(xiàn)指定場(chǎng)景的效率。寶總、玲子、爺叔短時(shí)間內(nèi)是機(jī)器替代不了的。
同樣的爆發(fā),很可能會(huì)在AI視頻行業(yè)重演,我們看到的可能不是AI讓電影人失業(yè),而是AI讓電影人們創(chuàng)造更好的作品。
國(guó)內(nèi)外一批創(chuàng)新公司要掛了嗎?
首先,贏家未必通吃。美國(guó)的商業(yè)生態(tài)有個(gè)顯著特點(diǎn),就是一流公司做平臺(tái),二流公司做全線產(chǎn)品,三流公司搞客戶。
OpenAI的Sora,是一個(gè)偉大的工程進(jìn)步,有一點(diǎn)像工業(yè)界走在了國(guó)家撥款支持科研的前面(整個(gè)LLM的出現(xiàn)就是這樣,搞得學(xué)者們很被動(dòng)),只是這個(gè)突破在工業(yè)界而不是學(xué)界最先實(shí)現(xiàn),距離商業(yè)化還有一段路要走。
突出的公司要在關(guān)鍵領(lǐng)域確保自己的領(lǐng)導(dǎo)地位,突破技術(shù),建立平臺(tái),也會(huì)做垂類應(yīng)用,但更重視吸引廣大開發(fā)者參與,而不是有點(diǎn)突破就攤大餅,把應(yīng)用都做完。這一點(diǎn),在之前的文章中就分析過(guò)。
所以,60分之上,仍有很大空間。這點(diǎn),看看Salesforce的上千家應(yīng)用就清楚了。
其次,根據(jù)OpenAI的論文看,支持60秒視頻的路徑講的很清楚,幫助很多創(chuàng)業(yè)公司節(jié)約了數(shù)以千萬(wàn)計(jì)的探索成本(向OpenAI致敬?。瑫r(shí)也給創(chuàng)業(yè)者提供了很大的想象空間。
如果只要15秒,如果提高視頻主體的高度可控性,如果需要控制主體在視頻中的路徑,會(huì)不會(huì)有其它的選擇?Diffusion transformer是不是有更好的用法?還是那句話,模型能力決定了一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)的高度,60分之上,模型支撐的應(yīng)用見分曉。會(huì)模型、懂應(yīng)用的創(chuàng)業(yè)公司大有機(jī)會(huì)。
在美國(guó)這個(gè)市場(chǎng)里,跟跑的大公司喜歡選擇通過(guò)兼并收購(gòu)拉近差距,小團(tuán)隊(duì)跑得快,起跑快并進(jìn)大公司價(jià)值高。
國(guó)內(nèi)的兼并收購(gòu)不那么活躍,大廠喜歡下場(chǎng)什么都做。但是OpenAI跑得這么快,這么大的賽道上機(jī)會(huì)層出不窮,大廠難免沒(méi)別的想法。
還是那句話,這是一個(gè)讓獅子和土狼一起奔向光明的大賽場(chǎng)。
參考文獻(xiàn):
1.OpenAI. Video generation models as world simulators.
https://openai.com/research/video-generation-models-as-world-simulators
2.MIT Technology review. OpenAI teases an amazing new generative video model called Sora.
https://www.technologyreview.com/2024/02/15/1088401/openai-amazing-new-generative-ai-video-model-sora/
3.本文部分視頻和動(dòng)圖來(lái)自網(wǎng)絡(luò)。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。