吊打Sora？Runway全新視頻大模型發(fā)布：演示效果絕了

智能Pro·2024-06-20

視頻大模型畫餅?zāi)募覐?qiáng)

編者按：本文來自微信公眾號(hào) 智能Pro（ID：zhinengpro），作者：大月亮，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

自從OpenAI公布了Sora，視頻生成領(lǐng)域正式按下了行業(yè)加速鍵，許多國內(nèi)外企業(yè)紛紛發(fā)力，不僅研究發(fā)布專門用于視頻生成的垂直大模型，還將手里的技術(shù)封裝成一個(gè)個(gè)人人能用的AIGC產(chǎn)品。

隨著新玩家數(shù)量的劇增，這場視頻生成領(lǐng)域的戰(zhàn)爭愈演愈烈，其中受到?jīng)_擊最大的自然是老牌同類競品模型，比如Pika、SDV、谷歌、Meta，還有在昨天發(fā)布了第三代視頻生成模型Gen-3 Alpha的Runway。

Gen-3很香，但你暫時(shí)用不了

Runway深夜發(fā)布的各種演示視頻展示出了電影級(jí)的畫面細(xì)節(jié)，直接震驚了全體網(wǎng)友。Gen-3與之前的旗艦視頻模型Gen-2相比，在模型生產(chǎn)速度和保真度方面有了重大提升，同時(shí)對(duì)生成視頻的結(jié)構(gòu)、風(fēng)格和運(yùn)動(dòng)提供了細(xì)粒度的控制。

Runway表示，Gen-3 Alpha具有高保真視頻、精細(xì)動(dòng)作控制、逼真人物生成、多模態(tài)輸入、專業(yè)創(chuàng)作工具、增強(qiáng)安全、高質(zhì)量訓(xùn)練等特點(diǎn)。在這次模型的訓(xùn)練過程中，匯集了研究者、工程師和藝術(shù)家的集體智慧和努力。正是這種跨學(xué)科的協(xié)作精神，使得Gen-3 Alpha模型能夠理解和表達(dá)多種風(fēng)格和電影概念。

官方展示視頻時(shí)長為10秒，人物生成中的人物面部細(xì)節(jié)和情感營造方面比較細(xì)膩，場景、風(fēng)景生成中的元素、光影沒有太大的違和感。友情提示，以下展示內(nèi)容因?yàn)橐D(zhuǎn)換為GIF，所以畫質(zhì)均有不同程度壓縮，想看原視頻的朋友可以去Runway官網(wǎng)復(fù)習(xí)下。

女子乘坐車輛穿過明暗交替的街道，外部光源照射在面部的變化十分自然，車外穿梭的車輛也沒有出現(xiàn)斷層等違和場景。

圖源：Runway

男子似乎在類似電影院的昏暗地方觀看影視作品，雙眼微紅、眼球轉(zhuǎn)動(dòng)、眨眼以及嘴部輕微抽動(dòng)等細(xì)節(jié)還原度非常高。

圖源：Runway

一間破舊的屋子，地面被魔法轉(zhuǎn)化成植物門，植物在陽光下隨風(fēng)飄揚(yáng)，隨著鏡頭向前推進(jìn)展現(xiàn)更多細(xì)節(jié)。

一團(tuán)火焰漂浮半空，在街道游蕩，火焰細(xì)節(jié)明顯比其他元素要難掌握，邊緣有些飄忽，加上虛化背景上的人們也有滑行的動(dòng)作，這個(gè)視頻算是暴露了Gen-3的缺點(diǎn)。

圖源：Runway

接下來是本人最喜歡的一個(gè)視頻，電影級(jí)別的鏡頭推進(jìn)仿佛一下就將人們帶進(jìn)了宏大的異世界，如果小雷沒有記錯(cuò)的話，侏羅紀(jì)公園、金剛等電影經(jīng)常用這種鏡頭。鏡頭背景太廣，因此也不奢望能展示多少細(xì)節(jié)，至少大體看上去沒發(fā)現(xiàn)什么瑕疵。

圖源：Runway

盡管大家看到基于Gen-3生成的短視頻都很激動(dòng)，但還是得稍微冷靜冷靜，因?yàn)镽unway暫時(shí)不提供Gen-3的使用。預(yù)計(jì)還要再過幾天，它才會(huì)向Runway訂閱用戶開放，包括企業(yè)客戶和Runway創(chuàng)意合作伙伴計(jì)劃中的創(chuàng)作者。

也就是說，普通用戶短時(shí)間內(nèi)還是無法使用Gen-3，只能用Gen-2解解饞。說起來，小雷還沒體驗(yàn)過Runway的視頻生成模型，Gen-2就Gen-2吧，通過對(duì)比看看Gen-3的升級(jí)幅度是不是真有那么大。

體驗(yàn)完Gen-2，我才明白Gen-3升級(jí)力度有多大

進(jìn)入生成界面，小雷立馬感受到了Runway與視頻生成產(chǎn)品的不同。用戶不僅可以采用“傻瓜式”一鍵輸入關(guān)鍵詞生成，還能對(duì)主體運(yùn)動(dòng)強(qiáng)度、相機(jī)控制、運(yùn)動(dòng)軌跡、等細(xì)節(jié)進(jìn)行微調(diào)，至于風(fēng)格、縱橫比、清晰度也是標(biāo)配了。

圖源：Runway

但也有要強(qiáng)烈吐槽的地方，那就是視頻生成需要排隊(duì)，用戶要么等待，要么只能選擇升級(jí)訂閱套餐，也就是付費(fèi)。小雷體驗(yàn)過這么多國內(nèi)外視頻生成大模型應(yīng)用，這是我第一次遇到這種情況。

圖源：Runway

這是小雷生成的第一個(gè)視頻，生成4s的視頻花了大概2分鐘，原本想生成一個(gè)CGI風(fēng)格的荒原視頻，但這效果直接給我來了一記重?fù)?。看這個(gè)視頻時(shí)直接讓我想起了CS畫風(fēng)，草叢“蠕動(dòng)”異常難看，視頻中所有房子的屋頂均有不同程度的頻閃，給人一種置身異次元空間的感覺。

圖源：Runway

第二個(gè)視頻的關(guān)鍵詞是“臉上有雀斑的紅發(fā)年輕人注視窗外”，最終呈現(xiàn)結(jié)果大家看看就好，能感覺Gen-2在努力營造光線在人物面部漸變的層次感，然而效果并不自然，人物臉上的雀斑沒識(shí)別到，脖子被胡須侵襲成了蛇皮狀，人物想眨眼又眨不了的樣子一言難盡。

圖源：Runway

生成了兩個(gè)視頻后，小雷實(shí)在體驗(yàn)不下去了，感覺Gen-2的水平還停留在2023年視頻生成模型剛出來的階段，與現(xiàn)在市面上其他視頻生成模型完全不在一個(gè)檔次上。無論是人物還是風(fēng)景，基于Gen-2生成視頻給人的最大感受就是不真實(shí)，也難怪Runway對(duì)Gen-3的描述是“巨大提升”。

體驗(yàn)完Gen-2這個(gè)上代旗艦，小雷才真正感受到Gen-3的強(qiáng)大。不與其他視頻生成模型比較，Runway在超越自己這件事上就已經(jīng)贏了。

小雷注意到不少網(wǎng)友可能是拿到了內(nèi)測資格，在網(wǎng)上分享自己的試用作品，視頻效果與官方展示視頻大體相同，因此大家也不用擔(dān)心未來Gen-3公開版本“縮水”的情況。不過在Gen-3真正上線前，大家還是得耐心等待。

視頻生成模型競爭，進(jìn)入加速階段

Runway成立于2018年，是國外一家在線視頻剪輯制作網(wǎng)站。團(tuán)隊(duì)起初積極將AI技術(shù)運(yùn)用到視頻處理中，開發(fā)了根據(jù)文本生成圖像、根據(jù)圖像生成風(fēng)格化變體、圖像延展外繪、根據(jù)文本生成 3D 貼圖紋理、視頻局部無損放大等功能，主要用于降低視頻創(chuàng)作的門檻，幫助人們輕松制作出內(nèi)容強(qiáng)大且富有創(chuàng)意的視頻內(nèi)容，這也為其接下來推出的文生視頻生成技術(shù)打下基礎(chǔ)。

Runway本次發(fā)布的第三代視頻生成模型Gen-3 Alpha，在官方公布視頻中的效果可以稱得上是驚艷。雖然不知道大規(guī)模運(yùn)用后的效果如何，但就目前來說，個(gè)人認(rèn)為已經(jīng)超越了Sora。而且Sora自從今年2月發(fā)布以來，至今仍無法公開使用，給其他視頻生成模型留下了充足的追趕時(shí)間。

事實(shí)上，就在Sora發(fā)布的那個(gè)月，國內(nèi)文生視頻領(lǐng)域便已開始升溫。清華大學(xué)公布的文生視頻專利、中國首部文生視頻AI動(dòng)畫片《千秋詩頌》播出、國內(nèi)首個(gè)音視頻多媒體大模型萬興“天幕”正式公測等國內(nèi)文生視頻成果，如雨后春筍般涌現(xiàn)。

近期，快手直接上線了可靈視頻生成大模型及可靈AI應(yīng)用，號(hào)稱第一個(gè)普通人也能用的文生視頻應(yīng)用。小雷受邀進(jìn)行了內(nèi)測體驗(yàn)，在視頻質(zhì)量上，雖然依舊無法徹底解決復(fù)雜交互情況下的物理規(guī)律難題，但作為面向普通用戶的免費(fèi)大模型應(yīng)用，小雷認(rèn)為沒有太多可挑剔的地方，畢竟這個(gè)瑕疵是整個(gè)行業(yè)都暫時(shí)無法解決的。

Sora暫時(shí)“擱淺”，其他文生視頻的不斷涌現(xiàn)，讓整個(gè)行業(yè)陷入前所未有的競爭格局，視頻生成領(lǐng)域正處于變革加速期。

據(jù)市場調(diào)研機(jī)構(gòu)Gartner研究預(yù)測，到2030年，預(yù)計(jì)人工智能將主導(dǎo)數(shù)字內(nèi)容的創(chuàng)造，占到總量的90%。根據(jù)預(yù)測，全球人工智能生成內(nèi)容（AIGC）的市場規(guī)模將從2022年的108億美元顯著增長，到2032年將達(dá)到1181億美元。

理想的市場預(yù)期大概率會(huì)催生更激烈的行業(yè)競爭，文生視頻下階段的競爭重點(diǎn)或許將圍繞落地應(yīng)用和商業(yè)化展開。越來越多企業(yè)把應(yīng)用和模型同步去做優(yōu)化、迭代，單一大模型的參數(shù)堆疊和技術(shù)提升已不再是大模型行業(yè)競爭的首要因素。

假如Sora一鴿再鴿，遲遲不推出落地應(yīng)用，前期積累的行業(yè)影響力恐怕只會(huì)為他人做嫁衣。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問，請(qǐng)聯(lián)系editor@cyzone.cn。