編者按:本文來(lái)自微信公眾號(hào) 智能Pro(ID:zhinengpro),作者:大月亮,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
自從OpenAI公布了Sora,視頻生成領(lǐng)域正式按下了行業(yè)加速鍵,許多國(guó)內(nèi)外企業(yè)紛紛發(fā)力,不僅研究發(fā)布專門(mén)用于視頻生成的垂直大模型,還將手里的技術(shù)封裝成一個(gè)個(gè)人人能用的AIGC產(chǎn)品。
隨著新玩家數(shù)量的劇增,這場(chǎng)視頻生成領(lǐng)域的戰(zhàn)爭(zhēng)愈演愈烈,其中受到?jīng)_擊最大的自然是老牌同類(lèi)競(jìng)品模型,比如Pika、SDV、谷歌、Meta,還有在昨天發(fā)布了第三代視頻生成模型Gen-3 Alpha的Runway。
Gen-3很香,但你暫時(shí)用不了
Runway深夜發(fā)布的各種演示視頻展示出了電影級(jí)的畫(huà)面細(xì)節(jié),直接震驚了全體網(wǎng)友。Gen-3與之前的旗艦視頻模型Gen-2相比,在模型生產(chǎn)速度和保真度方面有了重大提升,同時(shí)對(duì)生成視頻的結(jié)構(gòu)、風(fēng)格和運(yùn)動(dòng)提供了細(xì)粒度的控制。
Runway表示,Gen-3 Alpha具有高保真視頻、精細(xì)動(dòng)作控制、逼真人物生成、多模態(tài)輸入、專業(yè)創(chuàng)作工具、增強(qiáng)安全、高質(zhì)量訓(xùn)練等特點(diǎn)。在這次模型的訓(xùn)練過(guò)程中,匯集了研究者、工程師和藝術(shù)家的集體智慧和努力。正是這種跨學(xué)科的協(xié)作精神,使得Gen-3 Alpha模型能夠理解和表達(dá)多種風(fēng)格和電影概念。
官方展示視頻時(shí)長(zhǎng)為10秒,人物生成中的人物面部細(xì)節(jié)和情感營(yíng)造方面比較細(xì)膩,場(chǎng)景、風(fēng)景生成中的元素、光影沒(méi)有太大的違和感。友情提示,以下展示內(nèi)容因?yàn)橐D(zhuǎn)換為GIF,所以畫(huà)質(zhì)均有不同程度壓縮,想看原視頻的朋友可以去Runway官網(wǎng)復(fù)習(xí)下。
女子乘坐車(chē)輛穿過(guò)明暗交替的街道,外部光源照射在面部的變化十分自然,車(chē)外穿梭的車(chē)輛也沒(méi)有出現(xiàn)斷層等違和場(chǎng)景。
圖源:Runway
男子似乎在類(lèi)似電影院的昏暗地方觀看影視作品,雙眼微紅、眼球轉(zhuǎn)動(dòng)、眨眼以及嘴部輕微抽動(dòng)等細(xì)節(jié)還原度非常高。
圖源:Runway
一間破舊的屋子,地面被魔法轉(zhuǎn)化成植物門(mén),植物在陽(yáng)光下隨風(fēng)飄揚(yáng),隨著鏡頭向前推進(jìn)展現(xiàn)更多細(xì)節(jié)。
一團(tuán)火焰漂浮半空,在街道游蕩,火焰細(xì)節(jié)明顯比其他元素要難掌握,邊緣有些飄忽,加上虛化背景上的人們也有滑行的動(dòng)作,這個(gè)視頻算是暴露了Gen-3的缺點(diǎn)。
圖源:Runway
接下來(lái)是本人最喜歡的一個(gè)視頻,電影級(jí)別的鏡頭推進(jìn)仿佛一下就將人們帶進(jìn)了宏大的異世界,如果小雷沒(méi)有記錯(cuò)的話,侏羅紀(jì)公園、金剛等電影經(jīng)常用這種鏡頭。鏡頭背景太廣,因此也不奢望能展示多少細(xì)節(jié),至少大體看上去沒(méi)發(fā)現(xiàn)什么瑕疵。
圖源:Runway
盡管大家看到基于Gen-3生成的短視頻都很激動(dòng),但還是得稍微冷靜冷靜,因?yàn)镽unway暫時(shí)不提供Gen-3的使用。預(yù)計(jì)還要再過(guò)幾天,它才會(huì)向Runway訂閱用戶開(kāi)放,包括企業(yè)客戶和Runway創(chuàng)意合作伙伴計(jì)劃中的創(chuàng)作者。
也就是說(shuō),普通用戶短時(shí)間內(nèi)還是無(wú)法使用Gen-3,只能用Gen-2解解饞。說(shuō)起來(lái),小雷還沒(méi)體驗(yàn)過(guò)Runway的視頻生成模型,Gen-2就Gen-2吧,通過(guò)對(duì)比看看Gen-3的升級(jí)幅度是不是真有那么大。
體驗(yàn)完Gen-2,我才明白Gen-3升級(jí)力度有多大
進(jìn)入生成界面,小雷立馬感受到了Runway與視頻生成產(chǎn)品的不同。用戶不僅可以采用“傻瓜式”一鍵輸入關(guān)鍵詞生成,還能對(duì)主體運(yùn)動(dòng)強(qiáng)度、相機(jī)控制、運(yùn)動(dòng)軌跡、等細(xì)節(jié)進(jìn)行微調(diào),至于風(fēng)格、縱橫比、清晰度也是標(biāo)配了。
圖源:Runway
但也有要強(qiáng)烈吐槽的地方,那就是視頻生成需要排隊(duì),用戶要么等待,要么只能選擇升級(jí)訂閱套餐,也就是付費(fèi)。小雷體驗(yàn)過(guò)這么多國(guó)內(nèi)外視頻生成大模型應(yīng)用,這是我第一次遇到這種情況。
圖源:Runway
這是小雷生成的第一個(gè)視頻,生成4s的視頻花了大概2分鐘,原本想生成一個(gè)CGI風(fēng)格的荒原視頻,但這效果直接給我來(lái)了一記重?fù)???催@個(gè)視頻時(shí)直接讓我想起了CS畫(huà)風(fēng),草叢“蠕動(dòng)”異常難看,視頻中所有房子的屋頂均有不同程度的頻閃,給人一種置身異次元空間的感覺(jué)。
圖源:Runway
第二個(gè)視頻的關(guān)鍵詞是“臉上有雀斑的紅發(fā)年輕人注視窗外”,最終呈現(xiàn)結(jié)果大家看看就好,能感覺(jué)Gen-2在努力營(yíng)造光線在人物面部漸變的層次感,然而效果并不自然,人物臉上的雀斑沒(méi)識(shí)別到,脖子被胡須侵襲成了蛇皮狀,人物想眨眼又眨不了的樣子一言難盡。
圖源:Runway
生成了兩個(gè)視頻后,小雷實(shí)在體驗(yàn)不下去了,感覺(jué)Gen-2的水平還停留在2023年視頻生成模型剛出來(lái)的階段,與現(xiàn)在市面上其他視頻生成模型完全不在一個(gè)檔次上。無(wú)論是人物還是風(fēng)景,基于Gen-2生成視頻給人的最大感受就是不真實(shí),也難怪Runway對(duì)Gen-3的描述是“巨大提升”。
體驗(yàn)完Gen-2這個(gè)上代旗艦,小雷才真正感受到Gen-3的強(qiáng)大。不與其他視頻生成模型比較,Runway在超越自己這件事上就已經(jīng)贏了。
小雷注意到不少網(wǎng)友可能是拿到了內(nèi)測(cè)資格,在網(wǎng)上分享自己的試用作品,視頻效果與官方展示視頻大體相同,因此大家也不用擔(dān)心未來(lái)Gen-3公開(kāi)版本“縮水”的情況。不過(guò)在Gen-3真正上線前,大家還是得耐心等待。
視頻生成模型競(jìng)爭(zhēng),進(jìn)入加速階段
Runway成立于2018年,是國(guó)外一家在線視頻剪輯制作網(wǎng)站。團(tuán)隊(duì)起初積極將AI技術(shù)運(yùn)用到視頻處理中,開(kāi)發(fā)了根據(jù)文本生成圖像、根據(jù)圖像生成風(fēng)格化變體、圖像延展外繪、根據(jù)文本生成 3D 貼圖紋理、視頻局部無(wú)損放大等功能,主要用于降低視頻創(chuàng)作的門(mén)檻,幫助人們輕松制作出內(nèi)容強(qiáng)大且富有創(chuàng)意的視頻內(nèi)容,這也為其接下來(lái)推出的文生視頻生成技術(shù)打下基礎(chǔ)。
Runway本次發(fā)布的第三代視頻生成模型Gen-3 Alpha,在官方公布視頻中的效果可以稱得上是驚艷。雖然不知道大規(guī)模運(yùn)用后的效果如何,但就目前來(lái)說(shuō),個(gè)人認(rèn)為已經(jīng)超越了Sora。而且Sora自從今年2月發(fā)布以來(lái),至今仍無(wú)法公開(kāi)使用,給其他視頻生成模型留下了充足的追趕時(shí)間。
事實(shí)上,就在Sora發(fā)布的那個(gè)月,國(guó)內(nèi)文生視頻領(lǐng)域便已開(kāi)始升溫。清華大學(xué)公布的文生視頻專利、中國(guó)首部文生視頻AI動(dòng)畫(huà)片《千秋詩(shī)頌》播出、國(guó)內(nèi)首個(gè)音視頻多媒體大模型萬(wàn)興“天幕”正式公測(cè)等國(guó)內(nèi)文生視頻成果,如雨后春筍般涌現(xiàn)。
近期,快手直接上線了可靈視頻生成大模型及可靈AI應(yīng)用,號(hào)稱第一個(gè)普通人也能用的文生視頻應(yīng)用。小雷受邀進(jìn)行了內(nèi)測(cè)體驗(yàn),在視頻質(zhì)量上,雖然依舊無(wú)法徹底解決復(fù)雜交互情況下的物理規(guī)律難題,但作為面向普通用戶的免費(fèi)大模型應(yīng)用,小雷認(rèn)為沒(méi)有太多可挑剔的地方,畢竟這個(gè)瑕疵是整個(gè)行業(yè)都暫時(shí)無(wú)法解決的。
Sora暫時(shí)“擱淺”,其他文生視頻的不斷涌現(xiàn),讓整個(gè)行業(yè)陷入前所未有的競(jìng)爭(zhēng)格局,視頻生成領(lǐng)域正處于變革加速期。
據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Gartner研究預(yù)測(cè),到2030年,預(yù)計(jì)人工智能將主導(dǎo)數(shù)字內(nèi)容的創(chuàng)造,占到總量的90%。根據(jù)預(yù)測(cè),全球人工智能生成內(nèi)容(AIGC)的市場(chǎng)規(guī)模將從2022年的108億美元顯著增長(zhǎng),到2032年將達(dá)到1181億美元。
理想的市場(chǎng)預(yù)期大概率會(huì)催生更激烈的行業(yè)競(jìng)爭(zhēng),文生視頻下階段的競(jìng)爭(zhēng)重點(diǎn)或許將圍繞落地應(yīng)用和商業(yè)化展開(kāi)。越來(lái)越多企業(yè)把應(yīng)用和模型同步去做優(yōu)化、迭代,單一大模型的參數(shù)堆疊和技術(shù)提升已不再是大模型行業(yè)競(jìng)爭(zhēng)的首要因素。
假如Sora一鴿再鴿,遲遲不推出落地應(yīng)用,前期積累的行業(yè)影響力恐怕只會(huì)為他人做嫁衣。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。