2 月 16 日凌晨,OpenAI 發(fā)布了自己的首個(gè) AI 視頻生成模型 Sora。這是一個(gè)歷史性的里程碑,擴(kuò)散模型結(jié)合Transformer,在視覺(jué)領(lǐng)域?qū)崿F(xiàn)了與大語(yǔ)言模型類(lèi)似的突破。毫無(wú)疑問(wèn),視覺(jué)生成領(lǐng)域?qū)⒂幸淮未蟮募夹g(shù)和商業(yè)革命。
國(guó)內(nèi)生成式人工智能初創(chuàng)公司 HiDream.ai 智象未來(lái)在成立之初即立下做國(guó)內(nèi)最厲害的多模態(tài)視覺(jué)大模型的目標(biāo)。在成立不到一年的時(shí)間,自研的“智象視覺(jué)大模型”已成為目前全球同時(shí)支持圖像和視頻生成的最大模型,模型參數(shù)已超過(guò) 130 億,實(shí)現(xiàn)文本、圖片、視頻等多模態(tài)內(nèi)容的生成。
團(tuán)隊(duì)在研究相關(guān)技術(shù)后也進(jìn)行了相應(yīng)的分析,本文將帶來(lái) CTO 姚霆博士的技術(shù)解讀,以及我們對(duì)于 AI 生成視頻技術(shù)在影視級(jí)應(yīng)用方面的思考與實(shí)踐。
智象未來(lái) CTO 對(duì) Sora 的技術(shù)解讀
作者:姚霆博士,智象未來(lái)聯(lián)合創(chuàng)始人兼 CTO
以下出現(xiàn)所有視頻均由 HiDream.ai 千象產(chǎn)品生成
在探討視頻生成技術(shù)革新之前,我更愿意去思考電影這一獨(dú)特的視頻藝術(shù)美學(xué)。在眾多關(guān)于電影本質(zhì)的觀點(diǎn)與探討中,最讓我印象深刻是這些:
“電影是一種介于現(xiàn)實(shí)和夢(mèng)幻之間的藝術(shù)形式?!?/p>
“電影是一種時(shí)間藝術(shù),它捕捉了時(shí)間的流動(dòng)和變化。”
“電影是一種視覺(jué)藝術(shù),它利用圖像來(lái)講述故事和表達(dá)情感?!?/p>
從技術(shù)的角度可以對(duì)照著去解讀電影/視頻的本質(zhì):
它可以是介于現(xiàn)實(shí)和夢(mèng)幻之間的一個(gè)新的世界(類(lèi)似于盜夢(mèng)空間的新的時(shí)空世界)
也可以是 2D 平面在時(shí)間維度的流動(dòng)和變化(視頻幀的序列)

還可以說(shuō)從靜態(tài)圖像出發(fā),依托故事和情感來(lái)驅(qū)動(dòng)(靜態(tài)圖像加上對(duì)應(yīng)的全局/局部運(yùn)動(dòng))

目前主流的模型框架 Diffusion model 和 Auto-regressive model,恰好對(duì)應(yīng)著前兩種視頻本質(zhì)。Video Diffusion model 往往將視頻看作一個(gè)時(shí)空的網(wǎng)格世界,并用 3D 卷積神經(jīng)網(wǎng)絡(luò)/Transformer 來(lái)進(jìn)行編碼;Auto-regressive model 則將視頻理解為連續(xù)幀的序列,搭配 GPT 典型的自回歸模型來(lái)進(jìn)行編碼。Diffusion model 基于擴(kuò)散模型加噪去噪的機(jī)制可以更好地結(jié)構(gòu)化并生成較高質(zhì)量畫(huà)質(zhì)的視頻內(nèi)容,而 Auto-regressive model 更適合長(zhǎng)上下文語(yǔ)境理解,天然適配多模態(tài)對(duì)話的生成方式。
AI 生成視頻,一個(gè)典型的技術(shù)流程是:利用 LLM 自動(dòng)生成劇本來(lái)驅(qū)動(dòng)視頻,提升故事邏輯性,加入全局/局部運(yùn)動(dòng)的控制,實(shí)現(xiàn)精細(xì)的全局運(yùn)鏡和局部動(dòng)作,最終結(jié)合圖像/視頻增強(qiáng)生成4K/8K的超高清視頻。
從視頻商業(yè)化路徑來(lái)看,故事邏輯性、視覺(jué)可控性與畫(huà)質(zhì)高清是實(shí)現(xiàn)視頻產(chǎn)品落地最后一公里的三大要素,也是電影這一視覺(jué)藝術(shù)在用戶側(cè)最直擊內(nèi)心的因素。
我們面向廣大創(chuàng)作者推出了 AI 生成圖片和視頻的工具——Pixeling 千象(www.hidreamai.com,千象萬(wàn)相),幫助用戶一站式生成精準(zhǔn)可控的圖片、視頻,經(jīng)過(guò)視頻增強(qiáng)后生成的 4k 超清畫(huà)質(zhì),完美展現(xiàn)腦中靈感。非常多用戶使用千象制作完成了他們的“電影大片”,比如這位來(lái)自北京電影學(xué)院數(shù)字媒體專業(yè)的研一學(xué)生,用千象制作了《Savague Daughter》這部北歐童話短片,通過(guò)精美的畫(huà)面展現(xiàn)壯麗魔幻的風(fēng)景,帶領(lǐng)觀眾攀登高山、穿越怒海、深入龍巢、翱翔天空;展現(xiàn)有些女孩生來(lái)即代表智慧與勇敢并存的化身。
接下來(lái)再談?wù)勛罱?dāng)紅的Sora,很多人問(wèn)我怎么看,我只能說(shuō)是平面世界看(一個(gè)手機(jī)屏幕),甚至于還打著燈光看(因?yàn)槭窃诒本r(shí)間半夜發(fā)布),這也對(duì)應(yīng)著我的第一個(gè)觀點(diǎn):
01Sora是一個(gè) world simulator,是 2D 的平面世界在 1D 時(shí)間維度上的流動(dòng)與變化。
實(shí)際上,我們真正的世界是一個(gè) 3D 的立體世界(2D 的平面世界+ 1D 深度),再疊加 1D 時(shí)間維度才是一個(gè) 4D 原生的世界模型。
從這個(gè)角度去看,Sora 可以說(shuō)是 4D 原生世界的一個(gè)低階版本(去除了 1D 深度),當(dāng)然也有很多人猜測(cè)Sora訓(xùn)練數(shù)據(jù)里包含了3D渲染數(shù)據(jù),通過(guò)這樣一種 data-driven 的方式去模擬視頻中的 3D 視覺(jué)效果,這也可稱之為是對(duì)世界模型的模擬。
02Sora 的出現(xiàn)也會(huì)促使技術(shù)人員去重新思考視頻生成的設(shè)計(jì)邏輯。
已有的 Video Diffusion model 會(huì)有兩種設(shè)計(jì)理念:一種是 image-to-video,即先訓(xùn)練一個(gè)文生圖模型,然后再訓(xùn)練圖生成視頻模型;另一種是 joint-image-video,即文生圖、文生視頻的聯(lián)合訓(xùn)練。而 Sora 的底層邏輯是 world simulator(2D 的平面世界+ 1D 時(shí)間維度),所以采取了 video-native 的設(shè)計(jì)理念,即將整個(gè) 2D 的平面世界+ 1D 時(shí)間維度編碼為時(shí)空模塊(space-time patches),這樣圖像作為單幀視頻很自然的加入模型的訓(xùn)練,同時(shí) Sora 模型訓(xùn)練完成后可以無(wú)縫切換為圖像生成模型。
03為什么是 OpenAI 實(shí)現(xiàn)了 Sora?
在我看來(lái) Sora 是 OpenAI 集成自己語(yǔ)言(GPT)、視覺(jué)理解(GPT4-V)和圖像生成(DALL-E)多種能力的一個(gè)出口。視頻作為一門(mén)更為靈動(dòng)、更具表現(xiàn)力的藝術(shù)美學(xué),有著獨(dú)特的時(shí)空魅力,成為多模態(tài)內(nèi)容展現(xiàn)的一個(gè)絕佳載體。
智象未來(lái),追趕同時(shí)打造自己的差異化
總結(jié)來(lái)說(shuō),Sora 的視頻生成技術(shù)架構(gòu)本身并未有大的創(chuàng)新,還是Diffusion Transformer,這說(shuō)明視頻 AIGC 技術(shù)架構(gòu)尚未收斂。目前,智象未來(lái)團(tuán)隊(duì)已經(jīng)完成圖像 Diffusion Transformer 架構(gòu) 130 億參數(shù)規(guī)模的訓(xùn)練,計(jì)劃二月份推出重大迭代的圖像基礎(chǔ)模型(V3.0);同時(shí),我們也在積極將這一技術(shù)遷移到視頻生成領(lǐng)域,預(yù)計(jì)三月底實(shí)現(xiàn)視頻基礎(chǔ)模型大幅升級(jí)(V2.0)。
智象未來(lái)的獨(dú)特之處在于我們對(duì)視頻生成過(guò)程中的關(guān)鍵要素——視覺(jué)故事性、內(nèi)容確定性、超高清畫(huà)質(zhì)(4K/8K)以及全局和局部的可控性——的專注。這些特性正是影視行業(yè)的核心需求,也是 Sora 乃至行業(yè)目前尚未實(shí)現(xiàn)的。我們預(yù)計(jì)在三月底的視頻模型將在一致性、生成時(shí)長(zhǎng)和連貫性等方面帶來(lái)顯著提升,為用戶帶來(lái)更加絲滑、順暢的視頻生成體驗(yàn)!
本文作者
姚霆,聯(lián)合創(chuàng)始人兼 CTO
姚霆博士是計(jì)算機(jī)視覺(jué)和多媒體領(lǐng)域的全球知名學(xué)者,他發(fā)表的論文被引用1.5萬(wàn)余次,先后10余次獲得國(guó)際學(xué)術(shù)競(jìng)賽冠軍,設(shè)計(jì)了視頻分析領(lǐng)域標(biāo)準(zhǔn)的3D卷積神經(jīng)網(wǎng)絡(luò)Pseudo-3D Network,構(gòu)建的業(yè)界首個(gè)大規(guī)模視頻文本數(shù)據(jù)集MSR-VTT被全球四百余研究機(jī)構(gòu)的學(xué)者下載使用,并研發(fā)了多款全球數(shù)百萬(wàn)日活用戶的商業(yè)產(chǎn)品,他曾任京東科技算法科學(xué)家和微軟研究院研究員。
姚博士獲評(píng)2022 年度中國(guó)圖象圖形學(xué)學(xué)會(huì)科技進(jìn)步獎(jiǎng)一等獎(jiǎng),2022 IEEE ICME Multimedia Star Innovator,2019 ACM SIGMM Rising Star,2019 IEEE TCMC Rising Star,并在多個(gè)國(guó)際學(xué)術(shù)組織中擔(dān)任重要職位。