2 月 16 日凌晨,OpenAI 發(fā)布了自己的首個 AI 視頻生成模型 Sora。這是一個歷史性的里程碑,擴散模型結合Transformer,在視覺領域實現(xiàn)了與大語言模型類似的突破。毫無疑問,視覺生成領域將有一次大的技術和商業(yè)革命。
國內生成式人工智能初創(chuàng)公司 HiDream.ai 智象未來在成立之初即立下做國內最厲害的多模態(tài)視覺大模型的目標。在成立不到一年的時間,自研的“智象視覺大模型”已成為目前全球同時支持圖像和視頻生成的最大模型,模型參數(shù)已超過 130 億,實現(xiàn)文本、圖片、視頻等多模態(tài)內容的生成。
團隊在研究相關技術后也進行了相應的分析,本文將帶來 CTO 姚霆博士的技術解讀,以及我們對于 AI 生成視頻技術在影視級應用方面的思考與實踐。
智象未來 CTO 對 Sora 的技術解讀
作者:姚霆博士,智象未來聯(lián)合創(chuàng)始人兼 CTO
以下出現(xiàn)所有視頻均由 HiDream.ai 千象產品生成
在探討視頻生成技術革新之前,我更愿意去思考電影這一獨特的視頻藝術美學。在眾多關于電影本質的觀點與探討中,最讓我印象深刻是這些:
“電影是一種介于現(xiàn)實和夢幻之間的藝術形式。”
“電影是一種時間藝術,它捕捉了時間的流動和變化?!?/p>
“電影是一種視覺藝術,它利用圖像來講述故事和表達情感?!?/p>
從技術的角度可以對照著去解讀電影/視頻的本質:
它可以是介于現(xiàn)實和夢幻之間的一個新的世界(類似于盜夢空間的新的時空世界)
也可以是 2D 平面在時間維度的流動和變化(視頻幀的序列)

還可以說從靜態(tài)圖像出發(fā),依托故事和情感來驅動(靜態(tài)圖像加上對應的全局/局部運動)

目前主流的模型框架 Diffusion model 和 Auto-regressive model,恰好對應著前兩種視頻本質。Video Diffusion model 往往將視頻看作一個時空的網(wǎng)格世界,并用 3D 卷積神經網(wǎng)絡/Transformer 來進行編碼;Auto-regressive model 則將視頻理解為連續(xù)幀的序列,搭配 GPT 典型的自回歸模型來進行編碼。Diffusion model 基于擴散模型加噪去噪的機制可以更好地結構化并生成較高質量畫質的視頻內容,而 Auto-regressive model 更適合長上下文語境理解,天然適配多模態(tài)對話的生成方式。
AI 生成視頻,一個典型的技術流程是:利用 LLM 自動生成劇本來驅動視頻,提升故事邏輯性,加入全局/局部運動的控制,實現(xiàn)精細的全局運鏡和局部動作,最終結合圖像/視頻增強生成4K/8K的超高清視頻。
從視頻商業(yè)化路徑來看,故事邏輯性、視覺可控性與畫質高清是實現(xiàn)視頻產品落地最后一公里的三大要素,也是電影這一視覺藝術在用戶側最直擊內心的因素。
我們面向廣大創(chuàng)作者推出了 AI 生成圖片和視頻的工具——Pixeling 千象(www.hidreamai.com,千象萬相),幫助用戶一站式生成精準可控的圖片、視頻,經過視頻增強后生成的 4k 超清畫質,完美展現(xiàn)腦中靈感。非常多用戶使用千象制作完成了他們的“電影大片”,比如這位來自北京電影學院數(shù)字媒體專業(yè)的研一學生,用千象制作了《Savague Daughter》這部北歐童話短片,通過精美的畫面展現(xiàn)壯麗魔幻的風景,帶領觀眾攀登高山、穿越怒海、深入龍巢、翱翔天空;展現(xiàn)有些女孩生來即代表智慧與勇敢并存的化身。
接下來再談談最近當紅的Sora,很多人問我怎么看,我只能說是平面世界看(一個手機屏幕),甚至于還打著燈光看(因為是在北京時間半夜發(fā)布),這也對應著我的第一個觀點:
01Sora是一個 world simulator,是 2D 的平面世界在 1D 時間維度上的流動與變化。
實際上,我們真正的世界是一個 3D 的立體世界(2D 的平面世界+ 1D 深度),再疊加 1D 時間維度才是一個 4D 原生的世界模型。
從這個角度去看,Sora 可以說是 4D 原生世界的一個低階版本(去除了 1D 深度),當然也有很多人猜測Sora訓練數(shù)據(jù)里包含了3D渲染數(shù)據(jù),通過這樣一種 data-driven 的方式去模擬視頻中的 3D 視覺效果,這也可稱之為是對世界模型的模擬。
02Sora 的出現(xiàn)也會促使技術人員去重新思考視頻生成的設計邏輯。
已有的 Video Diffusion model 會有兩種設計理念:一種是 image-to-video,即先訓練一個文生圖模型,然后再訓練圖生成視頻模型;另一種是 joint-image-video,即文生圖、文生視頻的聯(lián)合訓練。而 Sora 的底層邏輯是 world simulator(2D 的平面世界+ 1D 時間維度),所以采取了 video-native 的設計理念,即將整個 2D 的平面世界+ 1D 時間維度編碼為時空模塊(space-time patches),這樣圖像作為單幀視頻很自然的加入模型的訓練,同時 Sora 模型訓練完成后可以無縫切換為圖像生成模型。
03為什么是 OpenAI 實現(xiàn)了 Sora?
在我看來 Sora 是 OpenAI 集成自己語言(GPT)、視覺理解(GPT4-V)和圖像生成(DALL-E)多種能力的一個出口。視頻作為一門更為靈動、更具表現(xiàn)力的藝術美學,有著獨特的時空魅力,成為多模態(tài)內容展現(xiàn)的一個絕佳載體。
智象未來,追趕同時打造自己的差異化
總結來說,Sora 的視頻生成技術架構本身并未有大的創(chuàng)新,還是Diffusion Transformer,這說明視頻 AIGC 技術架構尚未收斂。目前,智象未來團隊已經完成圖像 Diffusion Transformer 架構 130 億參數(shù)規(guī)模的訓練,計劃二月份推出重大迭代的圖像基礎模型(V3.0);同時,我們也在積極將這一技術遷移到視頻生成領域,預計三月底實現(xiàn)視頻基礎模型大幅升級(V2.0)。
智象未來的獨特之處在于我們對視頻生成過程中的關鍵要素——視覺故事性、內容確定性、超高清畫質(4K/8K)以及全局和局部的可控性——的專注。這些特性正是影視行業(yè)的核心需求,也是 Sora 乃至行業(yè)目前尚未實現(xiàn)的。我們預計在三月底的視頻模型將在一致性、生成時長和連貫性等方面帶來顯著提升,為用戶帶來更加絲滑、順暢的視頻生成體驗!
本文作者
姚霆,聯(lián)合創(chuàng)始人兼 CTO
姚霆博士是計算機視覺和多媒體領域的全球知名學者,他發(fā)表的論文被引用1.5萬余次,先后10余次獲得國際學術競賽冠軍,設計了視頻分析領域標準的3D卷積神經網(wǎng)絡Pseudo-3D Network,構建的業(yè)界首個大規(guī)模視頻文本數(shù)據(jù)集MSR-VTT被全球四百余研究機構的學者下載使用,并研發(fā)了多款全球數(shù)百萬日活用戶的商業(yè)產品,他曾任京東科技算法科學家和微軟研究院研究員。
姚博士獲評2022 年度中國圖象圖形學學會科技進步獎一等獎,2022 IEEE ICME Multimedia Star Innovator,2019 ACM SIGMM Rising Star,2019 IEEE TCMC Rising Star,并在多個國際學術組織中擔任重要職位。