五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

Meta給了OpenAI一記重擊:視頻生成Movie Gen登場,甚至可以配音、編輯

關注
Meta 突襲!

編者按:本文來自微信公眾號 機器之心(ID:almosthuman2014),創(chuàng)業(yè)邦經授權轉載。

在 OpenAI Sora 難產的時候,Meta 首次公開展示了自家的「用于媒體的突破性生成式 AI 研究」:Meta Movie Gen。

Meta 在相應博客中使用了「premiere」一詞,也就是初次展示,因此手癢的用戶可能還得再等上一段時間。

Meta 表示:「無論是希望在好萊塢大展身手的電影制作人,還是愛好為觀眾制作視頻的創(chuàng)作者,我們相信每個人都應該有機會使用有助于提高創(chuàng)造力的工具?!?/p>

根據 Meta 的描述,Movie Gen 的功能包括:文本生成視頻和音頻、編輯已有視頻、圖片生視頻。并且人類評估表明,Movie Gen 在這些任務上的表現均優(yōu)于行業(yè)內類似模型。

具體的效果如何,我們先來看幾個示例。

可以看到,小女孩在奔跑的過程中衣服的褶皺就已經吊打很多視頻生成應用了。

prompt:一個女孩正在海灘上奔跑,手里拿著一只風箏。她穿著牛仔短褲和黃色 T 恤,陽光灑在她身上。

在轉頭、正視前方、微笑的幾個動作中,人物面部依然可以保持穩(wěn)定狀態(tài),克服了形變。怪不得 Meta 在博客中還談到,這是能夠用來分享日常生活的可貴技術。

prompt:一名女子正坐在南瓜田的草地上。她圍著圍巾,手里拿著一個杯子。背景中是一排排南瓜。

生成動物對 Movie Gen 來說也是小菜一碟。動物的毛發(fā)、動作都十分逼真。仔細看這只猴子的尾巴,在遮擋后依然能夠遵循遮擋前的運動軌跡。背景生成結果也十分貼合 prompt。水面的波動、倒映都栩栩如生。不過水下折射的生成效果看起來還有些進步空間。

prompt:一只紅臉白毛的猴子正在天然溫泉中沐浴。猴子在玩水面上的一艘微型帆船,這艘帆船由木頭制成,配有白色的帆和小舵。溫泉周圍環(huán)繞著郁郁蔥蔥的綠植,有巖石和樹木點綴其間。

視頻時間長一些,Movie Gen 也能有穩(wěn)定的表現。人物大幅度動作的展現也比較逼真。但每一幀定格下來,還會有些瑕疵。不過這是視頻生成一貫的難題,Meta 或許會在未來進行改進。

prompt:鏡頭位于一名男子的身后。男子赤裸上身,腰間系著綠色布料,赤腳站立。他的雙手各持一個燃燒的物體,做出大幅度的圓周動作。背景是一片平靜的海面,火舞營造出迷人的氛圍。

Sora 剛剛問世時,往往還需要 Elevenlabs 這樣的音頻生成應用來輔助。而 Movie Gen 顯然更加便捷,除了視頻生成,配備相應的音樂、音效也是拿手好戲。

面對一整個視頻的場景,合適的背景音樂能夠貫穿全程。不僅如此,音效的適配度也很高。這個瀑布傾瀉的水聲就十分逼真。

prompt:雨水傾瀉在懸崖和人身上,有背景音樂。

更讓人驚訝的是,音效還能夠精準地與視頻內容匹配。它能夠通過視頻中的動作節(jié)點來把握音效出現的時機,讓畫面和聲音相輔相成,給我們呈現出完整的生成效果。

prompt:車輪飛速旋轉,滑板落在水泥地上發(fā)出砰的一聲。

無論是視頻,還是音頻 Movie Gen 看起來都表現優(yōu)異。

如果 Meta 所言非虛,那么 Movie Gen 也真算得上是目前最先進和最沉浸式的「講故事模型套件(storytelling suite of models)」。

Meta 表示訓練使用的數據集都是公開數據集或已獲得授權的數據集。下面將簡要介紹各項能力以及背后的技術,更多詳情請參閱原論文。

  • 論文名稱:MovieGen: A Cast of Media Foundation Models

  • 論文鏈接:https://ai.meta.com/static-resource/movie-gen-research-paper

  • 更多演示:https://ai.meta.com/research/movie-gen/

Meta 在博客中簡單回顧了自己的視頻生成之旅。他們的第一波生成式 AI 研究始于 Make-A-Scene 系列模型,這些模型可以生成圖像、音頻、視頻和 3D 動畫。

隨著擴散模型的出現,他們又基于 Llama 基礎模型做出了第二波研究,成功實現了更高質量的圖像和視頻生成以及圖像編輯。

Movie Gen 則是 Meta 的第三波研究。他們將以上所有模態(tài)都組合到了一起,并能以前所未有的方式為用戶提供進一步的細粒度控制。

下面詳細介紹 Movie Gen 的各項能力。

視頻生成

給定文本提示詞,Movie Gen 會使用一個針對文生圖和文生視頻任務優(yōu)化過的聯(lián)合模型來創(chuàng)建高質量和高清晰度的圖像和視頻。這個 30B 參數的 Transformer 模型有能力生成長度最多 16 秒幀率為 16 FPS 的視頻。Meta 表示還發(fā)現這些模型可以推理物體運動、主客體交互和相機運動,并且它們還能學習各種概念的合理運動 —— 這也使它們成為了同類中的 SOTA 模型。

具體流程如下圖所示,他們先通過一個時間自動編碼器模型(TAE)訓練了一個時空壓縮的隱空間,然后再基于此訓練了一個生成模型。

模型架構上,他們采用了 Transformer,整體位于 Llama 3 的設計空間中。下表展示了其 30B 參數基礎模型的各個超參數。值得注意的是,這里的 30B 參數指的是 Transformer 本身的參數量,并不包含文本嵌入模型、TAE 等。

為了訓練這個模型,Meta 使用了多達 6144 臺 H100 GPU,每一臺的熱設計功耗為 700W,并且都配備了 80GB 的 HBM3。

下圖展示了 Movie Gen Transformer 骨干網絡的整體結構以及所使用的模型并行化機制。具體來說包括張量并行化(TP))、序列并行化(SP)、上下文并行化(CP)和全共享式數據并行(FSDP)。

訓練流程上,他們采用了一種多階段訓練方法,該方法分為三個階段:

  • 在文生圖(T2I)任務上進行初始訓練,之后再在文生圖和文生視頻(T2V)任務上進行聯(lián)合訓練;

  • 逐步從低分辨率 256 像素的數據擴展成 768 像素的高分辨率數據;

  • 在計算和時間限制上,使用改進過的數據集和已優(yōu)化的訓練方法進行持續(xù)訓練。

之后自然也會執(zhí)行微調。

而在推理階段,Meta 的一個創(chuàng)新思路是首先使用 Llama 3 對用戶輸入的提示詞進行重寫,將其擴展成更加詳細的版本。實踐表明該方法確實有助于提升生成結果的質量。此外,Meta 還在提升推理效率方面引入了一些新思路。

效果上,下表展示了 Movie Gen Video 模型與之前相關研究的勝率情況。注意這里的數值是 Movie Gen 的獲勝百分比減去落敗百分比,因此可知 Movie Gen 的整體表現勝過之前的模型。

個性化視頻

基于上述基礎模型,Meta 還開發(fā)出了個性化視頻功能。用戶只需提供人物圖像輸入和對應的文本提示詞,就能生成包含該人物以及文本描述的細節(jié)的視頻。Meta 表示 Movie Gen 生成的個性化視頻在保留人類身份和運動方面做到了 SOTA。

下圖展示了個性化 Movie Gen Video 模型(PT2V)的架構和推理流程。

具體來說,首先使用 Movie Gen Video 模型的權重對該模型進行初始化,然后添加額外的可學習參數來基于參考圖像實現條件化編輯。

訓練過程先是進行預訓練(分為身份注入、長視頻生成、提升自然度三個階段),然后執(zhí)行監(jiān)督式微調。

結果上看,在經過微調之后,PT2V 模型在身份和人臉一致性上的表現都相當卓越。

下圖展示了兩個與 ID-Animator 的對比示例:

精確的視頻編輯

還是基于同樣的基礎模型,Meta 也做出了視頻編輯功能,并且可以做到非常精確的編輯 —— 可僅操作相關像素!具體來說,給定一段視頻和文本提示詞,模型可以生成符合要求的經過修改的輸出,其中包括一些非常高階的編輯功能,比如添加、移除和替換元素,修改背景和風格等全局要素。

如果后面實際效果真如 Meta 描述那么好,那么這項功能可能會成為一大利器。

為了做到這一點,Meta 團隊同樣采用了一種多階段方法:首先執(zhí)行單幀編輯,然后進行多幀編輯,之后再整體編輯視頻。

為此,他們對前述的視頻生成模型進行了一番修改。首先,通過向圖塊嵌入工具添加額外的輸入通道而實現了對輸入視頻的調節(jié),從而可沿通道維度將隱含的視頻輸入與有噪聲的輸出隱視頻連接起來,并將連接后的隱視頻提供給模型。

此外,按照 Emu Edit 的做法,他們還加入了對特定編輯任務(例如添加對象、更改背景等)的支持。具體來說,該模型會對每個任務學習一個任務嵌入向量。對于給定的任務,模型對相應的任務嵌入應用線性變換,產生四個嵌入,這些嵌入與文本編碼器的隱藏表示連接在一起。我們還對任務嵌入應用了第二個線性變換,并將得到的向量添加到時間步嵌入中。另外,為了完全保留模型的視頻生成功能,他們將所有新添加的權重設置為零,并基于預訓練的文生視頻模型初始化剩余的權重。

該方法的效果非常顯著,在兩個數據集上的人類和自動評估結果基本都優(yōu)于其它對比方法。順帶一提,Movie Gen Edit Bench 是 Meta 提出的一個新基準,用于評估「下一代視頻編輯模型的視頻編輯能力」。

音頻生成

此外,他們還訓練了一個 13B 參數的音頻生成模型 Movie Gen Audio。該模型可以基于視頻和可選的文本提示詞生成長達 45 秒的高質量高保真音頻,包括環(huán)境聲音、音效(Foley)和背景音樂 —— 所有這些都與視頻內容同步。

下面是 Movie Gen Audio 的模型示意圖,可以看到其采用了基于流匹配(flow-matching 生成模型和擴散 Transformer(DiT)的模型架構。此外,還添加了一些條件化模塊來實現對模型的控制。

此外,他們還提出了一種音頻擴展技術,可以為任意長度的視頻生成連貫的音頻。下面是該技術的示意圖。其目標是一次生成 30 秒長度的音頻,然后利用該擴展延展至任意長度。

總體而言,他們在音頻質量、視頻到音頻對齊和文本到音頻對齊方面實現了 SOTA。

結語

Meta 在架構、訓練目標、數據處理方法、評估協(xié)議和推理優(yōu)化等多個技術方面做出了創(chuàng)新突破。下圖展示了 Movie Gen 四項能力的人類 A/B 評估對比結果。正凈勝率表示人類相較于其他行業(yè)模型,更加偏愛 Movie Gen。

Meta 這一次展示自己在視頻生成方面的研究成果確實出人意料,這也使其成為了這片越來越擁擠的戰(zhàn)場的又一強力競爭者,并且我們也還不清楚 Meta 是否會像發(fā)布 Llama 系列模型那樣完全免費發(fā)布 Movie Gen,讓自己在真?OpenAI 之路上繼續(xù)前進。總之,網友們已經在期待了。

最后,例行慣例,還是得向 OpenAI 問一句:Sora?

本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表,版權歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。


反饋
聯(lián)系我們
推薦訂閱