谷歌10秒視頻生成模型破世界記錄！LLM終結(jié)擴散模型，效果碾壓頂流Gen-2

新智元2023-12-21

谷歌全新視頻生成模型VideoPoet再次引領(lǐng)世界！十秒超長視頻生成效果碾壓Gen-2，還可進行音頻生成，風格轉(zhuǎn)化。

編者按：本文來自微信公眾號新智元（ID：AI_era），創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

AI視頻生成，或許就是2024年下一個最前沿（juan）的領(lǐng)域。

回看過去幾個月，RunWay的Gen-2、Pika Lab的Pika 1.0，國內(nèi)大廠等大波視頻生成模型紛紛涌現(xiàn)，不斷迭代升級。

這不，RunWay一大早就宣布Gen-2支持文本轉(zhuǎn)語音的功能了，可以為視頻創(chuàng)建畫外音。

當然，谷歌在視頻生成上也不甘落后，先是與斯坦福李飛飛團隊共同發(fā)布了W.A.L.T，用Transformer生成的逼真視頻引來大波關(guān)注。

今天，谷歌團隊又發(fā)布了一個全新的視頻生成模型VideoPoet，而且無需特定數(shù)據(jù)便可生成視頻。

論文地址：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最令人驚嘆的是，VideoPoet一次能夠生成10秒超長，且連貫大動作視頻，完全碾壓Gen-2僅有小幅動作的視頻生成。

另外，與突出模型不同的是，VideoPoet并非基于擴散模型，而是多模態(tài)大模型，便可擁有T2V、V2A等能力，或?qū)⒊蔀槲磥硪曨l生成的主流。

網(wǎng)友看后紛紛「震驚」刷屏。

不如，接下來可以先看一波體驗。

文字轉(zhuǎn)視頻

在文本到視頻的轉(zhuǎn)換中，生成的視頻長度是可變的，并且能夠根據(jù)文本內(nèi)容展現(xiàn)出多種動作和風格。

比如，熊貓打牌：

Two pandas playing cards

南瓜爆炸：

A pumpkin exploding, slow motion

宇航員策馬奔馳：

An astronaut riding a galloping horse

圖像轉(zhuǎn)視頻

VideoPoet還可以根據(jù)給定的提示，將輸入的圖像轉(zhuǎn)換成動畫。

左：一艘船在波濤洶涌的海面上航行，周圍是雷電交加的景象，以動態(tài)油畫風格呈現(xiàn)

中：飛過充滿閃爍星星的星云

右：一位拄著手杖的旅行者站在懸崖邊，凝視著風中翻騰的海霧

視頻風格化

對于視頻風格化，VideoPoet先預(yù)測光流和深度信息，然后再將額外的文本輸入到模型。

左：袋熊戴著墨鏡，在陽光明媚的海灘上拿著沙灘球

中：泰迪熊在清澈的冰面上滑冰

右：一只金屬獅子在熔爐的光芒下咆哮

從左到右：逼真，數(shù)字藝術(shù)，鉛筆藝術(shù)，水墨，雙重曝光，360度全景

視頻轉(zhuǎn)音頻

VideoPoet還能生成音頻。

如下，首先從模型中生成2秒鐘的動畫片段，然后在沒有任何文本引導(dǎo)的情況下嘗試預(yù)測音頻。這樣就能從一個模型中生成視頻和音頻。

，時長00:02

通常情況下，VideoPoet以縱向的方式生成視頻，以便與短片視頻的輸出相一致。

谷歌還專門做了一部由VideoPoet生成的許多短片組成的簡短電影。

具體文本比編排上，研究人員要求Bard先寫一個關(guān)于一只旅行浣熊的短篇故事，并附帶場景分解和提示列表。然后，為每個提示生成視頻片段，并將所有生成的片段拼接在一起，制作出下面的最終視頻。

，時長01:00

視頻講故事

通過隨時間變化的提示，可以創(chuàng)造視覺上的故事敘述。

輸入：一個由水構(gòu)成的行走的人

擴展：一個由水構(gòu)成的行走的人。背景中有閃電，同時從這個人身上散發(fā)出紫色的煙霧

輸入：兩只浣熊騎著摩托車在松樹環(huán)繞的山路上行駛，8k

擴展：兩只浣熊騎著摩托車。流星雨從浣熊身后墜落，撞擊地面并引發(fā)爆炸

LLM秒變視頻生成器

當前，Gen-2、Pika 1.0視屏生成的表現(xiàn)足以驚人，但是遺憾的是，無法在連貫大幅動作的視頻生成上表現(xiàn)驚艷。

通常，它們在產(chǎn)生較大動作時，視頻會出現(xiàn)明顯的偽影。

對此，谷歌研究人員提出了VideoPoet，能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風格化、視頻修復(fù)/擴展和視頻到音頻等多樣的視頻生成任務(wù)。

相比起其他模型，谷歌的方法是將多種視頻生成功能無縫集成到單一的大語言模型中，而不依賴針對各個任務(wù)分別訓(xùn)練的專用組件。

具體來說，VideoPoet主要包含以下幾個組件：

- 預(yù)訓(xùn)練的MAGVIT V2視頻tokenizer和SoundStream音頻tokenizer，能將不同長度的圖像、視頻和音頻剪輯轉(zhuǎn)換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語言模型兼容，便于與文本等其他模態(tài)進行結(jié)合。

- 自回歸語言模型可在視頻、圖像、音頻和文本之間進行跨模態(tài)學習，并以自回歸方式預(yù)測序列中下一個視頻或音頻token。

- 在大語言模型訓(xùn)練框架中引入了多種多模態(tài)生成學習目標，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復(fù)/擴展、視頻風格化和視頻到音頻等。此外，這些任務(wù)可以相互結(jié)合，實現(xiàn)額外的零樣本功能（例如，文本到音頻）。

VideoPoet能夠在各種以視頻為中心的輸入和輸出上進行多任務(wù)處理。其中，LLM可選擇將文本作為輸入，來指導(dǎo)文本到視頻、圖像到視頻、視頻到音頻、風格化和擴圖任務(wù)的生成

使用LLM進行訓(xùn)練的一個關(guān)鍵優(yōu)勢是，可以重用現(xiàn)有LLM訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴展的效率改進。

不過，LLM是在離散token上運行的，這可能會給視頻生成帶來挑戰(zhàn)。

幸運的是，視頻和音頻tokenizer，可以將視頻和音頻剪輯編碼為離散token序列（即整數(shù)索引），并可以將其轉(zhuǎn)換回原始表示。

VideoPoet訓(xùn)練一個自回歸語言模型，通過使用多個tokenizer（用于視頻和圖像的MAGVIT V2，用于音頻的SoundStream）來跨視頻、圖像、音頻和文本模態(tài)進行學習。

一旦模型根據(jù)上下文生成了token，就可以使用tokenizer解碼器將這些token轉(zhuǎn)換回可查看的表示形式。

VideoPoet任務(wù)設(shè)計：不同模態(tài)通過tokenizer編碼器和解碼器與token相互轉(zhuǎn)換。每個模態(tài)周圍都有邊界token，任務(wù)token表示要執(zhí)行的任務(wù)類型

三大優(yōu)勢

概括來說，VideoPoet比起Gen-2等視頻生成模型，具備以下三大優(yōu)勢。

更長的視頻

VideoPoet通過對視頻的最后1秒進行調(diào)節(jié)，并預(yù)測接下來的1秒，就可以生成更長的視頻。

通過反復(fù)循環(huán)，VideoPoet通不僅可以很好地擴展視頻，而且即使在多次迭代中，也能忠實地保留所有對象的外觀。

如下是VideoPoet從文本輸入生成長視頻的兩個示例：

左：宇航員在火星上跳舞，背景是五彩繽紛的煙花

右：無人機拍攝的叢林中一座非常尖銳的精靈石城，城中有一條湛藍的河流、瀑布和陡峭的垂直懸崖

相比于其他只能生成3-4秒視頻的模型，VideoPoet一次就可以生成長達10秒的視頻。

無人機拍攝的古堡秋景

精準的控制

視頻生成應(yīng)用一個非常重要的能力在于，對于生成的動態(tài)效果，用戶有多大的控制能力。

這將很大程度上決定了模型能否被用來制作復(fù)雜連貫的長視頻。

VideoPoet不但可以為輸入的圖像通過文字描述來添加動態(tài)效果，并通過文本提示來調(diào)整內(nèi)容，來達到預(yù)期的效果。

左：轉(zhuǎn)身看鏡頭；右：打哈欠

除了支持輸入圖像的視頻編輯，視頻輸入也可以通過文字進行精確控制。

針對最左邊的小浣熊跳舞視頻，用戶可以通過文字描述不同的舞姿來讓它跳不同的舞蹈。

生成「左」：跳機器人舞

生成「中」：跳Griddy舞

生成「右」：來一段Freestyle

同樣，還可以對VideoPoet生成的現(xiàn)有視頻片段，進行交互式編輯。

如果我們提供一個輸入視頻，就可以改變對象的運動來執(zhí)行不同的動作。對物體的操作可以以第一幀或中間幀為中心，從而實現(xiàn)高度的編輯控制。

比如，可以從輸入視頻中隨機生成一些片段，然后選擇所需的下一個片段。

如圖中最左邊的視頻被用作條件反射，在初始提示下生成四個視頻：

「一個可愛的銹跡斑斑的破舊蒸汽朋克機器人的特寫，機器人身上長滿了青苔和新芽，周圍是高高的草叢」。

對于前3個輸出，沒有提示動作的自主預(yù)測生成。最后一個視頻，是在提示中添加了「啟動，背景為煙霧」以引導(dǎo)動作生成。

運鏡的手法

VideoPoet還可以通過在文本提示中，附加所需的運鏡方式，來精確控制畫面的變化。

例如，研究人員通過模型生成了一幅圖像，提示為「冒險游戲概念圖，雪山日出，清澈河流」。下面的示例將給定的文本后綴添加到所需的動作中。

從左到右：拉遠、滑動變焦、向左平移、弧型運動鏡頭、搖臂拍攝、無人機航拍

評估結(jié)果

最后，VideoPoet在具體的實驗評測中的表現(xiàn)又如何呢？

為了確保評估的客觀性，谷歌研究人員在在各種提示上運行所有模型，并讓人們對其偏好進行評分。

下圖顯示了在以下問題中，VideoPoet被選為綠色首選項的百分比。

文本保真度：

文本保真度的用戶偏好評級，即在準確遵循提示方面首選視頻的百分比

動作趣味性：

用戶對動作趣味性的偏好評級，即在產(chǎn)生有趣的動作方面，首選視頻的百分比

綜上可見，平均有24-35%的人認為VideoPoet生成的示例比其他模型更加遵循提示，而其他模型的這一比例僅為8-11%。

此外，41%-54%的評估者認為VideoPoet中的示例動作更有趣，而其他模型只有11%-21%。

對于未來的研究方向，谷歌研究人員表示，VideoPoet框架將會實現(xiàn)「any-to-any」的生成，比如擴展文本到音頻、音頻到視頻，以及視頻字幕等等。

網(wǎng)友不禁發(fā)問，Runway和Pika能否抵擋住谷歌和OpenAI即將推出的文本到視頻創(chuàng)新技術(shù)？

參考資料：

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

本文（含圖片）為合作媒體授權(quán)創(chuàng)業(yè)邦轉(zhuǎn)載，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

免責申明

1.本平臺專注于提供資訊分享服務(wù)，所提供的資訊內(nèi)容僅代表作者個人觀點，不反映本平臺立場。

2.我們致力于確保所提供信息的準確性和及時性，但對信息的完整性、準確性、可靠性或適用性不做任何明示或暗示的保證。

3.用戶在使用本網(wǎng)站提供的信息時，請自行判斷并承擔相應(yīng)風險。本網(wǎng)站對用戶因使用或未能使用本網(wǎng)站而導(dǎo)致的任何直接、間接、附帶的損失或損害概不負責，包括但不限于利潤損失、商業(yè)中斷、信息丟失等。

4.免責申明可能隨時修改，恕不另行通知。請定期查閱以獲取最新信息。

相關(guān)專題

AI大模型

: 00后北大女學霸，帶領(lǐng)團隊打造3D生成模型，爆火海外
一張圖30秒高質(zhì)量轉(zhuǎn)3D，3D生成圈的一個開源模型Unique3D，爆火海外。該模型由一支來自清北的00后年輕初創(chuàng)團隊打造。
2024-06-27

: 再融8億，以色列退役軍挑戰(zhàn)英偉達
以色列退役軍人打造又一AI獨角獸！Hailo宣布再獲1.2億美元投資，并推出高性能生成式AI加速器Hailo-10。
2024-04-17

: 一鍵換臉，?AKOOL實現(xiàn)年化營收千萬美元
AI公司AKOOL推出了唱歌虛擬人工具，擁有豐富的AI換臉視覺表現(xiàn)技術(shù)以及成熟的聲音克隆技術(shù)。已突破百萬注冊用戶，服務(wù)多家世界500強企業(yè)，年化營收千萬美元。
2024-04-15

: “00后”團隊，3天上線一個AI產(chǎn)品，50天后被收購
“00后”團隊3天上線一個AI產(chǎn)品ChatMind，50天后被Xmind收購。年齡最小的團隊成員高中剛畢業(yè)
2024-03-13

提及AI應(yīng)用

Poe

Quora開發(fā)的多AI聊天機器人的聚合平臺

提及公司

: ee
面向女生的新一代場景社交
｜移動互聯(lián)網(wǎng)｜北京

: 當然
一個移動端的服飾社交電商
｜電子商務(wù)｜廣東

: LANG
活動交流平臺
｜文化娛樂｜浙江

: in
女性時尚圖片分享社交應(yīng)用，主打”我的生活in記“
｜社區(qū)社交｜浙江

提及投資機構(gòu)

: S.R
USD｜日本｜1986-06-01

: Google
USD｜美國｜1998-09-01

: 創(chuàng)業(yè)邦
OTHER｜北京｜2015-01-13

: DFC
USD｜哥倫比亞特區(qū)｜2019-01-01

: NSF
USD｜美國｜1944-01-01

關(guān)聯(lián)標簽

文娛科技

五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

谷歌10秒視頻生成模型破世界記錄！LLM終結(jié)擴散模型，效果碾壓頂流Gen-2