作者|賈桂鵬
如果現(xiàn)在還不知道Pika Labs,那么你可能就已經(jīng)OUT了。因?yàn)椋@家僅成立半年的AI初創(chuàng)公司已經(jīng)成為硅谷資本的“新寵”。
我們看到,在Pika Labs背后的投資人陣容堪稱豪華,比如OpenAI兩位創(chuàng)始成員Adam D'Angelo、Andrej Karpathy,前Github CEO Nat Friedman,HuggingFace創(chuàng)始人Clem Delange,Giphy聯(lián)合創(chuàng)始人Alex Chung,YC合伙人Daniel Gross等,要知道,這幾乎是硅谷AI行業(yè)的半壁江山。
其實(shí),Pika Labs的走紅并不讓人意外,這家公司身上貼滿了“富二代”、“美女創(chuàng)始人”、“學(xué)霸創(chuàng)業(yè)”等一個(gè)比一個(gè)吸引眼球的“標(biāo)簽”。但這些網(wǎng)紅般的“標(biāo)簽”是Pika Labs成功的秘訣嗎?
成立半年,公司僅四人,卻引爆硅谷
在談?wù)揚(yáng)ika Labs的時(shí)候,繞不開(kāi)95后女孩郭文景。
資料顯示,郭文景母親是麻省理工畢業(yè)高材生,而父親則是浙江首家在國(guó)內(nèi)主板上市的軟件公司信雅達(dá)科技實(shí)控人郭華強(qiáng),顯然,郭文景手拿的是妥妥“富二代”劇本。
但在這樣背景下,也掩蓋不住郭文景資歷的強(qiáng)悍,她是浙江當(dāng)屆第一個(gè)被哈佛本科提前錄取的學(xué)生,進(jìn)入哈佛后,郭文景一邊攻讀學(xué)業(yè),一邊去Meta、微軟、谷歌大腦、Epic Games等公司實(shí)習(xí),在拿到計(jì)算機(jī)碩士和數(shù)學(xué)本科學(xué)位后,她又來(lái)到斯坦福大學(xué)讀博。
而正是到斯坦福大學(xué)讀博的經(jīng)歷,讓郭文景遇到了之后與他一起創(chuàng)業(yè)的孟晨琳(Chenlin Meng),今年4月,兩人雙雙從斯坦福大學(xué)退學(xué)創(chuàng)業(yè)成立了Pika labs,僅僅在半年后,Pika labs就震驚了全世界。
Pika labs創(chuàng)始人郭文景(左)和聯(lián)合創(chuàng)始人兼CTO孟晨琳。
11月29日,Pika labs官宣了最新的視頻生成模型Pika1.0,Pika1.0能夠生成和編輯3D動(dòng)畫(huà)、動(dòng)漫、卡通和電影。幾乎不需要任何門(mén)檻,用戶只需要輸入一句話,就可以生成想要的各種風(fēng)格的視頻。
在宣傳片中,Pika1.0擁有強(qiáng)大的語(yǔ)義理解能力,輸入“馬斯克穿著太空服,3D動(dòng)畫(huà)”的關(guān)鍵詞,一個(gè)身穿太空服的卡通馬斯克便出現(xiàn)了,身后還有SpaceX的火箭。文生視頻的清晰度和連貫性,遠(yuǎn)超市面上其他AI視頻生成產(chǎn)品。正是這個(gè)宣傳片讓Pika“點(diǎn)燃”了硅谷。
(宣傳片動(dòng)圖)
其實(shí)在11月3日,Pika labs就出現(xiàn)在了大眾面前。在《流浪地球3》的發(fā)布會(huì)上,工業(yè)化實(shí)驗(yàn)室G!Lab官宣成立,戰(zhàn)略合作伙伴包括華為、小米、商湯等,共同探索用AI技術(shù)打造電影工業(yè)化3.0。而戰(zhàn)略合作伙伴名單中,緊挨商湯,第二排居中的就是Pika Labs。消息稱,郭帆導(dǎo)演10月從美國(guó)考察回來(lái)后,稱贊Pika對(duì)AI視頻的研究非常超前。
至今,Pika labs已經(jīng)完成了三輪融資,總金額5500萬(wàn)美元,估值超10億元人民幣。
Pika labs的走紅,代表著時(shí)下日新月異的AIGC市場(chǎng)再次泛出了新鮮的漣漪。與此同時(shí),很多人發(fā)出疑問(wèn),為什么這家僅成立半年、僅四人的公司能被資本熱捧呢?
撥開(kāi)“明星”外衣,AI生成視頻價(jià)值幾何?
在今年ChatGPT掀起的人工智能大模型熱潮中,基于語(yǔ)言大模型的聊天機(jī)器人成為最熱門(mén)創(chuàng)業(yè)方向;而在泛內(nèi)容生成類(lèi)AI應(yīng)用中,圖像生成是最主要的場(chǎng)景,其次是寫(xiě)作工具、視頻生成工具。
相較于語(yǔ)言模型,AI生成視頻是完全不同的一類(lèi)模型。其與AI生成圖片的模型有共通之處,但難度更高。
郭文景在接受媒體采訪時(shí)表示,視頻有很多與圖片不一樣的問(wèn)題,比如要確保視頻的流暢性、確保動(dòng)作,視頻比圖像更大,需要更大的GPU內(nèi)存,視頻生成需要考慮邏輯問(wèn)題,還要考慮如何生成,是一幀一幀生成的,還是一起生成的,現(xiàn)在很多模型是一起生成,生成的視頻就很短。
孟晨琳補(bǔ)充,視頻的每一幀都是一張圖片,比生成圖片困難得多。因?yàn)槊恳粠纳少|(zhì)量要高,相鄰幀之間還要有關(guān)聯(lián)性。當(dāng)視頻很長(zhǎng)時(shí),確保每一幀都協(xié)調(diào)一致是個(gè)相當(dāng)復(fù)雜的問(wèn)題。
在訓(xùn)練時(shí),處理視頻數(shù)據(jù)時(shí)要處理多張圖片,模型需要適應(yīng)這種情況。比如,如何將100幀圖片傳輸?shù)紾PU上是一個(gè)挑戰(zhàn)。而在推理時(shí),由于涉及生成大量幀,推理速度相對(duì)于單張圖片會(huì)更慢,計(jì)算成本也會(huì)增加。
另外,控制視頻生成更難,因?yàn)槟P托枰擅恳粠l(fā)生的事情,而用戶不會(huì)希望為每一幀都提供詳細(xì)的描述。
此前,《Vice》雜志網(wǎng)站將AI生成的“威爾·史密斯吃意大利面”的視頻評(píng)為最怪異AI生成視頻。在該視頻中,面容扭曲的史密斯看起來(lái)像一條怪異的魚(yú),并試圖將成堆的面條舀進(jìn)嘴里,從叉子上或手中咀嚼大塊意大利面。這個(gè)噩夢(mèng)般的視頻,僅由一行無(wú)害的“威爾·史密斯吃意大利面”文字生成。
這也說(shuō)明視頻生成工具的底層模型及技術(shù)仍需要不斷優(yōu)化。目前,主流的文生視頻模型主要依托Transformer模型和擴(kuò)散模型?;跀U(kuò)散模型的工具重在提升視頻質(zhì)量,雖然克服了效果粗糙、缺少細(xì)節(jié)的難題,但也制約了視頻的長(zhǎng)度。
另一方面,擴(kuò)散模型訓(xùn)練過(guò)程需要非常大的內(nèi)存,算力需求較大,基本只有大公司以及拿到大筆投融資的初創(chuàng)新星才能負(fù)擔(dān)得起模型的訓(xùn)練成本。
但元宇宙新聲認(rèn)為,在AI生成視頻領(lǐng)域中技術(shù)方面的困難只是暫時(shí)的,也不妨礙它已經(jīng)成為另一條受到資本推崇的賽道。而且,這一領(lǐng)域的爆發(fā)將賦予了AI視頻工具強(qiáng)大的產(chǎn)品功能,進(jìn)而開(kāi)拓出更廣闊的應(yīng)用場(chǎng)景。通過(guò)文本描述或其他簡(jiǎn)單操作,AI視頻工具即可生成較高質(zhì)量和完成度視頻內(nèi)容,這降低了視頻創(chuàng)作門(mén)檻,讓業(yè)外人士能夠精準(zhǔn)利用視頻進(jìn)行內(nèi)容展現(xiàn),有望廣泛賦能各細(xì)分行業(yè)的內(nèi)容生產(chǎn)降本增效和創(chuàng)意輸出。
巨頭搶跑AI生成視頻賽道
我們看到,隨著Pika 1.0的發(fā)布,AI視頻領(lǐng)域的競(jìng)爭(zhēng)日趨白熱化。
11月23日,Adobe已經(jīng)完成對(duì)AI初創(chuàng)公司Rephrase.ai的收購(gòu),后者主要通過(guò)AI技術(shù)將文本轉(zhuǎn)換為虛擬形象視頻。收購(gòu)Rephrase.ai也意味著Adobe完成了在AI領(lǐng)域的首次收購(gòu)。
Adobe高級(jí)副總裁兼總經(jīng)理Ashley Still表示:“Rephrase.ai團(tuán)隊(duì)在生成式AI音視頻技術(shù)、文本到視頻生成工具方面的專(zhuān)業(yè)知識(shí)將擴(kuò)展Adobe的生成式視頻功能?!?/p>
元宇宙新聲認(rèn)為,在Adobe收購(gòu)Rephrase.AI背后,也反映出AI生成內(nèi)容大潮逐漸從文本和圖片,進(jìn)一步轉(zhuǎn)向視頻等復(fù)雜形式。
隨著相關(guān)技術(shù)的應(yīng)用與創(chuàng)新,使得AI生成視頻賽道持續(xù)升溫,我們看到,包括Meta的Emu模型、由谷歌投資的Runway公司發(fā)布的Gen-2模型等,均支持基于文本生成視頻內(nèi)容。
專(zhuān)注于開(kāi)發(fā)人工智能產(chǎn)品的初創(chuàng)公司Stable AI也發(fā)布了其最新的AI模型Stable Video Diffusion(穩(wěn)定視頻擴(kuò)散模型),這款模型能夠通過(guò)現(xiàn)有圖片生成視頻,是基于之前發(fā)布的Stable Diffusion文本轉(zhuǎn)圖片模型的延伸。也是目前為止市面上少數(shù)能夠生成視頻的AI模型之一。
在國(guó)內(nèi),百度、阿里巴巴、騰訊、360、昆侖萬(wàn)維等公司也紛紛加大對(duì)視頻領(lǐng)域大模型的投入,并推出相關(guān)的AI模型。例如,阿里巴巴已在AI模型社區(qū)“魔搭”ModelScope上線了“文本生成視頻大模型”。根據(jù)介紹,整體模型參數(shù)約17億,目前只支持英文輸入。擴(kuò)散模型采用Unet3D結(jié)構(gòu),通過(guò)從純高斯噪聲視頻中,迭代去噪的過(guò)程,實(shí)現(xiàn)視頻生成的功能。
今年6月,360智腦大模型4.0版本發(fā)布,具備文字、圖像、語(yǔ)音和視頻等跨模態(tài)處理和生成能力。據(jù)了解,其中的“文生視頻”多模態(tài)功能為國(guó)內(nèi)首發(fā),任何文字腳本都可生成視頻,不受專(zhuān)業(yè)技能和素材限制。
作為當(dāng)下主流的媒體內(nèi)容,視頻與AI碰撞迎來(lái)全新的創(chuàng)作方式。業(yè)內(nèi)人士預(yù)測(cè),到2030年,90%的數(shù)字內(nèi)容都將是由AI生成。預(yù)計(jì)到2032年,全球AI視頻生成軟件的市場(chǎng)規(guī)模將達(dá)到21.72億美元。
可以看到,AI視頻生成技術(shù)仍在快速迭代、飛速進(jìn)化中,而其中又將孕育出多少新的機(jī)遇,都還是未知數(shù)。唯一確定的是,現(xiàn)在已入局的玩家們競(jìng)爭(zhēng)已然白熱化。
寫(xiě)在最后
元宇宙新聲認(rèn)為,在新一輪的AI浪潮中,文生文、文生圖一直并行發(fā)展,其中,ChatGPT代表了文字生成的率先突破,Midjourney將文生圖推到人人可用,而隨著Pika的出現(xiàn)則打開(kāi)了市場(chǎng)對(duì)于文生視頻的無(wú)限遐想。
當(dāng)下,全球范圍內(nèi)生成式AI技術(shù)和應(yīng)用正在迅猛發(fā)展,新涌現(xiàn)的圖形、文本生成模型正在改變傳統(tǒng)的AI應(yīng)用格局。AIGC作為AI大規(guī)模落地的“試金石”,不僅能夠幫助創(chuàng)作者實(shí)現(xiàn)更快速、更豐富的內(nèi)容創(chuàng)造,還將降低創(chuàng)作門(mén)檻??梢灶A(yù)見(jiàn),AI大模型領(lǐng)域的創(chuàng)新將會(huì)讓更多人把自己的創(chuàng)意具象化,也會(huì)讓未來(lái)虛實(shí)結(jié)合的世界離我們?cè)絹?lái)越近。