五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

Sora刷屏三天:挖來谷歌的人才,用著谷歌的技術(shù),搶走谷歌的熱搜

翻開Sora的技術(shù)說明書,里面全是谷歌的影子。

編者按:本文來自微信公眾號(hào) 新硅NewGeek(ID:XinguiNewgeek),作者:董道力,編輯:張澤一,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

硅基君這幾天可算是被OpenAI的視頻生成模型Sora狠狠的刷了一通屏。

明明還沒有正式開放,但在國內(nèi)外社交平臺(tái)上,幾乎每一個(gè)Sora放出的Demo視頻都能被翻來覆去討論。

大家對Sora的崇拜,甚至到了拿一個(gè)上古時(shí)代的互聯(lián)網(wǎng)經(jīng)典視頻出來,都說它是Sora生成的,還要貼心的配上一個(gè)簡單的Prompts。

圖片

在沒有人關(guān)注的小角落里,谷歌發(fā)布的Gemini 1.5 PRO沒能濺起一點(diǎn)水花。

有人猜測,OpenAI如此匆忙的發(fā)布Sora的演示視頻,就是為了向世界證明OpenAI才是AI行業(yè)的突出公司,因?yàn)榫驮趲仔r(shí)前,谷歌才發(fā)布了Gemini 1.5 PRO。

從熱度上來看,谷歌輸?shù)囊凰俊?/p>

當(dāng)然,和以往一樣,OpenAI發(fā)布的Sora,目前只針對部分科學(xué)家和藝術(shù)家開放,普通人想用到Sora話不知道要什么時(shí)候了。

但這一點(diǎn)也不影響全網(wǎng)對Sora的熱烈討論,Sora發(fā)布后的48小時(shí)內(nèi),科技大佬、賣課的、炒股的、創(chuàng)業(yè)的都“瘋了”。

首先是科技大佬們對Sora發(fā)表了自己的看法。

360總裁周鴻祎認(rèn)為,Sora意味著AGI實(shí)現(xiàn)將從10年縮短到兩三年。OpenAI的Sora可以吊打 Pika和Runway,原因在于人才密度。OpenAl利用它的大語言模型優(yōu)勢,把LLM 和Diffusion 結(jié)合起來訓(xùn)練,讓Sora實(shí)現(xiàn)了對現(xiàn)實(shí)世界的理解和對世界的模擬兩層能力等等。

圖片

Meta首席AI科學(xué)家楊立昆并不怎么看好Sora,他在twitter上表示一個(gè)AI模型可以生成逼真的視頻,但并不代表這個(gè)AI可以理解世界。

圖片

與周鴻祎和楊立昆的長篇大論不同,馬斯克簡單明了:人類要完蛋了。

圖片

股民們在OpenAI發(fā)布Sora后,感覺下一個(gè)ai風(fēng)口就在眼前,有機(jī)構(gòu)連夜盤點(diǎn)了國內(nèi)視頻生成相關(guān)的公司,甚至出現(xiàn)了Sora概念股。

圖片

與股民的熱情不同,一些影視從業(yè)人員表示,自己的工作岌岌可危。

據(jù)藍(lán)鯨財(cái)經(jīng)報(bào)道,中國香港青年導(dǎo)演朱智立表示“它(Sora)對電影行業(yè)的影響只是一個(gè)時(shí)間問題,因?yàn)樗呀?jīng)把畫面做到非常真實(shí)、有細(xì)節(jié),包括一個(gè)女人在東京街頭的畫面,連臉上的雀斑都能做到非常真實(shí)?!?/p>

“Sora對宣傳片、廣告片的影響會(huì)更大”朱智立覺得“電影還有劇本、情節(jié)、臺(tái)詞等復(fù)雜因素,而在廣告、宣傳片行業(yè),沖擊可能會(huì)更快到來。如果提示詞可以細(xì)節(jié)到分鏡,那AI不僅僅是幫助導(dǎo)演畫分鏡和視覺參考圖了,而是直接可以做成更高效的動(dòng)態(tài)分鏡預(yù)覽,或者等技術(shù)更成熟時(shí)可以直接用來做成影視作品?!?/p>

無論是科技大佬的分析預(yù)判,還是股民的熱情,影視從業(yè)者的擔(dān)心,硅基君都表示理解,但唯一不合理的就是,Sora剛發(fā)布,連排隊(duì)內(nèi)測都沒開啟,OpenAI還沒靠Sora賺到錢,就有人開始賣課了?

技術(shù)來來去去,賣鏟子永不過時(shí)。

圖片

話說回來,Sora之所以能引起廣泛的討論,原因在于它生成的視頻質(zhì)量真的太好了。為什么Sora效果那么好,技術(shù)上有什么特別的嗎?根據(jù)OpenAI發(fā)布的Sora技術(shù)白皮書,我們可以略知一二。

先上一個(gè)大瓜,Sora的視頻生成模型框架,很可能是谷歌DeepMind之前的論文成果。

簡單來說,Sora模型效果很好的關(guān)鍵在于,OpenAI訓(xùn)練的時(shí)候,將擴(kuò)散模型(diffusion model)和transformer相結(jié)合。

OpenAI訓(xùn)練GPT這類大語言模型的時(shí)候,把句子拆分成tokens,放到transformer進(jìn)行訓(xùn)練。在Sora中,OpenAI將不同尺寸、分辨率的視頻拆分成patch,把patch當(dāng)作tokens放到transformer進(jìn)行訓(xùn)練。訓(xùn)練完成后再通過解碼,把tokens“渲染成”人們可以看得懂的像素。

圖片

這一技術(shù),來源于谷歌DeepMind和謝賽寧的論文成果。

圖片

圖片

硅基君搜了一下這篇論文的另一個(gè)作者William Peebles,他現(xiàn)在居然就是領(lǐng)導(dǎo)OpenAI Sora項(xiàng)目的負(fù)責(zé)人!

好家伙,這手背刺玩的6。

圖片

硅基君又往前找了一下,不知道大家還記不記得年初谷歌發(fā)布的videopoet這個(gè)視頻生成模型。videopoet也是一個(gè)基于大語言模型生成視頻。

其中的MAGVIT v2技術(shù)源于論文《Language Model Beats Diffusion: Tokenizer is Key to Visual Generation》,從論文名字中,我們就可以看到,作者對OpenAI Sora采用的模型框架的討論。

當(dāng)然,OepnAI基于谷歌那篇論文技術(shù)的基礎(chǔ)上,還做了不少創(chuàng)新。據(jù)Sora的技術(shù)白皮書透露,OpenAI利用GPT訓(xùn)練了一個(gè)模型,將簡短的用戶prompts轉(zhuǎn)換為更長的詳細(xì)prompts,從而讓生成的視頻更符合用戶需求。這一技術(shù)早些時(shí)候用于DALL·E 3 上。

比如說,咱們輸入“帶笑容的女人視頻,時(shí)尚風(fēng)格”,在Sora眼中可能就會(huì)變成:

“走在時(shí)尚之都巴黎香榭麗大街上的女人笑得非常開心,眼睛里充滿了喜悅。她穿著時(shí)髦的服裝,凸顯了她的曲線,頭發(fā)也梳得恰到好處,襯托出她的容貌。

在訓(xùn)練數(shù)據(jù)采樣方式上,OpenAI更加開放,以往的視頻生成模型的訓(xùn)練數(shù)據(jù)大多是切割成方形的,但Sora直接采用原生視頻數(shù)據(jù)進(jìn)行采樣。這以方法,也讓Sora擁有了在保證主體一致的情況下,生成不同分辨率視頻的能力。

比如技術(shù)白皮書中展示的烏龜和海底場景,仔細(xì)看不同尺寸的視頻中,烏龜還是那個(gè)烏龜,海底的環(huán)境也很類似。

圖片

除了以上這些創(chuàng)新,OpenAI在訓(xùn)練Sora上,也遵循了大力出奇跡的傳統(tǒng),也就是加計(jì)算量。

可以發(fā)現(xiàn),4倍計(jì)算量下的Sora生成的視頻和pika、runway、videopoet在效果上類似。但當(dāng)計(jì)算量來到32倍后,Sora生成的視頻質(zhì)量有明顯的提高。

大模型真的是一個(gè)大力出奇跡的行業(yè)嗎?怪不得OpenAI的CEO奧特曼想花重金(7萬億美元)投資芯片了。

看到這里,不知道觀眾老爺們有沒有這樣的感覺,OpenAI發(fā)布Sora爆火的背后,滿滿都是谷歌的影子。

其實(shí)這樣的事情已經(jīng)不是第一次發(fā)生了。

在《這就是ChatGPT》一書中,介紹了發(fā)現(xiàn)大語言模型在規(guī)模數(shù)據(jù)后產(chǎn)生涌現(xiàn)現(xiàn)象的谷歌研究員Jason Wei跳槽到OpenAI,并搶先Anthropic Claude一步,推出ChatGPT火遍全網(wǎng)的故事。

類似的故事還有不少。

比如,谷歌推出transformer這一奠定大模型基礎(chǔ)的技術(shù)后風(fēng)光無限,但卻被OpenAI用大規(guī)模訓(xùn)練數(shù)據(jù)截胡,率先推出了大語言模型GPT3。從此人們說到大模型,首先會(huì)想到OpenAI。

之后,掀起AI浪潮的ChatGPT,其前身InstructGPT用到的 instruction tuning技術(shù),也是谷歌與21年發(fā)表的,但谷歌直到22年才開始重視。

如果把谷歌和OpenAI擬人化,谷歌像一個(gè)清高的科學(xué)家,不斷突破創(chuàng)新,帶來一個(gè)個(gè)新的技術(shù)。而OpenAI則像一個(gè)項(xiàng)目經(jīng)理,哪個(gè)技術(shù)好就拿來用了。

可以說,OpenAI站在谷歌的肩膀上,用谷歌的技術(shù)刷屏。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

免責(zé)申明

1.本平臺(tái)專注于提供資訊分享服務(wù),所提供的資訊內(nèi)容僅代表作者個(gè)人觀點(diǎn),不反映本平臺(tái)立場。

2.我們致力于確保所提供信息的準(zhǔn)確性和及時(shí)性,但對信息的完整性、準(zhǔn)確性、可靠性或適用性不做任何明示或暗示的保證。

3.用戶在使用本網(wǎng)站提供的信息時(shí),請自行判斷并承擔(dān)相應(yīng)風(fēng)險(xiǎn)。本網(wǎng)站對用戶因使用或未能使用本網(wǎng)站而導(dǎo)致的任何直接、間接、附帶的損失或損害概不負(fù)責(zé),包括但不限于利潤損失、商業(yè)中斷、信息丟失等。

4.免責(zé)申明可能隨時(shí)修改,恕不另行通知。請定期查閱以獲取最新信息。

關(guān)聯(lián)標(biāo)簽
Sora谷歌生成模型AI視頻科技