編者按:本文來自微信公眾號 新硅NewGeek(ID:XinguiNewgeek),作者:Josie,編輯:董道力,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
前兩天外媒對Sora核心團隊做了次專訪,看了下原視頻,約等于什么都沒說,場面神似發(fā)改委馬科長講話。
用網(wǎng)友的話來說,就像鏡頭外有一個律師拿著槍對著這幫人。
Sora已經(jīng)發(fā)布快一個月了,剛發(fā)布時Sora驚為天人,帶給人們無限遐想,甚至有不少人表示AGI就要來了。
然而,目前為止只有少數(shù)人用上了Sora,再好的東西用不上,久而久之人們也就失去了興趣。
就在人們把Sora翻得底朝天,該聊的都聊完了,好像實在沒活了,OpenAI派了幾個人出來接受一下采訪。
16分鐘的專訪里,Sora的核心團隊成員說了很多內(nèi)容,但都是一些已知的內(nèi)容,沒有什么新的,信息好像還不如Sora的技術(shù)文檔多。
來看看外國人是怎么打太極的。
這次訪談的三位Sora核心成員分別是Bill Peebles、Tim Brooks和Aditya Ramesh。
首先是大家最關(guān)心的問題,我們什么時候可以用到Sora?
“別急,普通人短期內(nèi)還用不上?!?/p>
Sora成員表示,Sora目前尚未向公眾開放,也沒有具體的時間表。OpenAI正在收集用戶反饋的階段,希望進一步聊天人們?nèi)绾问褂肧ora,有哪些安全工作要做。
既然用不了,那么探究一下,Sora是如何實現(xiàn)的。
Sora團隊說:Sora是一個視頻生成模型,其工作原理是分析大量視頻數(shù)據(jù)并學會生成視頻。具體工作方法融合了擴散模型(如DALL-E)和大型語言模型(如GPT系列)的技術(shù)。架構(gòu)上Sora類似于介于兩者之間,訓練方式類似于DALL-E,但在結(jié)構(gòu)上更像GPT。
結(jié)構(gòu)上更像GPT這一點在Sora剛出現(xiàn)的時候就有不少人分析過,這也算Sora的一大技術(shù)特點。
接下來,是同樣讓人好奇的,Sora的訓練數(shù)據(jù)到底來自于哪里?
在官方發(fā)布的Sora生成視頻中,無論是咖啡杯中的海盜船,還是東京街頭行走的女性,都在表示Sora似乎理解了許多世界的物理規(guī)律。
之前不少民間說法討論,Sora極有可能在數(shù)據(jù)集中添加了用UE5生成的文本、視頻當作合成數(shù)據(jù)。
面對這樣的問題,Sora成員Tim Brooks沒有明確回應(yīng),打了一個太極,表示不方便說得太細,但是他透露,大體上使用的是公開數(shù)據(jù)和OpenAI被授權(quán)使用的數(shù)據(jù),并分享了一個“技術(shù)創(chuàng)新”。
以往,不論是圖像還是視頻生成模型,通常會以非常固定的尺寸進行訓練,比如只有一個分辨率的視頻。
在Sora的訓練中,他們將各種各樣的圖片和視頻,不管是高寬比、長短、高清還是低清,都分割成了一小塊一小塊。研究人員可以根據(jù)輸入視頻的大小,訓練模型認識不同數(shù)量的小塊,這也讓Sora能更靈活地學習各種數(shù)據(jù),并生成出不同分辨率和尺寸的內(nèi)容。
這一技術(shù)在Sora技術(shù)文檔里也有提過,就是所謂的patch。
大語言模型建模時把文本拆成了以token為最小單位,而視頻大模型中的token就是patch。
這一技術(shù)并不是OpenAI創(chuàng)造的,當OpenAI宣布使用了該技術(shù)時還引起了討論,為什么OpenAI能就能通過別人的技術(shù)造出好的AI產(chǎn)品出來。
主持又問到:你覺得Sora擅長做什么?哪些方面還有所欠缺?比如我看到有個視頻里一只手竟然長了六個手指。
Sora團隊先揚后抑的表示到,Sora擅長寫實類視頻,并且可以生成1分鐘時長的視頻,很強。但仍然存在一些問題,比如手部細節(jié)(所有AI的噩夢)攝像機軌跡、物理現(xiàn)象變化等。
除此之外,Sora團隊還介紹了一些其他酷炫的功能,比如通過除prompt之外,用視頻合成的方式生成視頻。這實現(xiàn)了在完全不同主題和場景構(gòu)成的視頻之間無縫過渡。
在OpenAI的Tiktok上就有無人機變成蝴蝶在斗獸場轉(zhuǎn)化的珊瑚礁中飛翔的視頻。
無論在技術(shù)還是體驗上,都與原先的視頻生成模型完全不同。Aditya Ramesh更是表示,他們做的事情,就是先模擬自然,再超越自然!
目前為止,OpenAI在Tiktok上的AI生成視頻都使用了配音,而不是AI無縫生成聲音。Sora團隊表示,AI聲音暫時不是他們考慮的事情,當務(wù)之急還是在于視頻生成,讓它實現(xiàn)更長的時間,更好的畫質(zhì)和頻率。
但不知道隨著Pika Sound Effects功能的發(fā)布,Sora加上聲音是否指日可待。
被主持人問到,Sora下一步發(fā)展方向時。Sora成員Tim Brooks表示,在真正發(fā)布之前,Sora還有兩方面的工作要完成:
首先是獲得更多用戶的反饋,了解Sora如何給人們帶來價值。比如有用戶希望對生成的視頻有更多精細、直接的控制,而不單單是prompts。
另一方面,Sora安全工作需要加強,OpenAI會全面考慮可能帶來的各種影響。目前,正在訓練應(yīng)用于視頻的溯源分類器,實現(xiàn)識別視頻是否由AI生成,并且為每個Sora生成的視頻都打上了水印。
此外,Sora團隊表示,AI生成視頻也帶來了許多機遇,它可以大幅降低從創(chuàng)意到成片的成本,一個人拍一部電影完全有可能實現(xiàn)。
更令他們激動的是,隨著AI新工具的出現(xiàn),會有人創(chuàng)造出全新的東西,不斷推進創(chuàng)造力的邊界,將不可能變成可能。
但打住,這只是科學家們美好的幻想。畢竟對于普通人來說,離真正使用上Sora都要等上挺長一段時間。
而且,Sora成員透露。AI通過從視頻數(shù)據(jù)中學習,將不僅僅在視頻創(chuàng)作方面發(fā)揮作用。像GPT這樣的模型,雖然很聰明,但如果它們無法像我們一樣“看到”這個世界,那么它們就會缺失一些信息。類似Sora的模型正在解決這一問題。
這是證實AGI要來了嗎?
最后主持人問了一個有意思的問題,Sora生成一個視頻需要多長時間?
“取決于各種情況,但你可以離開,去喝杯咖啡,然后回來它還在處理中,反正就是很久。”
以上就是Sora團隊的采訪內(nèi)容,簡單總結(jié)一下就是:Sora很厲害,可以看到世界,正因如此,我們還不能讓普通人很快就用到,還有很多安全工作要做。
Umm,沒活可以咬打火機,沒必要硬上的。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。