Sora團(tuán)隊首次專訪：Sora就是太強(qiáng)了，所以不讓普通人用

遠(yuǎn)川研究所·2024-03-13

關(guān)注

別看了，用不上

編者按：本文來自微信公眾號新硅NewGeek（ID：XinguiNewgeek），作者：Josie，編輯：董道力，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

前兩天外媒對Sora核心團(tuán)隊做了次專訪，看了下原視頻，約等于什么都沒說，場面神似發(fā)改委馬科長講話。

用網(wǎng)友的話來說，就像鏡頭外有一個律師拿著槍對著這幫人。

Sora已經(jīng)發(fā)布快一個月了，剛發(fā)布時Sora驚為天人，帶給人們無限遐想，甚至有不少人表示AGI就要來了。

然而，目前為止只有少數(shù)人用上了Sora，再好的東西用不上，久而久之人們也就失去了興趣。

就在人們把Sora翻得底朝天，該聊的都聊完了，好像實在沒活了，OpenAI派了幾個人出來接受一下采訪。

16分鐘的專訪里，Sora的核心團(tuán)隊成員說了很多內(nèi)容，但都是一些已知的內(nèi)容，沒有什么新的，信息好像還不如Sora的技術(shù)文檔多。

來看看外國人是怎么打太極的。

這次訪談的三位Sora核心成員分別是Bill Peebles、Tim Brooks和Aditya Ramesh。

首先是大家最關(guān)心的問題，我們什么時候可以用到Sora？

“別急，普通人短期內(nèi)還用不上?！?/p>

Sora成員表示，Sora目前尚未向公眾開放，也沒有具體的時間表。OpenAI正在收集用戶反饋的階段，希望進(jìn)一步聊天人們?nèi)绾问褂肧ora，有哪些安全工作要做。

既然用不了，那么探究一下，Sora是如何實現(xiàn)的。

Sora團(tuán)隊說：Sora是一個視頻生成模型，其工作原理是分析大量視頻數(shù)據(jù)并學(xué)會生成視頻。具體工作方法融合了擴(kuò)散模型（如DALL-E）和大型語言模型（如GPT系列）的技術(shù)。架構(gòu)上Sora類似于介于兩者之間，訓(xùn)練方式類似于DALL-E，但在結(jié)構(gòu)上更像GPT。

結(jié)構(gòu)上更像GPT這一點在Sora剛出現(xiàn)的時候就有不少人分析過，這也算Sora的一大技術(shù)特點。

接下來，是同樣讓人好奇的，Sora的訓(xùn)練數(shù)據(jù)到底來自于哪里？

在官方發(fā)布的Sora生成視頻中，無論是咖啡杯中的海盜船，還是東京街頭行走的女性，都在表示Sora似乎理解了許多世界的物理規(guī)律。

之前不少民間說法討論，Sora極有可能在數(shù)據(jù)集中添加了用UE5生成的文本、視頻當(dāng)作合成數(shù)據(jù)。

面對這樣的問題，Sora成員Tim Brooks沒有明確回應(yīng)，打了一個太極，表示不方便說得太細(xì)，但是他透露，大體上使用的是公開數(shù)據(jù)和OpenAI被授權(quán)使用的數(shù)據(jù)，并分享了一個“技術(shù)創(chuàng)新”。

以往，不論是圖像還是視頻生成模型，通常會以非常固定的尺寸進(jìn)行訓(xùn)練，比如只有一個分辨率的視頻。

在Sora的訓(xùn)練中，他們將各種各樣的圖片和視頻，不管是高寬比、長短、高清還是低清，都分割成了一小塊一小塊。研究人員可以根據(jù)輸入視頻的大小，訓(xùn)練模型認(rèn)識不同數(shù)量的小塊，這也讓Sora能更靈活地學(xué)習(xí)各種數(shù)據(jù)，并生成出不同分辨率和尺寸的內(nèi)容。

這一技術(shù)在Sora技術(shù)文檔里也有提過，就是所謂的patch。

大語言模型建模時把文本拆成了以token為最小單位，而視頻大模型中的token就是patch。

這一技術(shù)并不是OpenAI創(chuàng)造的，當(dāng)OpenAI宣布使用了該技術(shù)時還引起了討論，為什么OpenAI能就能通過別人的技術(shù)造出好的AI產(chǎn)品出來。

主持又問到：你覺得Sora擅長做什么？哪些方面還有所欠缺？比如我看到有個視頻里一只手竟然長了六個手指。

Sora團(tuán)隊先揚(yáng)后抑的表示到，Sora擅長寫實類視頻，并且可以生成1分鐘時長的視頻，很強(qiáng)。但仍然存在一些問題，比如手部細(xì)節(jié)（所有AI的噩夢）攝像機(jī)軌跡、物理現(xiàn)象變化等。

除此之外，Sora團(tuán)隊還介紹了一些其他酷炫的功能，比如通過除prompt之外，用視頻合成的方式生成視頻。這實現(xiàn)了在完全不同主題和場景構(gòu)成的視頻之間無縫過渡。

在OpenAI的Tiktok上就有無人機(jī)變成蝴蝶在斗獸場轉(zhuǎn)化的珊瑚礁中飛翔的視頻。

無論在技術(shù)還是體驗上，都與原先的視頻生成模型完全不同。Aditya Ramesh更是表示，他們做的事情，就是先模擬自然，再超越自然！

目前為止，OpenAI在Tiktok上的AI生成視頻都使用了配音，而不是AI無縫生成聲音。Sora團(tuán)隊表示，AI聲音暫時不是他們考慮的事情，當(dāng)務(wù)之急還是在于視頻生成，讓它實現(xiàn)更長的時間，更好的畫質(zhì)和頻率。

但不知道隨著Pika Sound Effects功能的發(fā)布，Sora加上聲音是否指日可待。

被主持人問到，Sora下一步發(fā)展方向時。Sora成員Tim Brooks表示，在真正發(fā)布之前，Sora還有兩方面的工作要完成：

首先是獲得更多用戶的反饋，了解Sora如何給人們帶來價值。比如有用戶希望對生成的視頻有更多精細(xì)、直接的控制，而不單單是prompts。

另一方面，Sora安全工作需要加強(qiáng)，OpenAI會全面考慮可能帶來的各種影響。目前，正在訓(xùn)練應(yīng)用于視頻的溯源分類器，實現(xiàn)識別視頻是否由AI生成，并且為每個Sora生成的視頻都打上了水印。

此外，Sora團(tuán)隊表示，AI生成視頻也帶來了許多機(jī)遇，它可以大幅降低從創(chuàng)意到成片的成本，一個人拍一部電影完全有可能實現(xiàn)。

更令他們激動的是，隨著AI新工具的出現(xiàn)，會有人創(chuàng)造出全新的東西，不斷推進(jìn)創(chuàng)造力的邊界，將不可能變成可能。

但打住，這只是科學(xué)家們美好的幻想。畢竟對于普通人來說，離真正使用上Sora都要等上挺長一段時間。

而且，Sora成員透露。AI通過從視頻數(shù)據(jù)中學(xué)習(xí)，將不僅僅在視頻創(chuàng)作方面發(fā)揮作用。像GPT這樣的模型，雖然很聰明，但如果它們無法像我們一樣“看到”這個世界，那么它們就會缺失一些信息。類似Sora的模型正在解決這一問題。

這是證實AGI要來了嗎？

最后主持人問了一個有意思的問題，Sora生成一個視頻需要多長時間？

“取決于各種情況，但你可以離開，去喝杯咖啡，然后回來它還在處理中，反正就是很久?！?/p>

以上就是Sora團(tuán)隊的采訪內(nèi)容，簡單總結(jié)一下就是：Sora很厲害，可以看到世界，正因如此，我們還不能讓普通人很快就用到，還有很多安全工作要做。

Umm，沒活可以咬打火機(jī)，沒必要硬上的。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

遠(yuǎn)川研究所

2

訂閱服務(wù)

特別推薦

睿獸分析
開店邦
友情合作

法律相關(guān)

版權(quán)聲明
協(xié)議中心

愛奇清科（北京）信息科技有限公司地址：北京市朝陽區(qū)麗澤西街東湖國際中心A座7層 | 網(wǎng)絡(luò)文化經(jīng)營許可證（京網(wǎng)文[2018]2153-213號）

違法和不良信息舉報電話：010-53391121 舉報郵箱：db@cyzone.cn

京公網(wǎng)安備 11010502035114號

營業(yè)執(zhí)照出版物經(jīng)營許可證

反饋

聯(lián)系我們

推薦訂閱

五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

Sora團(tuán)隊首次專訪：Sora就是太強(qiáng)了，所以不讓普通人用

關(guān)于我們

訂閱服務(wù)

特別推薦

法律相關(guān)

Sora團(tuán)隊首次專訪：Sora就是太強(qiáng)了，所以不讓普通人用