編者按:本文來自微信公眾號 投資實習所(ID:startupboy),作者:StartupBoy,創(chuàng)業(yè)邦經(jīng)授權轉載。
昨天關于播客商業(yè)化的文章《你日常聽的播客,一年僅廣告就有 800 多萬美金收入》,我們能感受到信息/知識的創(chuàng)造以及其傳播的價值,從本質上來說也是對價值信息進行有效的組織和高效的再次分發(fā),AI 的發(fā)展應該會帶來更高效的方式。
而 AI 在其它領域的發(fā)展,可能正在產(chǎn)生更大的變革。最近,一位 AI 模特通過廣告每月最高收入可達 1.1 萬美金的事情得到了很大的傳播,讓我們對 AI 在模特經(jīng)紀領域的價值有了一個新的認識。
這個 AI 模特叫 Aitana López,是西班牙一家模特經(jīng)紀公司通過 AI 生成的一個虛擬模特,目前在 Instagram 的粉絲已經(jīng)超過了 20 萬(11 月底才 13 萬),通過接廣告的模式,每月最高收入已經(jīng)做到了 1.1 萬美金,其每個廣告的報價均超過了 1000 美金,從 Ins 上的圖片看目前接的廣告主要是服裝特別是內衣。
根據(jù)模特經(jīng)紀公司 The Clueless 創(chuàng)始人的說法,之所以做了這樣一個 AI 模特,是因為與真實模特的合作不是特別順暢,并且有些問題是無法控制的,進而導致一些合作項目沒法推進,于是用 AI 設計了這個虛擬模特。
經(jīng)紀機構還對其人設做了設計,像 Aitana López 的人設就被設計為:堅強而堅定的女性,熱情的天蝎座,愛好電子游戲和健身。下圖里的第一個就是這個 AI 模特:
這個 AI 模特的案例,讓很多人在社交媒體上分享認為,未來的網(wǎng)紅(influencer)可能會越來越多的被各種 AI creator 所取代,有些媒體甚至打出了 RIP TikTok Influencer 的標題,而模特這個行業(yè)可能也會越來越多的出現(xiàn)各種類型的 AI 模特。
雖然還還不至于如此,不過我覺得未來很多行業(yè)可能都將是 AI 與人(AI+Humans)的一種混合模式,就像已經(jīng)有人喊出了合成社交網(wǎng)絡概念一樣,我覺得未來會是一個合成社會。而對于網(wǎng)紅或者模特這個行業(yè),阿里最近發(fā)表的這個 AI 技術研究,我覺得可能會加速 AI 模特的到來。
阿里巴巴智能計算研究院前兩天在 GitHub 上發(fā)布了一個 AI 研究論文:Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation,通過一張圖片可以實現(xiàn)任何角色視頻的生成,其發(fā)布的幾個視頻在海外社交媒體得到了非常大的傳播。
下面是整個完整的 Demo 視頻,不僅介紹了研究團隊所采用的方法,也對這種方法與其它方法甚至真人的效果進行了比較。
投資實習所
,贊10
相比于直接的 AI 生成視頻,這個方法看起來要簡單的多,只需要一張圖和一個姿勢指導就可以生成非常不錯的視頻,視頻里展示的效果已經(jīng)不比真人的舞蹈動作差了。
像視頻里面展示的舞蹈視頻,我覺得抖音里的小姐姐以后可能都離不開 AI 了,AnimateAnyone 采用的方法基本上概括為下面這張圖:
研究團隊在論文里說,
角色動畫的目標是通過驅動信號從靜態(tài)圖像生成角色視頻。目前,由于其強大的生成能力,擴散模型已經(jīng)成為視覺生成研究的主流。然而,在圖像到視頻的轉換領域,尤其是在角色動畫中,要在時間上保持與角色詳細信息的一致性仍然是一個巨大的挑戰(zhàn)。
在本文中,我們利用擴散模型的力量,提出了一個為角色動畫量身定制的新框架。為了保持參考圖像中復雜外觀特征的一致性,我們設計了 ReferenceNet 通過空間注意力合并細節(jié)特征。為了確保可控性和連續(xù)性,我們引入了一個高效的姿態(tài)引導器來指導角色的動作,并采用了一個有效的時間建模方法來確保視頻幀之間平滑的過渡。
通過擴大訓練數(shù)據(jù),我們的方法可以為任意角色制作動畫,在角色動畫方面比其他圖像到視頻的方法取得了更優(yōu)越的結果。此外,我們還在時尚視頻和人類舞蹈合成的基準測試上評估了我們的方法,取得了最先進的結果。
團隊也在 GitHub 對他們采用的方法做了簡單的概述:
姿勢序列首先使用姿勢引導器進行編碼,然后與多幀噪聲融合,接著 Denoising UNet 進行去噪處理以生成視頻。Denoising UNet 的計算塊包括空間注意力、交叉注意力和時間注意力,如上圖右側虛線框所示。
參考圖像的整合涉及兩個方面。首先,通過 ReferenceNet 提取詳細特征,并用于空間注意力。其次,通過 CLIP 圖像編碼器提取語義特征,用于交叉注意力。時間注意力在時間維度上操作。最后,VAE 解碼器將結果解碼為視頻剪輯。
看完這個視頻 Demo 后,我的感覺是像模特、舞蹈類網(wǎng)紅、卡通動漫動畫設計、游戲 VR、視覺特效等行業(yè)似乎都可以使用這個方式。
AnimateAnyone 這個項目是發(fā)布在 HumanAIGC 這個賬號下的,而這個賬號的描述是 Alibaba TongYi XR,可能是通義千問下面的 XR 團隊,目前在 GitHub 的 Star 數(shù)已經(jīng)超過 7200 了,而 HumanAIGC 這個賬號在 2 周前才建立。
本文(含圖片)為合作媒體授權創(chuàng)業(yè)邦轉載,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。