探索創(chuàng)造力的邊界，AIGC如何重塑創(chuàng)意世界？

創(chuàng)業(yè)邦·2023-09-05

幾步

上海企業(yè)服務(wù)

強(qiáng)大的集客和社會(huì)化營(yíng)銷工具

最近融資：天使輪|數(shù)百萬人民幣|2014-07-01

看AIGC如何賦能數(shù)字創(chuàng)意

8月30日，由創(chuàng)業(yè)邦主辦的2023AIGC技術(shù)應(yīng)用大會(huì)在深圳舉行。本屆大會(huì)以“元載萬物·智啟新界”為主題，旨在聚焦AIGC技術(shù)的創(chuàng)新應(yīng)用，打造深入探索AIGC產(chǎn)業(yè)落地的交流平臺(tái)。

會(huì)上，加拿大工程院外籍院士、HiDream.ai創(chuàng)始人兼CEO梅濤先生發(fā)表《AIGC 掀起未來創(chuàng)意無限可能》主題演講，精彩觀點(diǎn)如下：

1. 我們用AI輔助動(dòng)漫生成，并非想取代電影工業(yè)，而是希望通過 AI 的手段激發(fā)創(chuàng)作者的潛力和想象力，提高生產(chǎn)力，進(jìn)一步降低成本。

2. 預(yù)計(jì)在 2025 年到 2026 年之間， AI 輔助創(chuàng)作的圖片和視頻的數(shù)量將會(huì)超過人類自己創(chuàng)作出的數(shù)量，這也就意味著整個(gè)數(shù)字創(chuàng)意會(huì)被AIGC 所賦能。

3. 類似于自動(dòng)駕駛，我們將AIGC的視覺創(chuàng)作能力可以分為5個(gè)檔次，目前仍處于從 L2 邁進(jìn) L3 的關(guān)鍵階段，未來還有很大發(fā)展空間。

4. 在AIGC涌現(xiàn)的時(shí)代，我們希望和有勇氣的創(chuàng)業(yè)者一起，構(gòu)建良好的生態(tài)，推動(dòng)行業(yè)的發(fā)展。

以下為演講/對(duì)話內(nèi)容，由創(chuàng)業(yè)邦整理：

非常榮幸參加創(chuàng)業(yè)邦的活動(dòng)，我今天將與大家探討生成式人工智能在數(shù)字創(chuàng)意方面的可能性及技術(shù)發(fā)展趨勢(shì)。

首先，我展示一部短片，這部短片是我們與北京電影學(xué)院的老師共同合作，其中所有的視頻、畫面、運(yùn)鏡都是由我們HiDream.ai 的創(chuàng)作工具Pixeling 生成的，沒有用到任何第三方軟件。

用人工智能生成一部影片，大概分為以下幾步：腳本-分鏡-關(guān)鍵幀-鏡頭生成-視頻合成。相比于人工，借助AI工具制作影片的優(yōu)勢(shì)非常明顯，一個(gè)人一到兩個(gè)星期就可以完成；而若單純依靠人工制作這樣一部作品，從選角、場(chǎng)景到導(dǎo)演等環(huán)節(jié)，則至少需要一個(gè)月的時(shí)間。

AIGC重塑創(chuàng)意世界

我們用AI輔助動(dòng)漫生成，并非想取代電影工業(yè)，而是希望可以提高效率、降低成本、提升創(chuàng)作體驗(yàn)。今天聚焦視覺AIGC話題，我首先和大家分享兩個(gè)故事。

第一個(gè)故事是，一張AIGC生成的圖片，曾在去年登上美國(guó)一家著名的時(shí)尚雜志封面。在這張照片中，“在浩瀚的宇宙中，一位女性宇航員在火星上，昂首闊步地走向一個(gè)廣角鏡頭”所有關(guān)鍵詞都被完美展現(xiàn)出來，而人類繪制一張這樣的圖，至少要花費(fèi)一兩個(gè)星期的時(shí)間。

另一個(gè)大家耳熟能詳?shù)墓适率?，一幅由人工智能工具生成的油畫作品，獲得了柯羅拉多州州立美術(shù)大獎(jiǎng)，盡管引起了很多爭(zhēng)議。

以上兩個(gè)故事都在傳遞一個(gè)信號(hào)：AI 賦能藝術(shù)創(chuàng)作是大勢(shì)所趨。下圖所展示的數(shù)據(jù)也做出了預(yù)測(cè)↓

文藝復(fù)興時(shí)期，人類創(chuàng)造了幾十萬幅繪畫作品，但是留存下來的作品數(shù)量不到十萬?，F(xiàn)在，人類每天在社交平臺(tái)上傳的圖片和視頻的數(shù)量超過十億。

在 2025 年到 2026 年之間， AI 輔助創(chuàng)作的圖片和視頻的數(shù)量將會(huì)超過人類自己創(chuàng)作出的數(shù)量，這也就意味整個(gè)數(shù)字創(chuàng)意會(huì)被AIGC 所賦能。

以世界名畫《戴珍珠耳環(huán)的少女》為例，17 世紀(jì)荷蘭畫家約翰內(nèi)斯·維米爾花了很長(zhǎng)時(shí)間來創(chuàng)作這樣一幅作品。但在今天，AI 可以將這位少女置身于廚房、咖啡店、沙灘等不同場(chǎng)景，大大豐富了原作之外的畫面想象力。

生成式人工智能藝術(shù)創(chuàng)作的發(fā)展現(xiàn)狀及未來

類似于自動(dòng)駕駛，我們將AIGC視覺能力和創(chuàng)作能力分為5個(gè)檔次：純?nèi)斯ぞ庉嫛鷦?chuàng)意創(chuàng)作工具→部分生產(chǎn)力創(chuàng)作工具→完全生產(chǎn)力創(chuàng)作工具→設(shè)計(jì)大師。目前我們仍處于從 L2 邁進(jìn) L3 的關(guān)鍵階段，未來還有很大發(fā)展空間。

事實(shí)上，從創(chuàng)意素材產(chǎn)生到進(jìn)入整個(gè)工作流，還有很長(zhǎng)的路要走。視覺生成領(lǐng)域要想創(chuàng)造出令人驚艷的作品，還面臨很多挑戰(zhàn)。

首先，在細(xì)節(jié)方面，我們經(jīng)常會(huì)遇到“恐怖谷效應(yīng)”，特別是手指，剛才在短片中，如果大家仔細(xì)觀察，會(huì)發(fā)現(xiàn)手指控制其實(shí)并不理想。

第二個(gè)難題是，究竟應(yīng)該用什么樣的prompt 才能發(fā)揮大模型的威力。

第三個(gè)難題是可控性問題，包括IP可控、人物可控和SKU可控。此外，在視頻制作中，還面臨不同鏡頭之間的連續(xù)性問題等諸多挑戰(zhàn)。

那么，視覺AIGC未來的想象空間到底有多大？有預(yù)測(cè)稱，GPT-4可能已經(jīng)達(dá)到了1.2萬億個(gè)參數(shù)，而GPT-5可能會(huì)更大。如果機(jī)器學(xué)習(xí)技術(shù)能夠在未來幾年，吸收和理解人類產(chǎn)生的高質(zhì)量語言數(shù)據(jù)，這種增長(zhǎng)可能會(huì)迎來一個(gè)新的天花板。

圖片中紅色部分是視覺AIGC能力表現(xiàn)，無論是Imagen還是Stable Diffusion，模型參數(shù)基本在幾十億，處于GPT-2的時(shí)代。我們想突破這個(gè)瓶頸，探索一個(gè)基于視覺的多模態(tài)底層大模型，能讓視覺 AIGC從GPT-2時(shí)代進(jìn)入到GPT-3時(shí)代。目前，我們自研的基礎(chǔ)模型的數(shù)據(jù)量級(jí)已經(jīng)達(dá)到60億，我相信，很快也將達(dá)到百億模型的目標(biāo)。

Pixeling：掀起未來創(chuàng)意無限可能

HiDream的產(chǎn)品Pixeling工具基于自研的生成式視覺多模態(tài)基礎(chǔ)模型而打造，支持各種不同模態(tài)之間的轉(zhuǎn)換，不僅支持文生圖、文生視頻、視頻編輯，還將支持圖片編輯、圖生視頻、圖生 3D 等功能。以圖片素材的生產(chǎn)的為例，涵蓋品牌調(diào)性、版權(quán)圖片、材質(zhì)特寫、模特?fù)Q裝、商品攝影等多種類型，目前有 16 種不同的圖片風(fēng)格可供選擇。

Pixeling還支持文本生成視頻以及圖片生成視頻，包括大家在影片中看到的最難場(chǎng)景是一個(gè)宇航員在月球上行走的全景畫面，他還能夠轉(zhuǎn)一個(gè)彎，這其實(shí)是有難度的。除了背景運(yùn)動(dòng)外，我們還實(shí)現(xiàn)前景運(yùn)動(dòng)、人物運(yùn)動(dòng)和運(yùn)鏡。此外，我們的產(chǎn)品最近在學(xué)習(xí)鏡頭語言，包括鏡頭構(gòu)圖、運(yùn)鏡和剪輯等，希望為從業(yè)者提供一個(gè)更加節(jié)省時(shí)間，提升效率的創(chuàng)作工具。

在電商領(lǐng)域，Pixeling 能夠根據(jù)用戶提供的 SKU 圖片，結(jié)合給定的 prompt 和背景圖生成與背景無縫銜接的商品圖片；如果用戶沒有給定背景圖，我們也可以根據(jù)給定的 SKU 圖片結(jié)合輸入的多種 prompt 生成對(duì)應(yīng)的商品圖，幾秒鐘就可以完成。

產(chǎn)品問世不久，我們參加了香港中文大學(xué)發(fā)布的 HPS v2的文生圖模型客觀評(píng)測(cè)。該評(píng)測(cè)把包含繪畫風(fēng)格、概念藝術(shù)、動(dòng)漫風(fēng)格以及真實(shí)圖片在內(nèi)的 3200個(gè)prompt分別放在不同文生圖模型里去驗(yàn)證。Pixeling1.0版本的模型上線和模型訓(xùn)練僅用了大約三個(gè)月時(shí)間，經(jīng)過我們的測(cè)試，目前在該數(shù)據(jù)集的文生圖模型中排名第二。

當(dāng)然，Pixeling1.0版本現(xiàn)在的表現(xiàn)與最好的競(jìng)品還是稍遜一籌，但它終究是三個(gè)月的baby，我相信它未來一定會(huì)成長(zhǎng)得更好。十分贊同其他嘉賓提到的AIGC“落地為王”觀點(diǎn)，這也是我們今后努力的方向。