2024年,在Sora爆發(fā)后,視頻AIGC如雨后春筍般爆發(fā),AIGC熱度居高不下。然而,AIGC當前正面臨著“叫好不叫座”的場面——跟5G、XR等技術面臨的境況相似。
互聯(lián)網(wǎng)上充斥著關于AIGC新品或更新的報道,且大多數(shù)的標題都顯得聳人聽聞,比如《3300萬剪輯師被革命, Sora、Pika、Gen-2將全面登陸Adobe》《Sora“炸場”,中美AI差距有多大?》《微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強東還真”》。
對大多用戶來說,“革命”、“炸場”、“炸裂”的產(chǎn)品都遙不可及,要么根本沒法體驗,要么不知道能用來干什么。雖然有一些投機者靠售賣AIGC課程賺得缽滿盆滿,但真正像微信、百度、淘寶一樣被人們日常用起來的AIGC產(chǎn)品幾乎沒有。
任何技術只有應用到場景,解決實際問題,才能體現(xiàn)出價值。落地,成了大模型的頭等大事。百度CEO李彥宏在最近的百度AI開發(fā)者大會上說:“大語言模型本身并不直接創(chuàng)造價值,基于大模型開發(fā)出來的AI原生應用才能滿足真實的市場需求。”在聯(lián)想、360、阿里云等公司的活動上,高管都在討論同一個話題:讓大模型落地,轉化成AIGC應用。過往的一次次技術革命已展現(xiàn)出一條規(guī)律:殺手級應用是一種技術真正走向大規(guī)模應用的“奇點”。
慶幸的是,在視頻AIGC領域,我觀察到已經(jīng)有一些更務實的產(chǎn)品在默默壯大,甚至大有成為AIGC殺手級應用的勢頭——比如3D視頻AIGC明星公司魔琺科技旗下的有言。
Sora很偉大,但仍在“概念機”階段
2024年Sora橫空出世,所生成的以假亂真的視頻震驚世人。Sora展現(xiàn)出了機器從未擁有的真實世界理解與模擬能力,得益于背后的兩項核心技術突破——Spacetime Patch(時空補丁)技術和Diffusion Transformer(DiT,或擴散型 Transformer)架構,這給業(yè)界帶來了巨大的啟發(fā),推動更多玩家強化視頻AIGC,比如谷歌Lumiere、Meta的V-JEPA。
OpenAI官方強調,Sora并不完美,在技術層面,Sora存在一些缺陷,比如難以準確模擬復雜場景的物理原理,無法理解事物的因果關系,混淆提示的時間與空間細節(jié),最典型的就是出現(xiàn)了“出蠟燭火苗不動、被子沒碎紅酒先漏”等“視頻BUG”。
更嚴峻的問題在于:Sora并不是一款商品,甚至也不是一款產(chǎn)品,它更像是一款“概念機”或者說“概念車”。Sora當前并未對公眾開放,即便開放也面臨重重問題:
一是可靠性低導致可用性低。生成結果不確定是當前所有AIGC產(chǎn)品的致命缺陷,包括文生文AIGC如ChatGPT。ChatGPT無法取代搜索,因為它的結果不是100%準確,用戶獲取答案后一定需要去傳統(tǒng)搜索引擎再比對。同樣,視頻AIGC如Sora、Pika生成視頻也存在結果的不確定性,就像開盲盒一樣,有時候會有驚艷的結果,有時候則會讓人大失所望,用戶需要不斷修改Prompt、不斷重試,碰運氣,且需對結果反復校驗。結果就是,用戶可以體驗它們,在極少數(shù)場景下“玩兒一下”,但無法真正使用它們。
二是不可控不可編輯導致場景極窄。制作視頻是一個精細活兒,不論是企業(yè)對外的品牌營銷、產(chǎn)品營銷、社媒運營、大型活動、電商運營、專題欄目、企業(yè)內訓等高頻視頻場景,抑或是內容創(chuàng)作機構對外輸出的資訊、評測、Vlog、短劇等視頻,都有著“大量信息濃縮在短視頻中”的信息高密度特征,需要專業(yè)剪輯人員精準配置素材,如BGM、提示詞、轉場動畫、動圖、特效,同時在角色、場景、燈光以及道服化上都要有主動創(chuàng)意設計。Sora們最多只能生成創(chuàng)意類素材“貼片”,哪怕時長增加生成的視頻也很難被直接應用(比如被自媒體直接發(fā)布到平臺),創(chuàng)作者必須要進行再次編輯。
在聯(lián)想TechWorld上,楊元慶就指出,AI不是取代誰而是“增強智能”,是提效工具。著名導演陸川則指出,AI對影視工業(yè)的價值是“極大提升創(chuàng)意的視覺化速度”,但卻不可能取代人的創(chuàng)意。因此,視頻AIGC生成內容的可控可編輯至關重要。
三是目前依然缺乏跑得通的商業(yè)模式。一個技術要從“概念產(chǎn)品”成為“產(chǎn)品”,關鍵是要能真正被用戶使用起來,解決用戶在具體場景中的具體問題。而一款產(chǎn)品要成為商品,則要有對應的商業(yè)模式。對于技術產(chǎn)品來說,商業(yè)模式的成立更重要:只有商業(yè)化才能持續(xù)反哺技術的進步。然而,當前的AIGC產(chǎn)品,包括ChatGPT、Sora在內都沒有成型的商業(yè)模式,比如谷歌母公司Alphabet董事長John Hennessy就曾表示,基于大型語言模型的搜索的成本可能是標準關鍵詞搜索的10倍,再加上體量不夠沒有廣告等商業(yè)模式,ChatGPT很難大規(guī)模普及。今年2月ChatGPT官網(wǎng)停止Plus付費訂閱項目的購買注冊,原因是“需求量太大”導致算力跟不上。
因為結果不可靠不確定、不可控不可編輯、不可商業(yè)化三大原因,包括Sora在內的諸多視頻AIGC以及大部分其他AIGC,都停留在概念階段,只能被稱為“娛樂AI”,而不是真正可用的商業(yè)級或者說生產(chǎn)級AI,這是當前AIGC“叫好不叫座”的癥結所在。
可商用是AIGC落地的重中之重
AIGC是人類迄今為止發(fā)明的最復雜的技術之一,它讓人類看到了AGI(通用型人工智能)的曙光,打開了機器“無所不能”的全新想象空間。因此面對AIGC,人們如同原始人祖輩發(fā)現(xiàn)火種一樣興奮是完全可以理解的。在AIGC發(fā)展進程中,OpenAI等行業(yè)巨鱷持續(xù)研發(fā)更強大的基礎大模型技術,永攀技術高峰也不可或缺。
而在AIGC落地上,推出可商用的產(chǎn)品則是繞不過的一步。可商用產(chǎn)品可以沒有Sora炫酷,但一定要能實實在在解決人們生活與工作中的問題,哪怕是小問題,只有這樣才有人愿意買單,才能讓AIGC成為商用產(chǎn)品。
在視頻AIGC領域,魔琺科技旗下的有言就給出了另外一種解法。依托魔琺科技在3D虛擬人與AIGC上多年的技術積累以及垂直場景錘煉,有言采取了與Sora等市面上主流視頻AIGC產(chǎn)品截然不同的產(chǎn)品思路,成為行業(yè)首款生成結果可靠、可控、可編輯的商業(yè)化視頻AIGC產(chǎn)品。
(圖源:魔琺有言官網(wǎng))
在產(chǎn)品實現(xiàn)上,有言采取的是“增強智能”的思路,也就是說不是將一切工作丟給AIGC,而是用AIGC技術來提升3D視頻生成的效率、質量與創(chuàng)意。
在AIGC技術爆發(fā)前,魔琺科技就已實現(xiàn)3D虛擬人和3D內容的工業(yè)化生產(chǎn),服務了各行各業(yè)的超200家企業(yè)客戶。自研的全棧AIGC技術則給魔琺科技帶來了重塑3D視頻生成技術的機會。
今年3月, “魔琺有言AIGC一站式3D視頻創(chuàng)作平臺”正式上線對公眾開放。跟Sora、Runway、Pika等視頻AIGC,以及Synthesia AI、Heygen、騰訊智影、字節(jié)即創(chuàng)、商湯如影等2D數(shù)字人生成不同,“魔琺有言”結合三維圖形學技術與AIGC技術,讓視頻AIGC結果可控可靠、可編輯,進而具備前所未有的實用性。
“魔琺有言”并沒有將“創(chuàng)意”全部交給AI來做,而是將AIGC糅合在現(xiàn)實世界人類制作視頻的流程中,讓視頻制作提效降本、降低門檻。人類用傳統(tǒng)方式制作視頻時,需考慮角色、場景、運鏡、燈光、屏幕內的素材等視頻要素,有言在進行3D視頻生成時,也會基于3D人物、3D場景和燈光、3D鏡頭、素材(屏幕)等要素,讓對應要素可AIGC,同時再進行智能合成,最終渲染生成3D視頻。
在魔琺有言內還內置了海量視頻模版案例庫,用戶生成視頻可選擇視頻場景、人物形象、聲音動作等模版,再輸入自定義內容(如臺詞)進行3D視頻內容生成,這一過程用戶可對人物、動作、場景甚至相機鏡頭角度進行編輯。
(魔琺有言官網(wǎng)展示的模板庫)
在體驗后我發(fā)現(xiàn),“魔琺有言”確實不如Sora們炫酷,生成的視頻也并非主打“驚喜創(chuàng)意”,它也不會承諾用戶“給一句話就丟出一個完整視頻”,而是提供一種全新的3D視頻創(chuàng)作模式,讓人們可以快速定制3D視頻,特別是擁有人物形象和準確講解的3D視頻。
通過海量模板化的3D預置內容、原子化的3D視頻素材,有言做到了3D視頻生成結果的可靠可控可編輯,規(guī)避了其他視頻AIGC的缺陷。在使用魔琺有言時,我感覺它在易用性上已經(jīng)足以跟剪映等UGC視頻剪輯工具看齊,而最大的突破在于讓創(chuàng)作者省掉了視頻拍攝與錄制環(huán)節(jié)的許多工序,比如場地、演員、燈光、攝影等,進而大幅縮短了視頻制作時間、降低了視頻制作成本。
(魔琺有言具有高度的結果可靠性、可控性、確定性和可編輯性)
“不是最炫酷的,卻是最實用的”,魔琺有言也成了許多務實的企業(yè)的選擇,在上線前就已有近50家各行業(yè)頭部客戶付費購買其企業(yè)旗艦版產(chǎn)品,其中包含東吳證券、中金財富、廣州廣電、蘇州廣電、海爾集團、方太集團、老板電器、斯凱奇、中倫律所、愛爾眼科、自然堂、金巴厘集團等頭部企業(yè),覆蓋金融、廣電、 3C、美護、文旅、政府、律所、酒水、教育、培訓、醫(yī)美等多個領域。企業(yè)基于魔琺有言生成的視頻,用在品牌推廣、社媒運營、產(chǎn)品營銷、企業(yè)內訓、廣電傳媒、知識分享、K12教育、電商、本地生活等場景。
(魔琺有言生成的酒店歡迎介紹視頻截圖)
在視頻已成為信息傳播的主要載體時,企業(yè)正在積極抓住視頻化的機遇:
“劉強東數(shù)字人”出道,周鴻祎、雷軍等企業(yè)家直播顛覆行業(yè)表明,每個企業(yè)家以及高管都將用數(shù)字人與用戶溝通;
家電3C汽車等行業(yè)正在從“一年一場發(fā)布會、旗艦產(chǎn)品才有發(fā)布會”,升級到“天天都有發(fā)布會、款款產(chǎn)品都有發(fā)布會”的營銷新階段,在線發(fā)布會日益盛行,高成本的真人錄制模式必將被數(shù)字人發(fā)布會取代;
淘寶、京東等電商平臺的商品介紹頁面以及產(chǎn)品使用手冊已全面視頻化。如何讓商家每一個商品都擁有視頻手冊,以吸引用戶下單和提升售后體驗,正在成為電商行業(yè)攻克的新難題;
在直播帶貨盛行的今天,成本巨高的達人直播已不適合大多數(shù)企業(yè),“店播”成為主流,低成本且全年無休的數(shù)字人店播日益受商家歡迎;
金融行業(yè)全面在線化,“數(shù)字虛擬經(jīng)理“成為在線金融服務的標配,可互動、可服務的數(shù)字人客服正在被引入到更多銀行等金融App;
自媒體全面擁抱視頻化浪潮,不愿意或者不適合或者沒時間出鏡的博主,正在探索用數(shù)字人來打造自己的3D數(shù)字人虛擬主播;
……
只要是創(chuàng)作視頻的場景,都是3D視頻AIGC應用的潛在場景。在這樣的背景下,魔琺有言被許多企業(yè)搶先試用,且用了起來。以海爾集團為例,有言已經(jīng)深度融入了海爾集團的中臺系統(tǒng),作為AIGC工具賦能海爾營銷、平臺服務、研發(fā)、電商、數(shù)字化等各個業(yè)務線。應海爾集團需求,魔琺有言首批已為其開通100個有言賬號,提供給6大職能部門約400多人使用,兩個月以來一共生產(chǎn)了共計600多支總時長達近3000分鐘的各業(yè)務線視頻,平均每日生產(chǎn)視頻數(shù)量達到30多支,其中培訓類視頻制作成本降低了50%。
(圖源:魔琺有言官網(wǎng))
企業(yè)為什么能將魔琺有言用起來?原因無他:基于魔琺有言進行3D視頻AIGC,不只是可以大幅降低視頻制作成本,更可在更短時間生成更多3D視頻,進而更好地擁抱視頻化浪潮。由于魔琺有言可以實實在在給企業(yè)解決問題,實現(xiàn)大規(guī)模低成本的3D視頻生成、企業(yè)也愿意為此付費,這也讓魔琺有言成為第一款跑通商業(yè)模式的視頻AIGC產(chǎn)品。
面對新技術,人們習慣高估其短期爆發(fā)力,卻低估長期應用價值。在一些媒體推波助瀾下,當下人們對AIGC以及大模型技術有諸多誤解,期待過高,甚至以為其無所不能且可“一鍵使用”。當一些企業(yè)在試圖尋找AIGC產(chǎn)品,往往發(fā)現(xiàn)這些產(chǎn)品并未未真正產(chǎn)品化,不過是AIGC的半成品,于是往往會“大失所望”,甚至因此對AIGC技術“拔草”。這就像早期的VR設備一樣,當技術不成熟、體驗不完善、不完整就推給用戶時,往往會差評如潮,勸退用戶。更務實的魔琺有言無異于視頻AIGC的一股清流:雖然看起來似乎不那么炫酷,但卻能解決問題,這就足夠了。
視頻AIGC的殺手級應用要來了
在技術發(fā)展進程中,技術產(chǎn)品化、產(chǎn)品商用化是技術落地的兩大環(huán)節(jié),前者讓技術有落地場景,后者則可通過商業(yè)回報反哺技術投入,降低技術成本,給技術普及奠定基礎。在技術不斷發(fā)展的進程中,都會出現(xiàn)一個殺手級應用出現(xiàn)的“奇點時刻”,用戶規(guī)模大規(guī)模增長、技術成本數(shù)量級降低、用戶體驗也會得到顯著提升,技術發(fā)展由此從量變走向質變。
縱觀歷史上每一次技術變革,從孕育到爆發(fā)都會經(jīng)歷相似的曲線,其中最關鍵的一個節(jié)點就是殺手級應用的出現(xiàn):如果一直沒有出現(xiàn),這項技術往往會被打入冷宮;一旦殺手級應用出現(xiàn),這項技術就將走向徹底的爆發(fā)。
在3G網(wǎng)絡的發(fā)展中,iPhone是殺手級應用,它給了用戶使用3G網(wǎng)絡的理由;
在移動互聯(lián)網(wǎng)發(fā)展中,微信是殺手級應用,它讓每個人都有在手機購買流量上網(wǎng)的沖動;
在4G網(wǎng)絡發(fā)展中,抖音是殺手級應用,人們需要更快的網(wǎng)絡來看流程的直播和高清的視頻;
在深度學習發(fā)展中,Siri是殺手級應用,人們第一次體驗到了用自然語言與機器交互的奧妙;
在電動車發(fā)展中,特斯拉Model S是殺手級應用,它開啟了電動車普及的宏圖篇章;
2024年,行業(yè)一直在討論,AIGC以及大模型的殺手級應用到底是什么?在羅超Pro看來,一款殺手級應用必須具備如下特征:
1、商用潛力大,有剛需,被用起來,有人愿意買單。
在百度百科中,殺手級應用(Killer Application)是指某個非常有用的計算機程序,并且是消費者愿意為這個程序而為技術買單。是的,“非常有用”,有用到消費者愿意因為它而“買單”某項技術,這是關鍵——這里的“買單”不一定是付費,也可以是免費但要承擔“看廣告”等其他成本。
在短視頻直播爆發(fā)前,很多用戶并沒有升級到4G網(wǎng)絡的欲望,因為使用3G網(wǎng)絡足夠了,短視頻直播的出現(xiàn),讓人們愿意為4G花錢,成為4G爆發(fā)的前提。如今,數(shù)百家企業(yè)付費購買也足以說明有言具備“用戶愿意買單”這一特征,反觀其他主流AIGC產(chǎn)品,則大都難以“賣錢”,比如Sora依然是Demo類的非商用概念產(chǎn)品,ChatGPT因缺乏真實場景難以被大規(guī)模使用。
2、產(chǎn)品足夠好用易用,低門檻吸引更多人用。
其實在iPhone出現(xiàn)前,市場上就已有諾基亞、黑莓等功能手機以及PDA(掌上電腦),它們可以拍照、可以聽音樂,甚至可以安裝手機版QQ等軟件,還能玩一些簡單的游戲,然而因為鼓搗門檻高這些設備只能在發(fā)燒友中普及。通過iOS+AppStore,iPhone給用戶提供前所未有簡單易用的智能移動設備使用體驗,開創(chuàng)了智能手機這一革命性品類。
在有言出現(xiàn)前,市面上也有一些數(shù)字人創(chuàng)作平臺或者2D數(shù)字人工具,然而卻不夠好用且生成的視頻質量差。因為只有人物唇形的AIGC,其他數(shù)字人動態(tài)則只能依靠錄制視頻片段的重復播放,因此講解內容單一枯燥,且因為依靠錄制視頻,所以數(shù)字人動作肢體都無法被修改和AIGC生成,無法被用作生產(chǎn)工具。有言提供了一站式3D視頻生成服務,3D虛擬人動作、表情都為AIGC生成,生成內容流暢生動。此外有言AIGC生成的3D視頻可靠、可控、可編輯,使用門檻低,哪怕沒有經(jīng)過專業(yè)剪輯訓練的人也可以上手,真正做到了傻瓜式的3D視頻生成,解決了企業(yè)日常的視頻生成問題。
(魔琺有言生成的剃須刀種草視頻)
特別值得一提的是,除了企業(yè)/組織的視頻創(chuàng)作外,有言創(chuàng)作的視頻還可被應用在更廣泛的場景,比如知識分享、社交互動、工作匯報等。據(jù)魔琺科技透露,有言幾個月后將上線3D虛擬人AIGC功能,用戶甚至只需上傳幾張照片就能即刻生成個人的3D虛擬人視頻,對此羅超Pro將保持密切關注。
3、產(chǎn)品的商業(yè)模式能跑通,可以獲取源源不斷的收入。
在特斯拉2012年推出第一款Model S時,它已成立9年。在2008年,特斯拉就交付了第一款純電動汽車Roadster,然而因為體驗不成熟、價格極昂貴(當時要14萬美元起)、市場認知弱等原因未能普及,當時的特斯拉經(jīng)營困難,差點賣給Google。Model S的大獲成功讓特斯拉構建了商業(yè)正循環(huán),徹底扭轉了不利局面。
因此,商業(yè)模式跑通是殺手級應用的另一特征:一方面要有人愿意買單,另一方面用戶愿意付出的成本可覆蓋生產(chǎn)研發(fā)以及運行的成本。唯有如此,產(chǎn)品才可以賺取收入來反哺技術,讓技術不斷精進持續(xù)提升用戶體驗,同時更大規(guī)模地推動技術成本降低,進而形成正循環(huán)效應。AIGC技術更是如此,用的人越多越智能、越便宜,只有商業(yè)化才能促進AIGC產(chǎn)業(yè)鏈形成規(guī)模效應降本,才能獲取用戶反饋不斷驅動技術進化。
(圖源:魔琺有言官網(wǎng))
魔琺有言正好具備以上三大特征,是視頻AIGC潛在的殺手級應用,在未來有望成為企業(yè)視頻制作的標配工具,帶動AIGC技術走向更大規(guī)模的爆發(fā)、更大程度的普及。在視頻AIGC的浪潮中,魔琺有言不是最炫酷的玩家,但它卻走了一條更務實的路。結合中國市場優(yōu)勢做更接地氣的應用級產(chǎn)品,是許多中國科技公司踐行成功的路,我也相信魔琺科技有言正走在正確的道路上。