編者按:本文來自微信公眾號 刺猬公社(ID:ciweigongshe),作者:朗寧,編輯:陳梅希,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
八月中旬,一個低調(diào)的匿名模型悄然登陸海外AI測評平臺LMArena,沒有開發(fā)者標(biāo)簽,也沒有品牌背書,只有一個奇怪的代號“Nano Banana”。
雖然看起來老實巴交的,但Nano Banana卻在平臺的Battle模式中,展現(xiàn)出驚人的圖像一致性和自然語言編輯能力,輕松擊敗了眾多知名對手。網(wǎng)友們被其一騎絕塵的硬實力折服,自發(fā)為它打上“一致性之王”和“Photoshop殺手”等標(biāo)簽。
很快,Nano Banana的熱度從AI測評平臺蔓延至Reddit和Discord的技術(shù)論壇中,人們激烈討論模型本身的同時,都試圖揭開背后開發(fā)者的神秘面紗。
正當(dāng)網(wǎng)友眾說紛紜、如火如荼地解謎時,谷歌AI Studio負(fù)責(zé)人Logon在X平臺發(fā)布了一個香蕉表情符號,DeepMind產(chǎn)品經(jīng)理Naina也分享了一張香蕉藝術(shù)貼墻作品,加上谷歌以往就有將小型模型命名為Nano的歷史,答案變得呼之欲出。
當(dāng)Nano Banana的熱度攀升到峰值時,谷歌終于在8月27日親自下場揭曉答案:Nano Banana正是其全新推出的圖像生成與編輯模型Gemini 2.5 Flash Image。
這場匿名模型引發(fā)的全球競猜游戲,以谷歌官宣認(rèn)領(lǐng)而告終,但顛覆性的AI圖像狂潮,才剛剛開始。
Nano Banana風(fēng)暴席卷互聯(lián)網(wǎng)
Nano Banana正式上線一周后,谷歌實驗室總裁Josh Woodward在X平臺透露,該模型全面推出后已累計完成超2億次圖像編輯,為Gemini吸引了超過1000萬新用戶,其火爆程度甚至導(dǎo)致谷歌內(nèi)部“TPU嚴(yán)重過載,SRE警報不停”。
洶涌而來的熱情用戶,讓Nano Banana幾乎刷屏了全球各大社交媒體,人們爭先恐后參與體驗、開發(fā)新玩法、分享傳播的盛景,不禁令業(yè)內(nèi)人士發(fā)出“好像2023年ChatGPT時刻”的感嘆。
率先出圈的是Nano Banana多元素拼接的玩法,用戶可以上傳一張多元素排布圖,并給圖中每個物品打好標(biāo)簽,然后在指令中下達(dá)你想要生成的圖片概述即可。
比如一位叫Travis David的用戶在X發(fā)文稱,他將13個元素排布在一張圖里上傳到Nano Banana,輕松獲得了一張堪比VOGUE雜志的時尚大片。
Travis發(fā)文中表示,目前13個元素幾乎逼近Nano Banana的上限
多元素拼接功能在海量用戶的開發(fā)下,很快出現(xiàn)各類邪修玩法。
最基礎(chǔ)的當(dāng)屬“實現(xiàn)OOTD自由”,以往需要費勁心思扒明星同款穿搭的時尚博主們,如今只要把圖片上傳給Nano Banana,模型就能秒出穿搭清單,甚至二次元動漫角色的穿搭也能被轉(zhuǎn)化為OOTD圖。
只需要上傳圖片,提示詞是“向我展示這個人物的ootd“即可
實測過程中,刺猬公社發(fā)現(xiàn),用戶甚至可以讓Nano Banana按照指令生成某種風(fēng)格的模特穿搭圖,再將生成的穿搭圖拆解為OOTD,全程僅耗時三分鐘。拆解OOTD過程中,它犯了一個小小的錯誤,導(dǎo)致“靴子”單品出現(xiàn)兩次,提出修改指令時,它也能“聽懂人話”,只刪掉多余元素,沒有改動圖片的其他部分。
AI生成的模特圖和OOTD,生成工具:Gemini2.5FlashImage(Nano Banana)
這個使用場景反過來同樣驚艷,對于日常真人出鏡拍攝OOTD的網(wǎng)紅模特來說,大可以省去畫全妝、找場地、擺pose等一系列為了出片所做的繁瑣工作,選一張狀態(tài)好的全身照、一張面部寫真,再把穿搭單品圖片上傳,寫真級別且無需修圖的素材轉(zhuǎn)瞬即得。
反向適用于OOTD試穿/圖源:互聯(lián)網(wǎng)
除了應(yīng)用于人與物之間的圖像生成,網(wǎng)友們還發(fā)現(xiàn)Nano Banana同樣適用于人與人關(guān)系的拼貼,這讓一眾追星黨們直呼萬歲。
無論是遙不可及的好萊塢巨星,還是叱咤風(fēng)云的商界巨擎,就算是叫囂著自己是火星人的馬斯克,只要一聲令(prompt)下,都得千里奔赴來跟你拍一張合照。
讓天下沒有追不到的星/圖源:互聯(lián)網(wǎng)
而更進(jìn)階、也是近期最出圈的玩法,就是利用Nano Banana自制手辦。
簡單的操作是上傳自家毛孩子、明星、二次元偶像的圖片,直接下令生成適用手辦制作的圖像,Nano Banana就會給出建模圖,甚至連手辦成品的細(xì)節(jié)圖乃至視頻也能獲取。
Nano Banana制作的手辦效果圖/圖源:互聯(lián)網(wǎng)
雖然還沒有用戶實測做出手辦的分享,但刺猬公社發(fā)現(xiàn)在萬能的電商平臺上,已有商家開始承接基于Nano Banana生成圖像的手辦制作。經(jīng)我們詢問,該商家表示AI生成的手辦建模圖只能作為參考,實物做出來仍有差距。
左側(cè)是用戶上傳圖片,右側(cè)是商家根據(jù)Nano Banana生成圖片制作的手辦
很多人看到這里也許已瞠目結(jié)舌,但Nano Banana的全部實力遠(yuǎn)不止于此,比如它在地圖和建筑領(lǐng)域的空間推理圖像再生效果,就讓很多專業(yè)人士嘖嘖稱奇。
Nano Banana的地圖視覺推理能力之強,可以在只上傳一張平面地圖的情況下,按照用戶打的標(biāo)簽和指令,平地起高樓般生成地圖對應(yīng)的實景。
一位用戶在地圖上標(biāo)注鳥巢,Nano Banana生成的實景/圖源:互聯(lián)網(wǎng)
相對應(yīng)地,如果用戶上傳一張城市建筑實景圖,Nano Banana又能清晰地給出圖中建筑的模型圖,或者按照用戶的要求標(biāo)注圖片建筑的相關(guān)信息。
在用戶指令要求下,Nano Banana可標(biāo)注建筑信息/圖源:互聯(lián)網(wǎng)
不僅如此,有網(wǎng)友實測這個功能同樣適用于數(shù)碼電子產(chǎn)品甚至智能汽車。
右邊是模型生成的內(nèi)部結(jié)構(gòu)圖/圖源:互聯(lián)網(wǎng)
隨著Nano Banana的走紅,層出不窮的創(chuàng)意玩法以日為單位被開發(fā)出來,利用模型做漫畫分鏡、給線圖上色,甚至直接生成有連貫劇情的電影畫面…….
上述一切的發(fā)生只用了短短兩周時間,其爆發(fā)速度甚至超越了當(dāng)年橫空出世的ChatGPT。
剝開Nano Banana的香蕉皮
剝開這款A(yù)I產(chǎn)品的香蕉皮,就會發(fā)現(xiàn)Nano Banana能夠風(fēng)靡社交媒體,絕非僅是互聯(lián)網(wǎng)營銷的勝利,更是一場技術(shù)范式的突破。
通俗來說,Nano Banana的技術(shù)突破可以理解為一整套針對“理解-生成-保持一致-快速迭代”閉環(huán)的工程化解決方案。
在理解上,早期的AI模型往往“偏科”嚴(yán)重,ChatGPT有很強的文字讀寫能力,但不太懂圖像;而Midjourney和DALL-E 3為代表的模型,繪圖能力雖強但對文字的解讀卻很淺顯,經(jīng)常把指令的需求搞錯。
原因在于這些傳統(tǒng)模型更像一個“翻譯官”,它將用戶的指令(prompt)轉(zhuǎn)化成一個中間的、抽象的數(shù)學(xué)表示,然后圖像生成模型再根據(jù)這個數(shù)學(xué)表示來繪圖。
這種單向管道式的工作原理,一方面不可避免地會在“中間表示”環(huán)節(jié)丟失大量原始指令的細(xì)微語義;另一方面,它很難原生地處理圖像輸入,當(dāng)用戶上傳一張圖片進(jìn)行編輯時,模型需要先將圖片“反向翻譯”成中間表示,然后再進(jìn)一步繪圖。
而Nano Banana則像一個生于多語言環(huán)境的人,從訓(xùn)練之初就以文本、圖像、代碼等數(shù)據(jù)給模型學(xué)習(xí),因此它不再需要將一個模態(tài)“翻譯”成另一個模態(tài),而是天然就具有多模態(tài)語義對齊能力。正是這種在文字和圖像之間無縫絲滑的切換能力,使得用戶可以用日常對話的形式(模糊指令),無痛用嘴修圖。
Nano Banana團(tuán)隊/圖源:DeepMind
Nano Banana的技術(shù)突破遠(yuǎn)不止于此,它在交錯式生成與一致性保持上,也對傳統(tǒng)模型進(jìn)行了降維打擊。
顧名思義,交錯式生成指模型能夠在一個連續(xù)的、多步驟的會話中,綜合理解所有上下文的能力,包括用戶之前下達(dá)的文字指令、上傳的圖片,以及模型自己生成的歷史結(jié)果;而一致性保持則指模型在多次生成和編輯中,保持特定主題(人物、物體、風(fēng)格)的核心能力,也是AI圖像模型長期競逐的“圣杯”。
用一個例子來呈現(xiàn)Nano Banana與傳統(tǒng)模型的差距,假設(shè)任務(wù)是為哈利波特創(chuàng)作一組不同場景下的插圖。
傳統(tǒng)模型就像是與多位獨立的插畫師合作,每次下達(dá)任務(wù)前,你都需要用文字重新描述哈利的全部特征“黑頭發(fā)、綠眼睛、圓眼鏡,額頭有閃電傷疤”,但令人抓狂的是,每個插畫師對文字的理解不盡相同,最終得到的每張圖片的哈利雖然都有上述特征,但看起來并不像同一個人。
不僅如此,獨立插畫師之間對彼此的風(fēng)格并不了解,如果你想讓插畫師B繪制“哈利在圖書館復(fù)習(xí)的場景,且與插畫師A負(fù)責(zé)的魁地奇球場分鏡風(fēng)格一致“,這幾乎是不可能完成的任務(wù),因為插畫師B既不知道魁地奇球場什么樣,也不知道插畫師A的風(fēng)格是什么。
而Nano Banana則像一位與你長期合作的資深插畫師,你只需要在最開始工作時告訴他哈利的特征,然后就能與老友對話般輕松和流暢的方式,讓這位記憶力絕佳的藝術(shù)家,聽從你的調(diào)遣。
此外,Nano Banana還有著遠(yuǎn)超傳統(tǒng)模型的快速迭代能力。
任何好模型若無法快速響應(yīng)用戶,都會極大降低破圈與普及的潛力。在對用戶指令的響應(yīng)與快速迭代上,傳統(tǒng)模型就像用打字機(jī)寫作,任何一個修改都可能需要重打整頁紙,而Nano Banana則進(jìn)化到了word寫作,可以隨時刪除/修改局部,并立刻看到整篇文章(圖像)的新面貌。
Nano Banana能實現(xiàn)這一突破,不僅在于團(tuán)隊將模型壓縮優(yōu)化到實際產(chǎn)品中以秒級響應(yīng)(實測約13秒/張)返還高清圖像,上述多模態(tài)語義對齊、交錯式生成和一致性保持等優(yōu)勢的加持,也是Nano Banana對用戶指令快速響應(yīng)迭代的重要原因。
顛覆、重塑與共生
從問世到席卷全球的兩周時間,Nano Banana的沖擊波同樣撼動了資本市場與產(chǎn)業(yè)端的神經(jīng)。
谷歌發(fā)布Nano Banana當(dāng)日,創(chuàng)意軟件巨頭Adobe的股價就應(yīng)聲下跌約2%;比即時波動更關(guān)鍵的是長線走勢,據(jù)Business Insider報道,Adobe的股價在過去一年累計下跌了35%,主要原因之一就是極速發(fā)展的人工智能帶來的顛覆性變革。
顛覆帶來的危機(jī)感隨著網(wǎng)友不斷解鎖Nano Banana的新玩法,傳導(dǎo)至更多職業(yè)領(lǐng)域。
一位剛?cè)胄械碾娚谭b模特告訴刺猬公社,原本中小商家聘請模特拍攝每天成本約1500元/人,上架時間至少以周為單位,而Nano Banana能將這一整套流程壓縮至分鐘級,“如果AI生成圖像的細(xì)節(jié)繼續(xù)完善下去,未來肯定不需要這么多真人模特了”。
只要給到人物肖像圖、產(chǎn)品圖和簡單指令,Nano Banana就能生成商品效果圖/圖源:互聯(lián)網(wǎng)
還有很多電商攝影師、后期修圖師,乃至視覺設(shè)計師,也紛紛在社媒平臺發(fā)帖調(diào)侃稱眼看著被AI搶了飯碗,準(zhǔn)備轉(zhuǎn)行去賣咖啡、送外賣、開滴滴。
AI在產(chǎn)業(yè)端造成的轟動不僅發(fā)生在圖像賽道,就在谷歌上線Nano Banana的前一天,翻譯界的最高學(xué)府蒙特雷國際研究學(xué)院宣布關(guān)閉,這家曾培養(yǎng)了大量外交官、翻譯專家和國際NGO組織負(fù)責(zé)人的頂級名校,自ChatGPT問世以來生源大幅銳減,最終陷入財務(wù)困境。
但歷史上的技術(shù)革命告訴我們,創(chuàng)新從未單純地使某個行業(yè)消亡,舊生產(chǎn)關(guān)系被顛覆的同時,必然伴隨產(chǎn)業(yè)重構(gòu)和新職業(yè)的誕生。
模特行業(yè)不會消亡,但將走向分化,“批量平替”需求勢必會被AI取代,但只有人類才能表現(xiàn)出的“故事性”與“情感細(xì)節(jié)”,始終是市場的稀缺資源。
與此同時,商業(yè)攝影師、修圖師和設(shè)計師的角色也在被重塑,他們的核心價值不再局限于操控相機(jī)或軟件,而是延展到審美判斷、敘事構(gòu)思和情緒引導(dǎo),以及最關(guān)鍵的新能力:駕馭AI實現(xiàn)創(chuàng)作意圖。
而對于Adobe在內(nèi)的工具型平臺而言,摩根士丹利分析師認(rèn)為,這些應(yīng)用軟件在AI時代的價值,在于提供“最后一公里”服務(wù)。
事實上,互聯(lián)網(wǎng)用戶對于圖像和文字生成的需求,無論是千人千面的多樣化程度,還是用戶基數(shù)決定的龐大且碎片化的指令數(shù)量,都決定了通用AI模型很難提供端到端的完美解決方案。
因此就像物流運輸公司負(fù)責(zé)中途貨運,最后一公里交由快遞站點配送一樣,Adobe等平臺目前也開始接入第三方基礎(chǔ)大模型,并基于自身的數(shù)據(jù)與資源進(jìn)行后期訓(xùn)練,最終打造出更貼合用戶需求、更專業(yè)的AI落地產(chǎn)品。
換一種視角看,這場技術(shù)浪潮并不是一場零和游戲。Nano Banana的出現(xiàn)加速了產(chǎn)業(yè)洗牌,但同時也在打開新的機(jī)會窗口。無論是創(chuàng)作者、設(shè)計師還是企業(yè),真正的挑戰(zhàn)并非如何抵擋AI,而是如何找到與之協(xié)作的路徑。
工業(yè)革命時期的機(jī)器擴(kuò)展了人類的肌肉力量,如今的生成式AI則在延展人類的想象力和表達(dá)力?;蛟S我們正在進(jìn)入一個全新的內(nèi)容創(chuàng)作階段,在這里,人與AI并非對立的兩極,而是互為補充的伙伴關(guān)系。
與AI共生的時代,正緩緩拉開帷幕。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。