五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

沒有發(fā)布會,沒有CEO站臺,谷歌用一根“香蕉”贏得了歡呼

關注
一個匿名模型如何引爆社區(qū)?

編者按:本文來自微信公眾號 硅星人Pro(ID:Si-Planet),作者:黃小藝,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

在大模型發(fā)布新版本往往高舉高打的當下,Google的一款秘密模型低調(diào)地引爆了社交網(wǎng)絡。

8月中旬,一個名為nano-banana的模型在 LMArena 平臺的「Battle」中被發(fā)現(xiàn),盡管沒有任何官方開發(fā)者明確聲稱其歸屬,但很快,出于驚人的效果獲得了病毒式的關注。甚至大量用戶只為能被分配到該模型,而不斷地參與平臺模型盲測,相關圖片也在社交平臺上廣泛傳播。

直到北京時間8月27日凌晨,谷歌正式認領了該模型,正是新推出的Gemini 2.5 Flash Image,目前已經(jīng)可以在Gemini app、Google AI studio、Google API進行使用。

在官方介紹中,核心技術(shù)亮點主要是以下三個:

  • 顛覆性的一致性(Consistency):在連續(xù)生成或編輯中保持人物身份的穩(wěn)定。

  • 自然語言驅(qū)動的編輯:用戶僅通過對話式指令即可實現(xiàn)高精度圖像修改,無需復雜的專業(yè)工具。

  • 閃電速度:圖像生成與編輯響應時間通常在1-2秒內(nèi),提供了接近實時的交互體驗。

我們也實測了一番,結(jié)果有驚艷,也有翻車,但確實在一致性上做到了斷層領先的水平。

模型實測:能幫我實現(xiàn)Labubu自由,還會做計算題?

一打開模型,我們就向AI下達了第一個指令:給我來七個Labubu,直接實現(xiàn)“手辦自由”。

直接上傳一張Labubu的商品圖,并復制修改了這段廣為流傳的手辦Prompt,生成結(jié)果如下:

乍一看效果非常好,Labubu的外形特征、搪膠材質(zhì)都非常的逼真,甚至可以發(fā)朋友圈以假亂真。但仔細一看,數(shù)量卻不對,桌面上只有六小只,缺失了一個綠色的玩偶。

讓AI學會準確數(shù)數(shù),依然是個問題。另外,由于我們最初的prompt里提到了“正版”,AI沒能輸出結(jié)果,修改措辭后才完成了生成。

接下來,我們又嘗試了多張圖片融合,據(jù)官方介紹能夠保持人物的一致性,目前最多可支持三張圖片合成,我們嘗試了一下讓甄嬛和安陵容來到現(xiàn)代都市,并且要求保持復雜的中國傳統(tǒng)首飾不變形。

AI也基本完成了任務,在甄嬛的身體發(fā)生轉(zhuǎn)動和變化的情況下,袖口的花紋和頭飾基本沒有變化,并為了完成Prompt中提到的couple(沒錯,我是甄嬛和安陵容CP粉),設計了一個在街頭親密自拍的動作。

如果覺得這個姿勢不夠滿意,甚至可以通過簡筆畫的方式,讓AI直接理解圖片示例,比如我們直接告訴AI,姿勢照著圖二修改。

盡管火柴人畫得很抽象,但AI還是完成了任務。

這并不是一個簡單的多圖融合。此前生成模型的多圖參考,是文本和圖像兩種跨模態(tài)輸入的對齊,對prompt格式有要求,例如A + B + C +運動,圖像主體盡量清晰,運動描述盡量直觀簡潔,還需要一定的抽卡概率。

而Gemini 2.5 Flash顯然對復雜的多模態(tài)輸入理解得更加準確。

這個多圖融合的featuer,在匿名測試階段就已經(jīng)被電商用戶瘋狂夸贊了,我們接下來嘗試了商品的替換,實測結(jié)果卻輕微地翻車了。

將兩張圖片融合后的生成結(jié)果如下,盡管可以看到材質(zhì)、樣式符合了原圖,但遺憾是個超大杯。

當我們試圖通過prompt修改,讓香水瓶恢復正常尺寸時,模型卻顯得始終執(zhí)著于超大杯,修改后的圖片與原圖幾乎沒有差別。

雖然很想繼續(xù)修改,但大量用戶涌入后,由于“內(nèi)部錯誤”,這個號稱能速生圖片的模型硬生生卡了幾分鐘,也無法完成更多任務了。

不過值得注意的是,官方提到得益于 Gemini 的先進推理,模型會有一定的理解和思維能力。盡管在符合現(xiàn)實邏輯上翻了車,但計算數(shù)學題卻成功了。

我們給出了一個小學腦力計算題,在很短的時間內(nèi),模型就計算出了正確答案。

此處值得一個掌聲。

“社區(qū)民選”的勝利

不僅模型的一致性效果很驚艷,此次模型出圈的路線也很有趣。

8月中旬,這款模型以完全匿名身份出現(xiàn)在LMArena的對戰(zhàn)模式中時,用戶需要在不知來源的情況下,僅憑生成效果進行盲測投票,短短兩周時間,憑借在“一致性”上的壓倒性優(yōu)勢,“nano-banana”在盲測中持續(xù)勝出,迅速引起了全球AI核心用戶和開發(fā)者的注意。

討論從LMArena平臺迅速擴散至Reddit、X (Twitter)、Discord等社區(qū)。用戶自發(fā)進行極限測試、分享驚艷案例,并為其創(chuàng)造了“一致性之王”、“Photoshop殺手”等極具傳播力的標簽,甚至很多人會因為想要使用nano-banana模型,反復參與點評和測試,只為獲得一次隨機抽中banana的機會。

就在不少人還在猜測,模型是否會開源,什么時候正式發(fā)布的時候,谷歌工程師巧妙地在社交媒體發(fā)布"?"表情符號,將解謎游戲推向新高度。8月26日,在市場熱度和口碑達到峰值時,谷歌正式宣布"nano-banana"即為Gemini 2.5 Flash Image模型,并開始全面推送。

很難說,這一路徑并非谷歌有意為之。畢竟,早在8月初剛剛出圈,就有外媒報道,多位 AI 研究者和愛好者推測,nano-banana 可能是谷歌最新的圖像生成模型,也有觀察人士認為,可能來源于Qwen Image或來自各大實驗室尚未發(fā)布的其他模型。

當然,這種“神秘發(fā)布”模式并非谷歌首創(chuàng),從去年開始,不少模型們都會選擇在LMArena上進行盲測,OpenAI此前也曾讓神秘模型"im-also-a-good-gpt2-chatbot"現(xiàn)身競技場,最終揭曉為GPT-4o測試版,預熱了產(chǎn)品發(fā)布。

一方面,模型們選擇LMArena,固然是因為在匿名的黑箱中,用戶的選擇完全是基于模型的實力,而排除了品牌的偏見和預期,為真實性能提供了純粹的認證。

另一方面,在AI競賽白熱化的背景下,大廠的模型發(fā)布往往會被置于一種“追趕者or顛覆者”的敘事框架內(nèi),從而被嚴格審視甚至審判。

相比起傳統(tǒng)的高舉高打的發(fā)布模式,匿名發(fā)布再到官方認領的策略,完成一次“民選”模型的病毒式傳播,既充分利用了社區(qū)自發(fā)傳播的勢能,又避免了過度炒作可能帶來的反噬效應,使其性能優(yōu)勢在發(fā)布前就已成為“市場共識”。

這也為焦慮市場反饋的下一代模型們,提供了一種新的發(fā)布思路。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱