微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！

新智元·2024-08-20

關(guān)注

席卷開源界的AI生圖王者誕生了！發(fā)布半個月，F(xiàn)lux已經(jīng)成為替代Midjourney的寵兒。各路開發(fā)者們開始用自己的照片微調(diào)LoRA，一人拿捏多種風(fēng)格。

編者按：本文來自微信公眾號新智元（ID：AI_era），編輯：編輯部，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

Midjourney之后，從未見人們對某個AI生圖應(yīng)用，如此瘋狂著迷。

Flux的橫空出世，意味著AI圖像生成邁入了一個全新的階段。

馬斯克本人表示，真假已經(jīng)傻傻分不清。

先是，一張TED演講者逼真照片席卷了整個互聯(lián)網(wǎng)。再之后，集成Flux模型的Grok 2破除護(hù)欄限制，被網(wǎng)友玩瘋。

最近，F(xiàn)lux開發(fā)者們也紛紛入坑，開啟微調(diào)自己的LoRA模型。

HuggingFace聯(lián)創(chuàng)驚嘆道，F(xiàn)lux已經(jīng)完全席卷了開源AI界，從未見過一個模型，同時有如此多的衍生模型/在線平臺/demo占據(jù)熱榜。

一手微調(diào)的開發(fā)者表示，「Flux+LoRA將顛覆生成式AI市場。你可以在任何地方，戴著任何東西，穿著任何你喜歡的衣服，生成不同的自己」。

比如，讓自己變身超人。

拿上伸縮光影劍，變身絕地武士，愿原力與你同在。

不僅如此，冰雕，拿著switch游戲機(jī)，精靈耳，時裝走秀等各種形象的照片，都是動動嘴皮子的事。

左右滑動查看

微調(diào)自己的LoRA，現(xiàn)已經(jīng)成為許多開發(fā)者的新玩物。

這不，全網(wǎng)都被Flux+LoRA淹沒了。

一個人就能組成「復(fù)仇者聯(lián)盟」

Rundown AI的創(chuàng)始人Rowan Cheung將自己的照片作為數(shù)據(jù)，用Flux訓(xùn)練了一個LoRA模型，然后聯(lián)動Runway讓其動起來。

如下，生成了一張類似TED演講者的圖片。

做成視頻后，照片中的自己真的活靈活現(xiàn)了，很有演講者范兒。唯一不足的是，右手到后面指頭就變成了2-3根。

另一張，生成了以超人身份拯救世界的自己。

配上動畫，終于做了一回漫威中的英雄。

再生成一張身穿時裝，走秀現(xiàn)場的照片。

兩邊觀眾熱烈鼓掌，也算是體驗了一把T臺走秀。

此外，Rowan Cheung還生成了不同風(fēng)格的自己，和場景融合自洽，毫無違和感。

左右滑動查看

他認(rèn)為，雖然AI生圖依舊不能替代完整的電影/商業(yè)廣告，但其已經(jīng)有很多重要的用途，尤其對內(nèi)容創(chuàng)作者來說。

比如，這些AI圖片制作用于新聞的預(yù)覽圖和配圖，以及短片中的補(bǔ)充素材（B-roll）。

網(wǎng)友Min Choi看后表示，自己可以組建一支「復(fù)仇者聯(lián)盟」了。

前英特爾CTO在A100上，同樣微調(diào)了一個自己的LoRA模型，75分鐘花費(fèi)了7美金（約50元）。

左右滑動查看

還有開發(fā)者硬是把自己拍成了恐怖片。

左右滑動查看

分不清AI還是現(xiàn)實

要說最火的，還是「超現(xiàn)實主義」的微調(diào)版本——讓人越來越分不清想象和現(xiàn)實的邊界了。

是真實的照片，還是AI畫出來的人？

在Flux-Dev中用LoRA訓(xùn)練后，無論是場景復(fù)雜性還是真實感，都取得了不可思議的進(jìn)展。

什么風(fēng)格都能微調(diào)

除此之外，各種不同風(fēng)格的微調(diào)也層出不窮。

像素風(fēng)格

開發(fā)者以傳奇的ZX Spectrum中的風(fēng)格為例，微調(diào)出類似像素的圖片生成LoRA。

下面生成圖像中，有龍珠孫悟空、漫威鋼鐵俠、川建國（貌似）等形象。

左右滑動查看

動畫涂鴉

PS生成式AI產(chǎn)品設(shè)計人Davis Brown基于Flux，微調(diào)出了一個half_illustration模型。

它生成的圖片，有一部分是真實照片的畫風(fēng)，一部分是動畫涂鴉的風(fēng)格。

每次生圖前，只需要在提示開頭加上——In the style of TOK。

然后，具體描述想要的效果，就能立即出片。

以后感覺不一定非得用PS，直接AI生圖就可以了。

prompt：In the style of TOK, a photo editorial avant-garde dramatic action pose of a woman short blue hair wearing 70s round wacky sunglasses pulling glasses down looking forward, in Tokyo with large marble structures and bonsai trees at sunset with a vibrant illustrated jacket surrounded by illustrations of flowers, smoke, flames, ice cream, sparkles, rock and roll

prompt：In the style of TOK, a photo editorial dramatic action pose of a person piercing eyes, tattoos on face, with creative bucket hat, standing in Tokyo with large marble structures and white purple trees in a Basketball court, with a vibrant illustrated street wear puffy vintage jacket, black shirt, volcano in the background, surrounded by illustrations of smoke, flames, and flowers, fog, exclamation marks, lines shooting outwards, minion characters, butterflies

還有其他涂鴉風(fēng)格的照片。

左右滑動查看

九宮格

開源數(shù)據(jù)集平臺LAION用Flux模型，訓(xùn)出了一個可以生成3x3九宮格照片，還是不同角度的自己。

以后自拍一張，就夠了。

左右滑動查看

不同年齡

一個人一生的樣貌，透過Flux+LoRA便可看到。

左右滑動查看

另一個例子：

左右滑動查看

可玩性超強(qiáng)

今天的主角——FLUX.1，采用了一種全新的「流匹配」技術(shù)。

以前的擴(kuò)散模型是通過逐步去除從隨機(jī)起點開始的噪聲來創(chuàng)建圖像，而流匹配則采用更直接的方法，學(xué)習(xí)將噪聲轉(zhuǎn)換為真實圖像所需的精確變化。

這種方法上的差異帶來了獨特的美學(xué)風(fēng)格，并在速度和控制方面具備極大的優(yōu)勢。

文本：大部分都能get到

文本到圖像生成的挑戰(zhàn)之一是準(zhǔn)確地將文字轉(zhuǎn)化為視覺表現(xiàn)。FLUX.1在這方面處理得相當(dāng)好，即使是在像表情包這樣復(fù)雜的場景中。

prompt：

This is fine dog meme underwater. Text: ‘Climate change is fine’
這是一個在水下的「fine dog」表情包。文字：「氣候變化問題不大」

prompt：

A meme of a famous actor making a funny face with the text ‘When you forget your lines’ in a quirky font
一位著名演員做鬼臉的表情包，上面用古怪的字體寫著「當(dāng)你忘詞的時候」

光線和質(zhì)感都不錯

FLUX.1對光線、陰影和紋理有敏銳的理解，能始終如一地生成高質(zhì)量的圖像。

prompt：

A detailed image of a garden where the flowers are made of delicate glass, reflecting the sunlight beautifully
一個花園的詳細(xì)圖像，其中的花朵由精致的玻璃制成，陽光下反射出美麗的光芒

在這幅圖里，重點不僅在于玻璃的質(zhì)感，還在于光線如何通過花瓣折射和傳遞，創(chuàng)造出一種發(fā)光的效果。

prompt：

Owl feathers merging with autumn leaves in wind
貓頭鷹的羽毛與秋葉在風(fēng)中融合

藝術(shù)風(fēng)格：不止是模仿

FLUX.1似乎掌握了各種藝術(shù)風(fēng)格背后的原理，使得創(chuàng)造性的重新詮釋成為可能。

prompt：

watercolor of famous wave painting
著名波浪畫的水彩畫

這幅《神奈川沖浪里》的「水彩」版本不僅暗示著標(biāo)志性波浪是模型訓(xùn)練數(shù)據(jù)的一部分，還突出了「流」技術(shù)如何近似顏料在水、紙和墨水中的運(yùn)動。

構(gòu)圖：讓場景有意義

FLUX.1擅長構(gòu)建復(fù)雜的場景，以一種既真實又有視覺吸引力的方式放置物體和角色。

prompt：

A realistic image of an enchanted library where books float in mid-air and the shelves are made of ancient, twisted roots
一個現(xiàn)實主義的魔法圖書館圖像，書籍在空中漂浮，書架由古老扭曲的根制成

「流」：一種新的視覺語言

FLUX.1所采用的流匹配技術(shù)，賦予了圖像一種獨特的有機(jī)運(yùn)動感和流動性，仿佛像素本身在流動。

prompt：

Dog with swirling, Van Gogh-style fur patterns
狗身上有旋轉(zhuǎn)的梵高風(fēng)格的毛發(fā)圖案

總有一款工具，能幫你搞定

我們可以把圖像的生成過程概括為：獲取一些輸入像素，將它們從噪聲中稍微移開，朝著由你的文本輸入創(chuàng)建的模式移動，并重復(fù)這一過程，直到達(dá)到設(shè)定的步驟數(shù)。

而微調(diào)過程則是從數(shù)據(jù)集中獲取每個圖像/標(biāo)注對，并稍微更新其內(nèi)部映射。

只要可以通過圖像-標(biāo)題對表示，你就可以通過這種方式教會模型任何內(nèi)容：角色、場景、媒介、風(fēng)格、流派。

左：使用原始FLUX.1模型生成；右：使用相同提示和種子，在fofr/flux-bad-70s-food模型上生成

在訓(xùn)練中，模型將會學(xué)習(xí)如何把這些概念與特定的文本字符串關(guān)聯(lián)起來。而在提示中，則需要加入這個字符串來激活這種關(guān)聯(lián)。

比如，你想微調(diào)一個「漫畫風(fēng)超級英雄」的模型。

首先，需要收集大量關(guān)于角色的圖像作為數(shù)據(jù)集，包括但不限于：不同的場景、服裝、燈光，甚至可能是不同的藝術(shù)風(fēng)格

然后，選擇一個簡短且不常見的詞或短語作為你的觸發(fā)詞：一種不會與其他概念或微調(diào)沖突的獨特內(nèi)容。你可能會選擇像「糟糕的70年代食物」或「JELLOMOLD」這樣的詞。

在訓(xùn)練完成之后，你只需給出一個包含觸發(fā)詞的提示，如「在舊金山的聚會上拍攝糟糕的70年代食物的場景」，模型就會調(diào)用你之前微調(diào)時加入的特定概念。

就這么簡單。

在了解了原理之后，我們就可以任選一個工具來微調(diào)模型了。

左：使用原始FLUX.1模型生成；右：使用相同提示和種子，在fofr/flux-bad-70s-food模型上生成

比如一位叫Matt Wolfe的小哥，在看到上面這些酷炫的生成之后，也好奇地上手試了一把。

結(jié)果，他翻車了……

做出的AI圖像，堪稱買家秀和賣家秀的區(qū)別。

這是他生成的——

這是別人的——

兩張圖片高下立判，區(qū)別就在于用沒用LoRA微調(diào)。

被刺激到的小哥，立刻去研究了一番，他驚喜地發(fā)現(xiàn)，LoRA模型很小，只有2到500 MB，可以輕易地和現(xiàn)有的模型結(jié)合。

更令人驚喜的是，并不需要額外的算力，也不需要全面的再訓(xùn)練，就可以讓AI模型提高畫質(zhì)，產(chǎn)生獨特的風(fēng)格，或者生成特殊的人物，比如馬里奧或者海綿寶寶。

遺憾的是，在小哥用得順手的Glif上，F(xiàn)lux中并不能使用LoRA。

他發(fā)現(xiàn)，能使用Flux的其中一種方法，是用ComfyUI。

這張圖，相信很多人都很熟悉了

或者，也可以使用Replicate、HuggingFace Spaces或Fal AI之類的平臺。

小哥在Fal平臺上試用后，發(fā)現(xiàn)每百萬像素花費(fèi)0.035美元，所以，只要花1美元，就可以運(yùn)行模型29次，還是比較劃算的。

在這里FLUX.1 dev、Flux Realism LoRA、FLUX.1 pro等等，都是可以使用的。

小哥二話不說，選擇了Flux Realism LoRA。

經(jīng)過精心調(diào)試后，小哥將推理步長設(shè)置在了28，CFG設(shè)置在了2。

產(chǎn)生的圖像，效果非常驚喜！

如果說有什么瑕疵，就是額頭皺紋處的打光仍然不自然。

接下來，小哥興奮地將圖像導(dǎo)到Gen-3 Alpha中，根據(jù)他輸入的prompt，Gen-3 Alpha生成了視頻。

除了在某一刻，手中的麥克風(fēng)突然「飄浮」了起來，視頻的其余部分，挑不出太大毛病了。

小哥又嘗試了一遍，生成了第二個視頻。

這一次，麥克風(fēng)又顯得太過靜止了，仿佛定在了原地。

另外，小哥也加入了全網(wǎng)爆改自己的大潮，生成一系列爆笑的照片。

左右滑動查看

最后，小哥再用Gen-3 Alpha把它變成視頻，就讓自己和死侍走在了同一部電影的畫面中。

參考資料：

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

新智元

0

訂閱服務(wù)

特別推薦

睿獸分析
開店邦
友情合作

法律相關(guān)

版權(quán)聲明
協(xié)議中心

愛奇清科（北京）信息科技有限公司地址：北京市朝陽區(qū)麗澤西街東湖國際中心A座7層 | 網(wǎng)絡(luò)文化經(jīng)營許可證（京網(wǎng)文[2018]2153-213號）

違法和不良信息舉報電話：010-53391121 舉報郵箱：db@cyzone.cn

京公網(wǎng)安備 11010502035114號

營業(yè)執(zhí)照出版物經(jīng)營許可證

反饋

聯(lián)系我們

推薦訂閱

五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！

一個人就能組成「復(fù)仇者聯(lián)盟」

分不清AI還是現(xiàn)實

什么風(fēng)格都能微調(diào)

像素風(fēng)格

動畫涂鴉

九宮格

不同年齡

可玩性超強(qiáng)

文本：大部分都能get到

光線和質(zhì)感都不錯

藝術(shù)風(fēng)格：不止是模仿

構(gòu)圖：讓場景有意義

「流」：一種新的視覺語言

總有一款工具，能幫你搞定

關(guān)于我們

訂閱服務(wù)

特別推薦

法律相關(guān)

微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！