編者按:本文來自微信公眾號 新智元(ID:AI_era),編輯:編輯部,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
猝不及防的,Midjourney V6昨天下午忽然發(fā)布了!
雖然已經(jīng)預(yù)告了是這兩天,但誰也沒想到Midjourney的手速居然這么快,趕在圣誕節(jié)前讓大家嘗嘗鮮。
在/settings的下拉菜單中選擇V6,或者在Prompt后輸入 --v 6,就可以用上V6 Beta版模型了!
激動的網(wǎng)友們蜂擁而入,出爐了一大波測評。比起V5,V6真的是瘋狂加細節(jié),畫面質(zhì)量史詩級增強。
根據(jù)MJ官方介紹,V6的主要變化,就是圖像質(zhì)量更好、語義理解更強、能嵌入英文單詞、更容納更多token了。
舉個例子,下面這兩張超人和蝙蝠俠的「劇照」,要不是背景里的「V6 is here」的提示,幾乎已經(jīng)分辨不出來到底是實拍還是出自AI。
以前被詬病最多的「一眼AI」,也在V6上達到了幾乎「以AI亂真」的地步。
有網(wǎng)友表示:Midjourney V5到V6的升級,堪稱是一次里程碑,意義堪比Stable Diffusion出現(xiàn)高清重繪。
除了圖像模型的大提升之外,V6最大的變化,就在于提示詞系統(tǒng)幾乎重做了。
用戶很可能需要重新學(xué)習(xí)怎么寫提示詞,需要盡量避免之前「語焉不詳?shù)拿枋觥?,例如「award winning」這類形容詞。
之所以會這樣,是因為在以前,模型沒辦法完全反映提示詞的要求,寫太詳細也沒用。但是升級之后,圖片會盡可能地遵循提示詞中每一個詞,所以用戶也要珍惜提示詞的空間,盡可能地詳細描述自己想要的內(nèi)容。
總之一句話就是,「只要你能說得清楚,V6就能給你畫明白?!?/p>
網(wǎng)友用Midjourney V6來想象「如果史蒂夫·喬布斯今天還活著,他會是什么樣子」,結(jié)果令人震驚
這位網(wǎng)友表示:如果說這是生成式AI創(chuàng)造的圖像,沒人會相信我。
它已經(jīng)達到了電影級別的質(zhì)量。這一領(lǐng)域的創(chuàng)意,比如電影、照片、海報和雜志,從此很可能由AI主導(dǎo)。
另一位網(wǎng)友表示,MJ V6太逼真了,你可以直接用它想象你最愛的演員在電影中的樣子,比如Jared Leto在Netflix《最后的沙皇》中的扮相。
神圖紛紛出現(xiàn),圖像質(zhì)量史詩級提升
里程碑級的升級,究竟體現(xiàn)在了哪些地方?
一位網(wǎng)友用同樣的Prompt來測試了V6和V5.2,可以看出,V6的提升體現(xiàn)在多處細節(jié)上。(上V6,下V5.2)
雨坑中日落的倒影,V6的光影效果明顯比V5.2更自然,V5.2的加工痕跡要更明顯。
reflection of a sunset in a rain puddle
仔細觀看可以發(fā)現(xiàn),同樣的女性面部主體,V6在皮膚細節(jié)、毛發(fā)細節(jié)、光影效果上,都遠優(yōu)于V5.2的效果。
1940年代復(fù)古科幻電影中身穿高領(lǐng)銀色操作衣的女操作員,V6生圖明顯要比V5.2更加真實。
V5.2的圖片主體人物顯得過于呆板,不像真人。
1940s retro sci-fi film, medium side-angle shot of a young female control panel operator wearing a form-fitting silver jumpsuit with a high collar. She is surrounded by 3 art deco robots. warm glowing buttons and switches, soft illumination
下面這兩幅食物的圖片都很誘人,但是V6的色彩和光影還是要更勝一籌。
a pot of stew with a wooden spoon, top-down perspective
在生成「二次元」風(fēng)格的口袋妖怪時,V6生成的效果神似動漫,而V5.2會畫得更像個擺拍的手辦。
frozen squirtle on the top of a snowy mountain 35mm film still of a detective
超強語義理解,Prompt說啥就畫啥
如果說在以前,視覺效果和美學(xué)表現(xiàn)都足夠震撼的Midjourney,為何風(fēng)頭時常不及DALL-E 3和Adobe Firefly,那自然是因為對于Prompt的高要求,嚇退了眾多「語死早」的用戶。
并且,V5.2糟糕的語義理解,也經(jīng)常讓生圖結(jié)果是「雖然美麗但不實用」。
而如今的V6,讓Midjourney對于語氣增強的理解,終于追上了競家的腳步。比起V5.2,V6大大增強了語義理解的能力,對于Prompt的把握也更加精準。
寫著「open late」霓虹燈標志的酒吧,V6就原樣生出來了,V5.2的字樣根本就不對。
而且從光影效果來看,V6也要更豐富更真實,就像給圖片開了光追一樣。
a corner bar with a neon sign that says "open late"
這張1960年代的街頭風(fēng)格照片,需要畫出一位年輕女子穿著綠色絲綢連衣裙、戴著珍珠項鏈坐在帆船上。
顯然,V6對于「珍珠項鏈」的理解要比V5.2好很多,而且除了人物主體之外,V6的周邊細節(jié)也更合理精細。
1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200
「1980年代的懸疑電影,仰拍,身穿黑西裝的法國管家在維多利亞式豪宅的走廊中手握蠟燭?!?/p>
從光影和構(gòu)圖來看,V6更符合要求,主體人物很好地融合進了背景里。而V5.2基本都沒有做到。
1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery
下面這幅要求畫出抽象、超現(xiàn)實的景觀,有融化的時鐘、扭曲的形狀和浮島,空中有一只眼鏡形狀的巨大月亮。
其中,V6在空中畫出了「A large, eye-shaped moon dominates the sky」,而V5.2就沒有把這部分體現(xiàn)出來。
An abstract, surreal landscape with melting clocks, distorted shapes, and floating islands. The color palette is vibrant with a mix of blues, reds, and greens. A large, eye-shaped moon dominates the sky
這張1970年代的柯達Ektachrome電影劇照,需要畫出身穿深V綠色絲綢連體褲的25歲紅發(fā)女子。但V5.2并沒有把我們要求的深V領(lǐng)口畫出來。
1970s medium-closeup Ektachrome film still of a 25-year-old woman with curly red hair and freckles standing in front of vintage car in downtown Los Angeles. She's wearing a green silk jumpsuit with a plunging neckline. Golden hour
「五顏六色的珊瑚礁,各種各樣的海洋生物,包括各種魚、海龜和頑皮的海豚」。
這次,V5.2直接把海豚無視掉了,并自作主張地畫了一個潛水員……
A colorful coral reef teeming with marine life. There are various species of fish, a sea turtle, and a playful dolphin. Sunlight filters through the water, creating a dappled effect on the sea floor.
「1980年代的間諜電影,年輕的黑發(fā)女人站在埃及裝飾風(fēng)格的豪宅中,有著黑色大理石柱子?!?/p>
顯然,V6對于黑色大理石柱等背景的還原,要比V5.2準確得多。
1980s spy movie, Medium closeup shot from low-angle, 35mm film still of a young brunette Egyptian woman standing in an Egyptian Art Deco Mansion with large columns made of black marble, wearing a black sequin dress, inside, daytime, natural lighting
「電影劇照,一名偵探在犯罪現(xiàn)場采訪一名女性證人,偵探在做筆錄,目擊者焦急地看著,指著一條線索?!?/p>
可以看到,V6的人物動作更加符合常理,而V5.2的圖片中人物動作像是在發(fā)呆,沒有按照提示詞的描述進行做筆錄的行為。
interviewing a female witness at a crime scene. The detective is taking notes, while the witness looks on anxiously, pointing towards a clue
就如同開頭所說,「只要你能說得清楚,V6就能給你畫明白?!?/p>
如果你是個想象力大師,可以用邏輯結(jié)構(gòu)清晰、充滿細節(jié)的語言描繪出心中所想,V6定不會讓你失望——語言可以控制光影、控制材質(zhì)、控制色彩、控制構(gòu)圖。
一句話,語言的魔力已經(jīng)被放至最大:能寫出神級Prompt的人,必得神圖。
而相比之下,有ChatGPT加持的DALL-E 3,就不這么苛求用戶的語言表達能力,而是可以自行想象。
難怪大家都說,Midjourney的上限足夠高,DALL-E 3的下限足夠低。
文字生成,直追SOTA
在文字生成上,V6較前代也有了巨大的提升。
EMPTY、TOMORROW、Coca Cola,這些字在圖像中想加就加。
雖然在準確度上略遜于DALL·E 3,但視覺美感方面的表現(xiàn),Midjourney依舊是遙遙突出。
不過需要注意的是,下面這些圖像,每一張都進行了3-10次的嘗試,才得了到比較理想的結(jié)果。
A man standing alone in a dark empty area, staring at a neon sign that says "EMPTY"
A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "ORGANIC SNACKS" featured prominently
An anime style movie poster with the stylized words "TOMORROW", with a girl looking upwards at the night sky, and cherry blossoms floating in the wind. --s 200
A Coca Cola ad, featuring a beverage can design with traditional Hawaiian patterns
A clean, minimalistic logo featuring an ice cream cone, with palm trees as the backdrop and the words "ICE CREAM OASIS" --style raw
A clean and minimalistic professionally designed vector of a biker speeding on a highway, with the words "FREEDOM ON WHEELS" --s 250
A minimalistic product shot of a bottle of perfume on a clean backdrop with the words "Floral Symphony", surrounded by fragrant white flowers
A modern cinematic movie poster with the words "FALLEN" showing a fallen angel in a dark forest --style raw --s 200
A modern burger advertisement, with the words "THE BIG ONE", featuring a delicious huge beef burger, with tomatoes and lettuce in the background
A pixar style illustration of a happy hedgehog, standing beside a wooden signboard saying "SUNFLOWERS", in a meadow surrounded by blooming sunflowers
這里,我們匯總了一些可以提高生成準確率的實用技巧:
1. 將單詞大寫并放在引號中,如「LIKE THIS」,可以提高生成的準確度
2. 使用--style raw參數(shù),可以得到更準確的結(jié)果
3. 明確提出是電影海報(movie poster)和廣告(advertisement),效果更好
4. 高stylize值可以創(chuàng)造出更有趣的文字效果
三大AI生圖巨頭pk,誰能勝出?
所以,現(xiàn)在AI生圖工具的三大巨頭,無疑就是Midjourney V6、DALL·E 3和Adobe Firefly了。
網(wǎng)友們當(dāng)然迫不及待地讓三巨頭展開了一場大pk,對同一主題生圖,一目了然地拼個高下。
Midjourney因為有著非常豐富的光影效果,有極強的真實感,幾乎沒有了原先那種「一眼AI」的感覺。
同樣畫一個年輕女人,MJ打在臉上的光影效果讓人震撼,人物的眼神在傳達著某種情緒,整個畫面都充滿了電影感和故事感。
相比之下,另外兩個女人美則美矣,眼神卻略顯空洞。
金發(fā)粉色衣服的美女,MJ畫的美女骨相耐看,衣服很仙。
果然,Midjourney畫的美女,永遠是最好看的。
藍莓蛋糕,MJ也是贏得很徹底。相比之下,DALL·E 3的AI感還是太重了,一眼假。
「一對白發(fā)蒼蒼的老人」這道題,MJ的作品太動人了,一張照片仿佛包含了一生的故事。
機甲戰(zhàn)士三家都畫得不多,MJ的背景虛化顯然是做得最好的。
雪中櫻花的背景,MJ又一次完勝。
同樣是金發(fā)美女,三張圖構(gòu)圖不同,側(cè)重點也不同。要論故事感,還是MJ完勝。
拿著相機的美女,后面是起火的建筑。MJ的人物情緒是對的,Adobe Firefly畫的美女笑得就太沒心沒肺了,DALL·E 3的人物和背景太剝離,光線太假。
總之,雖然大家對于AI生圖的評價標準各有不同的,但可以篤定地說,在藝術(shù)性和創(chuàng)意的觸感上,Midjourney V6這一輪是妥妥地贏了。
做對比圖的博主說,Midjourney現(xiàn)在是,并且可能永遠是自己的最愛。就是因為它,自己才進入了這個AI藝術(shù)社區(qū)。
這位網(wǎng)友表示,在審美上,MJ把兩位對手遠遠甩在了后面。
這位網(wǎng)友指出,Adobe Firefly的優(yōu)點就是,讓圖像看起來如此逼真,以至于你可以直接上傳社交媒體。
相比之下,MJ的對比度更高,更傾向于添加光影。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。