Midjourney V6神圖炸出！生圖效果碾壓DALL·E3，逼真畫面光影細(xì)節(jié)登峰造極

新智元·2023-12-23

關(guān)注

ee

北京移動(dòng)互聯(lián)網(wǎng)

面向女生的新一代場景社交

最近融資：|2016-01-06

我要聯(lián)系

兵貴神速，Midjourney V6昨天上午說要來，下午就真來了。神圖紛紛炸出，光影效果登峰造極，主打一個(gè)「你能說我就能畫」，擅長寫Prompt的朋友，你們有福了！

編者按：本文來自微信公眾號(hào) 新智元（ID：AI_era），編輯：編輯部，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

猝不及防的，Midjourney V6昨天下午忽然發(fā)布了！

雖然已經(jīng)預(yù)告了是這兩天，但誰也沒想到Midjourney的手速居然這么快，趕在圣誕節(jié)前讓大家嘗嘗鮮。

在/settings的下拉菜單中選擇V6，或者在Prompt后輸入 --v 6，就可以用上V6 Beta版模型了！

激動(dòng)的網(wǎng)友們蜂擁而入，出爐了一大波測評(píng)。比起V5，V6真的是瘋狂加細(xì)節(jié)，畫面質(zhì)量史詩級(jí)增強(qiáng)。

根據(jù)MJ官方介紹，V6的主要變化，就是圖像質(zhì)量更好、語義理解更強(qiáng)、能嵌入英文單詞、更容納更多token了。

舉個(gè)例子，下面這兩張超人和蝙蝠俠的「劇照」，要不是背景里的「V6 is here」的提示，幾乎已經(jīng)分辨不出來到底是實(shí)拍還是出自AI。

以前被詬病最多的「一眼AI」，也在V6上達(dá)到了幾乎「以AI亂真」的地步。

有網(wǎng)友表示：Midjourney V5到V6的升級(jí)，堪稱是一次里程碑，意義堪比Stable Diffusion出現(xiàn)高清重繪。

除了圖像模型的大提升之外，V6最大的變化，就在于提示詞系統(tǒng)幾乎重做了。

用戶很可能需要重新學(xué)習(xí)怎么寫提示詞，需要盡量避免之前「語焉不詳?shù)拿枋觥?，例如「award winning」這類形容詞。

之所以會(huì)這樣，是因?yàn)樵谝郧?，模型沒辦法完全反映提示詞的要求，寫太詳細(xì)也沒用。但是升級(jí)之后，圖片會(huì)盡可能地遵循提示詞中每一個(gè)詞，所以用戶也要珍惜提示詞的空間，盡可能地詳細(xì)描述自己想要的內(nèi)容。

總之一句話就是，「只要你能說得清楚，V6就能給你畫明白?！?/p>

網(wǎng)友用Midjourney V6來想象「如果史蒂夫·喬布斯今天還活著，他會(huì)是什么樣子」，結(jié)果令人震驚

這位網(wǎng)友表示：如果說這是生成式AI創(chuàng)造的圖像，沒人會(huì)相信我。

它已經(jīng)達(dá)到了電影級(jí)別的質(zhì)量。這一領(lǐng)域的創(chuàng)意，比如電影、照片、海報(bào)和雜志，從此很可能由AI主導(dǎo)。

另一位網(wǎng)友表示，MJ V6太逼真了，你可以直接用它想象你最愛的演員在電影中的樣子，比如Jared Leto在Netflix《最后的沙皇》中的扮相。

神圖紛紛出現(xiàn)，圖像質(zhì)量史詩級(jí)提升

里程碑級(jí)的升級(jí)，究竟體現(xiàn)在了哪些地方？

一位網(wǎng)友用同樣的Prompt來測試了V6和V5.2，可以看出，V6的提升體現(xiàn)在多處細(xì)節(jié)上。（上V6，下V5.2）

雨坑中日落的倒影，V6的光影效果明顯比V5.2更自然，V5.2的加工痕跡要更明顯。

reflection of a sunset in a rain puddle

仔細(xì)觀看可以發(fā)現(xiàn)，同樣的女性面部主體，V6在皮膚細(xì)節(jié)、毛發(fā)細(xì)節(jié)、光影效果上，都遠(yuǎn)優(yōu)于V5.2的效果。

1940年代復(fù)古科幻電影中身穿高領(lǐng)銀色操作衣的女操作員，V6生圖明顯要比V5.2更加真實(shí)。

V5.2的圖片主體人物顯得過于呆板，不像真人。

1940s retro sci-fi film, medium side-angle shot of a young female control panel operator wearing a form-fitting silver jumpsuit with a high collar. She is surrounded by 3 art deco robots. warm glowing buttons and switches, soft illumination

下面這兩幅食物的圖片都很誘人，但是V6的色彩和光影還是要更勝一籌。

a pot of stew with a wooden spoon, top-down perspective

在生成「二次元」風(fēng)格的口袋妖怪時(shí)，V6生成的效果神似動(dòng)漫，而V5.2會(huì)畫得更像個(gè)擺拍的手辦。

frozen squirtle on the top of a snowy mountain 35mm film still of a detective

超強(qiáng)語義理解，Prompt說啥就畫啥

如果說在以前，視覺效果和美學(xué)表現(xiàn)都足夠震撼的Midjourney，為何風(fēng)頭時(shí)常不及DALL-E 3和Adobe Firefly，那自然是因?yàn)閷τ赑rompt的高要求，嚇退了眾多「語死早」的用戶。

并且，V5.2糟糕的語義理解，也經(jīng)常讓生圖結(jié)果是「雖然美麗但不實(shí)用」。

而如今的V6，讓Midjourney對于語氣增強(qiáng)的理解，終于追上了競家的腳步。比起V5.2，V6大大增強(qiáng)了語義理解的能力，對于Prompt的把握也更加精準(zhǔn)。

寫著「open late」霓虹燈標(biāo)志的酒吧，V6就原樣生出來了，V5.2的字樣根本就不對。

而且從光影效果來看，V6也要更豐富更真實(shí)，就像給圖片開了光追一樣。

a corner bar with a neon sign that says "open late"

這張1960年代的街頭風(fēng)格照片，需要畫出一位年輕女子穿著綠色絲綢連衣裙、戴著珍珠項(xiàng)鏈坐在帆船上。

顯然，V6對于「珍珠項(xiàng)鏈」的理解要比V5.2好很多，而且除了人物主體之外，V6的周邊細(xì)節(jié)也更合理精細(xì)。

1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200

「1980年代的懸疑電影，仰拍，身穿黑西裝的法國管家在維多利亞式豪宅的走廊中手握蠟燭?！?/p>

從光影和構(gòu)圖來看，V6更符合要求，主體人物很好地融合進(jìn)了背景里。而V5.2基本都沒有做到。

1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery

下面這幅要求畫出抽象、超現(xiàn)實(shí)的景觀，有融化的時(shí)鐘、扭曲的形狀和浮島，空中有一只眼鏡形狀的巨大月亮。

其中，V6在空中畫出了「A large, eye-shaped moon dominates the sky」，而V5.2就沒有把這部分體現(xiàn)出來。

An abstract, surreal landscape with melting clocks, distorted shapes, and floating islands. The color palette is vibrant with a mix of blues, reds, and greens. A large, eye-shaped moon dominates the sky

這張1970年代的柯達(dá)Ektachrome電影劇照，需要畫出身穿深V綠色絲綢連體褲的25歲紅發(fā)女子。但V5.2并沒有把我們要求的深V領(lǐng)口畫出來。

1970s medium-closeup Ektachrome film still of a 25-year-old woman with curly red hair and freckles standing in front of vintage car in downtown Los Angeles. She's wearing a green silk jumpsuit with a plunging neckline. Golden hour

「五顏六色的珊瑚礁，各種各樣的海洋生物，包括各種魚、海龜和頑皮的海豚」。

這次，V5.2直接把海豚無視掉了，并自作主張地畫了一個(gè)潛水員……

A colorful coral reef teeming with marine life. There are various species of fish, a sea turtle, and a playful dolphin. Sunlight filters through the water, creating a dappled effect on the sea floor.

「1980年代的間諜電影，年輕的黑發(fā)女人站在埃及裝飾風(fēng)格的豪宅中，有著黑色大理石柱子。」

顯然，V6對于黑色大理石柱等背景的還原，要比V5.2準(zhǔn)確得多。

1980s spy movie, Medium closeup shot from low-angle, 35mm film still of a young brunette Egyptian woman standing in an Egyptian Art Deco Mansion with large columns made of black marble, wearing a black sequin dress, inside, daytime, natural lighting

「電影劇照，一名偵探在犯罪現(xiàn)場采訪一名女性證人，偵探在做筆錄，目擊者焦急地看著，指著一條線索?！?/p>

可以看到，V6的人物動(dòng)作更加符合常理，而V5.2的圖片中人物動(dòng)作像是在發(fā)呆，沒有按照提示詞的描述進(jìn)行做筆錄的行為。

interviewing a female witness at a crime scene. The detective is taking notes, while the witness looks on anxiously, pointing towards a clue

就如同開頭所說，「只要你能說得清楚，V6就能給你畫明白。」

如果你是個(gè)想象力大師，可以用邏輯結(jié)構(gòu)清晰、充滿細(xì)節(jié)的語言描繪出心中所想，V6定不會(huì)讓你失望——語言可以控制光影、控制材質(zhì)、控制色彩、控制構(gòu)圖。

一句話，語言的魔力已經(jīng)被放至最大：能寫出神級(jí)Prompt的人，必得神圖。

而相比之下，有ChatGPT加持的DALL-E 3，就不這么苛求用戶的語言表達(dá)能力，而是可以自行想象。

難怪大家都說，Midjourney的上限足夠高，DALL-E 3的下限足夠低。

文字生成，直追SOTA

在文字生成上，V6較前代也有了巨大的提升。

EMPTY、TOMORROW、Coca Cola，這些字在圖像中想加就加。

雖然在準(zhǔn)確度上略遜于DALL·E 3，但視覺美感方面的表現(xiàn)，Midjourney依舊是遙遙突出。

不過需要注意的是，下面這些圖像，每一張都進(jìn)行了3-10次的嘗試，才得了到比較理想的結(jié)果。

A man standing alone in a dark empty area, staring at a neon sign that says "EMPTY"

A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "ORGANIC SNACKS" featured prominently

An anime style movie poster with the stylized words "TOMORROW", with a girl looking upwards at the night sky, and cherry blossoms floating in the wind. --s 200

A Coca Cola ad, featuring a beverage can design with traditional Hawaiian patterns

A clean, minimalistic logo featuring an ice cream cone, with palm trees as the backdrop and the words "ICE CREAM OASIS" --style raw

A clean and minimalistic professionally designed vector of a biker speeding on a highway, with the words "FREEDOM ON WHEELS" --s 250

A minimalistic product shot of a bottle of perfume on a clean backdrop with the words "Floral Symphony", surrounded by fragrant white flowers

A modern cinematic movie poster with the words "FALLEN" showing a fallen angel in a dark forest --style raw --s 200

A modern burger advertisement, with the words "THE BIG ONE", featuring a delicious huge beef burger, with tomatoes and lettuce in the background

A pixar style illustration of a happy hedgehog, standing beside a wooden signboard saying "SUNFLOWERS", in a meadow surrounded by blooming sunflowers

這里，我們匯總了一些可以提高生成準(zhǔn)確率的實(shí)用技巧：

1. 將單詞大寫并放在引號(hào)中，如「LIKE THIS」，可以提高生成的準(zhǔn)確度
2. 使用--style raw參數(shù)，可以得到更準(zhǔn)確的結(jié)果
3. 明確提出是電影海報(bào)（movie poster）和廣告（advertisement），效果更好
4. 高stylize值可以創(chuàng)造出更有趣的文字效果