編者按:本文來自微信公眾號(hào) “量子位”(ID:QbitAI),作者:一水,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
OpenAI全量開放GPT-4o圖像生成能力,這回免費(fèi)用戶第一時(shí)間上車!
即日起在ChatGPT和Sora中,向所有Plus、Pro、Team和免費(fèi)用戶推出。
一夜之間,各種實(shí)測(cè)結(jié)果刷屏。最驚艷的莫過于對(duì)文本的處理能力。
比如,4o可以100%還原文字內(nèi)容,且指定文字?jǐn)[放位置。
男人右手舉著“a few”,左手舉著“words”
還能像連續(xù)劇一樣,一邊準(zhǔn)確生成文字,一邊變換人物動(dòng)作。
仔細(xì)對(duì)比兩張圖,第一張白板中的男人倒影和第二張圖也對(duì)應(yīng)上了。
昨晚OpenAI突然宣布要開個(gè)小直播發(fā)布,這回奧特曼出現(xiàn)了(前情:GPT-4.5發(fā)布時(shí)他由于帶娃沒來)。
直播中展示了各種玩法,比如制作梗圖、文本渲染、多輪交互生成和指令遵循等。
直接現(xiàn)場(chǎng)咔嚓一張自拍,然后立馬轉(zhuǎn)成動(dòng)漫風(fēng)格。
順帶官方玩梗制作meme圖,要求在圖片中添加“feel the agi”。(沒錯(cuò),生成時(shí)還知道將小寫換成更符合的大寫)
現(xiàn)在,打開ChatGPT,即可嘗試這些能力。
實(shí)測(cè)生成速度很快(大約十幾秒一張),但普通用戶每天僅有3次體驗(yàn)機(jī)會(huì)。
API預(yù)計(jì)將在未來幾周內(nèi)逐步推出。
這波主打一個(gè)美觀又實(shí)用
我們終于邁向了這種真正集成的多模態(tài)模型。
按照官方介紹,作為多模態(tài)模型的4o現(xiàn)在終于補(bǔ)齊了一塊重要拼圖——圖片生成。
而且主打一個(gè)美觀和實(shí)用兩手抓。
話不多說,我們直接來看其能力升級(jí)的具體表現(xiàn)。
各項(xiàng)能力大升級(jí)
首先,OpenAI表示4o現(xiàn)在能精確融合符號(hào)和圖片了。
比如直接給一段文字,然后生成一張制作精美的菜單:
而且支持在多輪對(duì)話中逐步調(diào)整圖片內(nèi)容和風(fēng)格。
類似下面這樣,提供一張貓貓?jiān)瓐D,然后一步步創(chuàng)建一個(gè)游戲角色:
此外還非常注重細(xì)節(jié),官方稱4o可以處理多達(dá)10-20個(gè)不同的物體,而其他模型一般在處理5-8個(gè)物體時(shí)就會(huì)遇到困難。
除了上述,4o在生成真實(shí)圖像方面也表現(xiàn)出色。
連現(xiàn)實(shí)版“照貓畫虎”也有了(doge):
網(wǎng)友實(shí)測(cè)ing
看完官方宣傳效果,網(wǎng)友們也趕緊來了一波實(shí)測(cè)~
經(jīng)典梗圖第一時(shí)間申請(qǐng)出戰(zhàn),畫面還真毫無違和感hhh。
甚至,復(fù)現(xiàn)同款書寫圖也是不在話下:
One More Thing
話說最近這兩天也過于熱鬧了,DeepSeek、OpenAI和谷歌幾乎同臺(tái)開戰(zhàn)。
值得一提的是,昨晚11點(diǎn)(北京時(shí)間)OpenAI突然宣布將有小發(fā)布,而DeepSeek剛剛發(fā)布了DeepSeek-v3-0324的官方技術(shù)報(bào)告。
不知道是不是被DS逼出來的新發(fā)布呢?(doge)
參考鏈接:
[1]https://openai.com/index/introducing-4o-image-generation/
[2]https://x.com/chatgpt21/status/1904683763914674208
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。