編者按:本文來自微信公眾號 “量子位”(ID:QbitAI),作者:一水,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
OpenAI全量開放GPT-4o圖像生成能力,這回免費用戶第一時間上車!
即日起在ChatGPT和Sora中,向所有Plus、Pro、Team和免費用戶推出。
一夜之間,各種實測結(jié)果刷屏。最驚艷的莫過于對文本的處理能力。
比如,4o可以100%還原文字內(nèi)容,且指定文字擺放位置。
男人右手舉著“a few”,左手舉著“words”
還能像連續(xù)劇一樣,一邊準確生成文字,一邊變換人物動作。
仔細對比兩張圖,第一張白板中的男人倒影和第二張圖也對應上了。
昨晚OpenAI突然宣布要開個小直播發(fā)布,這回奧特曼出現(xiàn)了(前情:GPT-4.5發(fā)布時他由于帶娃沒來)。
直播中展示了各種玩法,比如制作梗圖、文本渲染、多輪交互生成和指令遵循等。
直接現(xiàn)場咔嚓一張自拍,然后立馬轉(zhuǎn)成動漫風格。
順帶官方玩梗制作meme圖,要求在圖片中添加“feel the agi”。(沒錯,生成時還知道將小寫換成更符合的大寫)
現(xiàn)在,打開ChatGPT,即可嘗試這些能力。
實測生成速度很快(大約十幾秒一張),但普通用戶每天僅有3次體驗機會。
API預計將在未來幾周內(nèi)逐步推出。
這波主打一個美觀又實用
我們終于邁向了這種真正集成的多模態(tài)模型。
按照官方介紹,作為多模態(tài)模型的4o現(xiàn)在終于補齊了一塊重要拼圖——圖片生成。
而且主打一個美觀和實用兩手抓。
話不多說,我們直接來看其能力升級的具體表現(xiàn)。
各項能力大升級
首先,OpenAI表示4o現(xiàn)在能精確融合符號和圖片了。
比如直接給一段文字,然后生成一張制作精美的菜單:
而且支持在多輪對話中逐步調(diào)整圖片內(nèi)容和風格。
類似下面這樣,提供一張貓貓原圖,然后一步步創(chuàng)建一個游戲角色:
此外還非常注重細節(jié),官方稱4o可以處理多達10-20個不同的物體,而其他模型一般在處理5-8個物體時就會遇到困難。
除了上述,4o在生成真實圖像方面也表現(xiàn)出色。
連現(xiàn)實版“照貓畫虎”也有了(doge):
網(wǎng)友實測ing
看完官方宣傳效果,網(wǎng)友們也趕緊來了一波實測~
經(jīng)典梗圖第一時間申請出戰(zhàn),畫面還真毫無違和感hhh。
甚至,復現(xiàn)同款書寫圖也是不在話下:
One More Thing
話說最近這兩天也過于熱鬧了,DeepSeek、OpenAI和谷歌幾乎同臺開戰(zhàn)。
值得一提的是,昨晚11點(北京時間)OpenAI突然宣布將有小發(fā)布,而DeepSeek剛剛發(fā)布了DeepSeek-v3-0324的官方技術(shù)報告。
不知道是不是被DS逼出來的新發(fā)布呢?(doge)
參考鏈接:
[1]https://openai.com/index/introducing-4o-image-generation/
[2]https://x.com/chatgpt21/status/1904683763914674208
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。