編者按:本文來(lái)自微信公眾號(hào)硅星人Pro(ID:Si-Planet),作者:Jessica,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
新的一周,OpenAI技術(shù)直播迎來(lái)了第8天。今日重點(diǎn)是ChatGPT Search,從領(lǐng)銜登場(chǎng)的熟面孔、公司首席產(chǎn)品官 Kevin Weil 來(lái)看,這次發(fā)布仍以?xún)?yōu)化和完善產(chǎn)品功能為主。
與此同時(shí),Google卻在發(fā)布 Gemini 2.0 Flash 后繼續(xù)在模型上發(fā)力,一口氣推出新一代視頻生成模型 Veo 2 和圖片生成模型 Imagen 3,還上線(xiàn)了一個(gè)可玩性很高的“圖生圖”實(shí)驗(yàn)項(xiàng)目 Whisk。
即便已近年尾,OpenAI和Google這對(duì)老冤家依然打得火熱。而從社區(qū)反響來(lái)看,今天似乎又成了一個(gè)“Google主場(chǎng)日”。
ChatGPT 搜索集成地圖,全球免費(fèi)開(kāi)放
OpenAI今天主要帶來(lái)三項(xiàng)AI搜索更新:
1. 搜索功能優(yōu)化
ChatGPT 根據(jù)用戶(hù)反饋全面提升了搜索體驗(yàn),包括提升搜索速度、移動(dòng)端增強(qiáng)和引入新的地圖功能等。
? 視覺(jué)效果更豐富:
搜索結(jié)果現(xiàn)在支持更豐富的視覺(jué)元素和結(jié)構(gòu)化信息展示。例如搜索"舊金山周末有趣的活動(dòng)"時(shí),系統(tǒng)會(huì)同時(shí)展示活動(dòng)圖片、來(lái)源鏈接及詳細(xì)信息,讓結(jié)果更加直觀(guān)。用戶(hù)還能直接在搜索結(jié)果中觀(guān)看視頻內(nèi)容,不過(guò)這些并不稀奇,在Perplexity中早已實(shí)現(xiàn)過(guò)了。
? 移動(dòng)端新增地圖功能:
新增「地圖」查看模式,支持用戶(hù)通過(guò) ChatGPT應(yīng)用直接與地圖交互,也是此次更新的最大亮點(diǎn)。以搜索 Mission 區(qū)墨西哥餐廳為例,點(diǎn)擊地圖上的圖標(biāo)即可查看餐廳圖片、營(yíng)業(yè)時(shí)間、露臺(tái)信息及導(dǎo)航路徑等詳情。
? 默認(rèn)搜索引擎的快速導(dǎo)航:將ChatGPT設(shè)為瀏覽器默認(rèn)搜索引擎后,無(wú)需打開(kāi)網(wǎng)站,通過(guò)在地址欄直接輸入查詢(xún)內(nèi)容,即可快速調(diào)用ChatGPT并獲取推薦鏈接。
2. 搜索功能集成高級(jí)語(yǔ)音模式
搜索功能已整合至高級(jí)語(yǔ)音模式中,支持邊聊天邊搜索的自然交互體驗(yàn)。
3. 全球免費(fèi)開(kāi)放
最后團(tuán)隊(duì)宣布,GPT搜索功能現(xiàn)已向所有登錄的免費(fèi)用戶(hù)開(kāi)放。用戶(hù)只需登錄賬戶(hù)即可在全球范圍內(nèi)的各種平臺(tái)上無(wú)需付費(fèi),享受這一增強(qiáng)搜索體驗(yàn)。
Veo 2與Imagen 3齊發(fā),加推創(chuàng)意工具Whisk
來(lái)到Google這邊,直接給視頻和圖像生成技術(shù)來(lái)了個(gè)大升級(jí),推出三款重磅產(chǎn)品:
全新視頻生成模型Veo 2、升級(jí)版圖像生成模型Imagen 3,以及創(chuàng)意實(shí)驗(yàn)項(xiàng)目Whisk。
Veo 2重塑AI視頻生成:質(zhì)量與控制力雙突破
Google最新發(fā)布的Veo 2在A(yíng)I視頻生成領(lǐng)域取得突破性進(jìn)展。無(wú)論真實(shí)感、運(yùn)動(dòng)表現(xiàn)能力,還是鏡頭控制都達(dá)到當(dāng)之無(wú)愧的SOTA水平。不少人在看過(guò)驚艷的官方示例后表示,SORA瞬間就不香了。
核心亮點(diǎn)有:
1. 高質(zhì)量與真實(shí)感
Veo 2在細(xì)節(jié)呈現(xiàn)、視覺(jué)風(fēng)格和減少瑕疵方面表現(xiàn)出色,能夠生成高達(dá)4K分辨率的視頻,且時(shí)長(zhǎng)可達(dá)數(shù)分鐘,適用于廣泛的場(chǎng)景和風(fēng)格。
2. 物理與人類(lèi)動(dòng)態(tài)理解
Veo 2對(duì)真實(shí)世界物理原理以及人類(lèi)動(dòng)作與表情的細(xì)微之處有著深刻理解,顯著提升了視頻的真實(shí)感與自然度。
例如示例中這位穿著暗黃色防護(hù)服的科學(xué)家。冷白色實(shí)驗(yàn)室燈光下,她神情焦慮地調(diào)試顯微鏡,擔(dān)憂(yōu)的神情清晰可見(jiàn),渲染出沉重壓力的氛圍。
以及下方,楓糖漿緩緩淋在松軟的煎餅上,培根油脂細(xì)膩,咖啡倒入玻璃杯中沖出層次豐富的泡沫,都展示出媲美物理世界,真實(shí)誘人的畫(huà)面細(xì)節(jié)。
3. 精確的鏡頭控制
Veo 2 深諳電影語(yǔ)言,支持豐富的指令細(xì)節(jié):
? 指定風(fēng)格與鏡頭(如“18mm鏡頭”生成廣角效果)
? 提供電影效果(如“淺景深”聚焦主體,虛化背景)
? 精確的動(dòng)態(tài)鏡頭控制,如低角度跟蹤鏡頭、特寫(xiě)鏡頭等。比如鏡頭跟隨下在馬路快速漂移的汽車(chē):
4. 減少“幻覺(jué)”現(xiàn)象
相較于其他視頻生成模型,Veo 2在生成過(guò)程中更少出現(xiàn)多余的細(xì)節(jié)或“額外的手指”這類(lèi)意外物體,確保輸出結(jié)果更加真實(shí)可靠。
基準(zhǔn)表現(xiàn):
在實(shí)際應(yīng)用評(píng)測(cè)中,通過(guò)Meta發(fā)布的MovieGenBench基準(zhǔn)數(shù)據(jù)集的1003組提示詞測(cè)試,Veo 2在人工評(píng)估中全面超越其他領(lǐng)先的視頻生成模型。特別是在以下兩個(gè)關(guān)鍵指標(biāo)上表現(xiàn)突出:
? 整體偏好度評(píng)分最高
? 提示詞執(zhí)行準(zhǔn)確度領(lǐng)先
現(xiàn)有局限:
盡管表現(xiàn)優(yōu)異,Veo 2在處理高度動(dòng)態(tài)或復(fù)雜場(chǎng)景時(shí)仍面臨挑戰(zhàn),特別是在整個(gè)視頻中保持完全一致性方面還有提升空間。Google團(tuán)隊(duì)表示將持續(xù)優(yōu)化性能,逐步克服這些難題。
所有Veo 2生成的視頻均包含SynthID不可見(jiàn)水印,用于標(biāo)識(shí)其為AI生成,減少誤導(dǎo)和誤用風(fēng)險(xiǎn)。
目前,Veo 2的新功能已在Google Labs視頻生成工具VideoFX開(kāi)放,用戶(hù)可前往Google Labs申請(qǐng)加入候補(bǔ)名單。未來(lái),Veo 2計(jì)劃進(jìn)一步集成到Y(jié)ouTube Shorts等產(chǎn)品中,持續(xù)推動(dòng)AI視頻生成技術(shù)的發(fā)展。
Imagen 3:極致細(xì)節(jié)與風(fēng)格多樣性的圖像生成革新
升級(jí)后的 Imagen 3 在圖像質(zhì)量、細(xì)節(jié)呈現(xiàn)、風(fēng)格多樣性和文字渲染方面取得了顯著提升,全面超越前代模型和其他領(lǐng)先競(jìng)品,成為文本到圖像生成領(lǐng)域的新標(biāo)桿。
核心技術(shù)突破:
1. 高清細(xì)節(jié)的優(yōu)質(zhì)圖像
Imagen 3 生成的圖像具備豐富的細(xì)節(jié)、更明亮自然的光影效果和更專(zhuān)業(yè)的構(gòu)圖水平,有效捕捉如皮膚質(zhì)感、手部細(xì)微皺紋、編織玩偶針線(xiàn)等復(fù)雜紋理與微小細(xì)節(jié),同時(shí)減少視覺(jué)瑕疵,呈現(xiàn)更加自然精致的高保真體驗(yàn)。
手部皮膚和陶土質(zhì)感
動(dòng)物皮毛紋理細(xì)節(jié)
2. 風(fēng)格表現(xiàn)力增強(qiáng)
新版本在藝術(shù)風(fēng)格的駕馭上實(shí)現(xiàn)跨越式發(fā)展,涵蓋范圍廣泛,能滿(mǎn)足不同創(chuàng)作者的需求:
? 寫(xiě)實(shí)風(fēng)格:如風(fēng)景攝影、人物肖像。
人物肖像
空中的千紙鶴
? 各種藝術(shù)風(fēng)格:印象派油畫(huà)、動(dòng)漫、抽象畫(huà)、黏土動(dòng)畫(huà)等。
黏土動(dòng)畫(huà)
動(dòng)漫風(fēng)格
油畫(huà)風(fēng)格
3. 提示詞理解深化
Imagen 3對(duì)自然語(yǔ)言提示的理解能力大幅提升,無(wú)需復(fù)雜的提示詞工程即可準(zhǔn)確執(zhí)行用戶(hù)意圖。模型通過(guò)更豐富的訓(xùn)練數(shù)據(jù)標(biāo)注,能準(zhǔn)確理解長(zhǎng)提示詞中的復(fù)雜細(xì)節(jié),并準(zhǔn)確呈現(xiàn)指定的鏡頭角度、構(gòu)圖等元素。
4. 強(qiáng)大的文本渲染能力
AI作圖此前的一大難點(diǎn)就是亂碼和錯(cuò)字。如今Imagen 3 顯著增強(qiáng)了文本渲染的準(zhǔn)確性,也為風(fēng)格化卡片、海報(bào)等應(yīng)用場(chǎng)景提供了更多可能。
基準(zhǔn)表現(xiàn):
在嚴(yán)格的人工評(píng)估中,Imagen 3在視覺(jué)質(zhì)量、提示詞執(zhí)行準(zhǔn)確度和用戶(hù)偏好度等關(guān)鍵指標(biāo)上均創(chuàng)造新高。
從今天起,Imagen 3 將通過(guò) Google Labs 的圖像生成工具 ImageFX 在全球100多個(gè)國(guó)家上線(xiàn)。用戶(hù)可訪(fǎng)問(wèn) ImageFX親身體驗(yàn)。
可以說(shuō),Imagen 3 以其卓越的細(xì)節(jié)呈現(xiàn)、風(fēng)格多樣性和強(qiáng)大的提示詞理解能力,為創(chuàng)作者提供了前所未有的高質(zhì)量圖像生成工具,重新定義了AI在藝術(shù)、設(shè)計(jì)與創(chuàng)意領(lǐng)域的應(yīng)用潛力。
Whisk:圖像驅(qū)動(dòng)的AI創(chuàng)意工具
除了以上兩個(gè)主要模型更新,Google Labs 還推出了一個(gè)趣味十足的實(shí)驗(yàn)項(xiàng)目 Whisk。
這款工具巧妙結(jié)合了 Gemini 和 Imagen 3 技術(shù),為創(chuàng)作者提供通過(guò)圖像提示生成創(chuàng)意內(nèi)容的新奇體驗(yàn)。
不同于傳統(tǒng)需要輸入冗長(zhǎng)文字提示的方式,用戶(hù)只需拖拽上傳圖片,即可分別指定主題、場(chǎng)景和風(fēng)格,系統(tǒng)會(huì)自動(dòng)完成元素的創(chuàng)意重組。還能依據(jù)興趣選擇樣式,包括個(gè)性化的數(shù)字藝術(shù)品、徽章、貼紙、玩具等。
在技術(shù)實(shí)現(xiàn)上,Gemini 模型會(huì)先對(duì)輸入的圖像進(jìn)行智能分析,生成詳細(xì)的描述信息,并將這些描述輸入 Google 最新的圖像生成模型 Imagen 3,從而創(chuàng)作出全新的作品。
值得注意的是,Whisk 并非簡(jiǎn)單復(fù)制原圖,而是著重捕捉圖像的核心特征進(jìn)行創(chuàng)意重塑。雖然生成結(jié)果可能與原圖有所不同(如人物的身高、發(fā)型或細(xì)節(jié)特征),但用戶(hù)可以隨時(shí)查看并編輯生成的提示詞,靈活調(diào)整創(chuàng)意方向。
由于看起來(lái)實(shí)在好玩,我們也迫不及待試了試,讓水獺做主角,宮崎駿風(fēng)格的海邊壁紙做背景,并且輸入“角色抱著皮球玩具”的補(bǔ)充提示,選擇徽章樣式。
生成結(jié)果如下:
Google 將 Whisk 定位為一款面向快速視覺(jué)探索的創(chuàng)意工具,而非傳統(tǒng)的圖像編輯器。在早期測(cè)試中,藝術(shù)家與創(chuàng)意工作者們普遍認(rèn)為這種全新的創(chuàng)作方式充滿(mǎn)趣味性與創(chuàng)新力。
目前,Whisk已在美國(guó)市場(chǎng)開(kāi)放測(cè)試,手癢的朋友可以馬上去labs.google/whisk體驗(yàn)了。這也標(biāo)志著Google在生成式AI創(chuàng)意工具探索上邁出的重要一步。
總結(jié)
在OpenAI今天的搜索功能直播中,雖然地圖功能的加入收獲了不少好評(píng),但整體內(nèi)容還是缺乏令人眼前一亮的新意。
相比之下,Google憑借Veo 2、Imagen 3 以及創(chuàng)意工具 Whisk 的強(qiáng)勢(shì)推出,占盡主角光環(huán)。也再次彰顯了其在生成式AI領(lǐng)域的強(qiáng)大技術(shù)實(shí)力。
從高質(zhì)量的視頻和圖像生成到圖像提示驅(qū)動(dòng)的創(chuàng)意混合,Google通過(guò)技術(shù)創(chuàng)新為創(chuàng)作者提供了更高效、更靈活的工具,讓人不得不服。
連續(xù)發(fā)布的OpenAI有些后勁不足,不過(guò),官方預(yù)告明天OpenAI將迎來(lái)一場(chǎng)mini Dev Day,期待會(huì)帶來(lái)真正的驚喜。
本文為專(zhuān)欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀(guān)點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。