繼續(xù)對(duì)著OpenAI來(lái)，Google發(fā)布Veo 2、Imagen 3，Sora和DALL-E不香了

硅星人·2024-12-17

大哥還是大哥

編者按：本文來(lái)自微信公眾號(hào)硅星人Pro（ID：Si-Planet），作者：Jessica，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

新的一周，OpenAI技術(shù)直播迎來(lái)了第8天。今日重點(diǎn)是ChatGPT Search，從領(lǐng)銜登場(chǎng)的熟面孔、公司首席產(chǎn)品官 Kevin Weil 來(lái)看，這次發(fā)布仍以?xún)?yōu)化和完善產(chǎn)品功能為主。

與此同時(shí)，Google卻在發(fā)布 Gemini 2.0 Flash 后繼續(xù)在模型上發(fā)力，一口氣推出新一代視頻生成模型 Veo 2 和圖片生成模型 Imagen 3，還上線(xiàn)了一個(gè)可玩性很高的“圖生圖”實(shí)驗(yàn)項(xiàng)目 Whisk。

即便已近年尾，OpenAI和Google這對(duì)老冤家依然打得火熱。而從社區(qū)反響來(lái)看，今天似乎又成了一個(gè)“Google主場(chǎng)日”。

ChatGPT 搜索集成地圖，全球免費(fèi)開(kāi)放

OpenAI今天主要帶來(lái)三項(xiàng)AI搜索更新：

1. 搜索功能優(yōu)化

ChatGPT 根據(jù)用戶(hù)反饋全面提升了搜索體驗(yàn)，包括提升搜索速度、移動(dòng)端增強(qiáng)和引入新的地圖功能等。

? 視覺(jué)效果更豐富：

搜索結(jié)果現(xiàn)在支持更豐富的視覺(jué)元素和結(jié)構(gòu)化信息展示。例如搜索"舊金山周末有趣的活動(dòng)"時(shí)，系統(tǒng)會(huì)同時(shí)展示活動(dòng)圖片、來(lái)源鏈接及詳細(xì)信息，讓結(jié)果更加直觀(guān)。用戶(hù)還能直接在搜索結(jié)果中觀(guān)看視頻內(nèi)容，不過(guò)這些并不稀奇，在Perplexity中早已實(shí)現(xiàn)過(guò)了。

? 移動(dòng)端新增地圖功能：

新增「地圖」查看模式，支持用戶(hù)通過(guò) ChatGPT應(yīng)用直接與地圖交互，也是此次更新的最大亮點(diǎn)。以搜索 Mission 區(qū)墨西哥餐廳為例，點(diǎn)擊地圖上的圖標(biāo)即可查看餐廳圖片、營(yíng)業(yè)時(shí)間、露臺(tái)信息及導(dǎo)航路徑等詳情。

? 默認(rèn)搜索引擎的快速導(dǎo)航：將ChatGPT設(shè)為瀏覽器默認(rèn)搜索引擎后，無(wú)需打開(kāi)網(wǎng)站，通過(guò)在地址欄直接輸入查詢(xún)內(nèi)容，即可快速調(diào)用ChatGPT并獲取推薦鏈接。

2. 搜索功能集成高級(jí)語(yǔ)音模式

搜索功能已整合至高級(jí)語(yǔ)音模式中，支持邊聊天邊搜索的自然交互體驗(yàn)。

3. 全球免費(fèi)開(kāi)放

最后團(tuán)隊(duì)宣布，GPT搜索功能現(xiàn)已向所有登錄的免費(fèi)用戶(hù)開(kāi)放。用戶(hù)只需登錄賬戶(hù)即可在全球范圍內(nèi)的各種平臺(tái)上無(wú)需付費(fèi)，享受這一增強(qiáng)搜索體驗(yàn)。

Veo 2與Imagen 3齊發(fā)，加推創(chuàng)意工具Whisk

來(lái)到Google這邊，直接給視頻和圖像生成技術(shù)來(lái)了個(gè)大升級(jí)，推出三款重磅產(chǎn)品：

全新視頻生成模型Veo 2、升級(jí)版圖像生成模型Imagen 3，以及創(chuàng)意實(shí)驗(yàn)項(xiàng)目Whisk。

Veo 2重塑AI視頻生成：質(zhì)量與控制力雙突破

Google最新發(fā)布的Veo 2在A(yíng)I視頻生成領(lǐng)域取得突破性進(jìn)展。無(wú)論真實(shí)感、運(yùn)動(dòng)表現(xiàn)能力，還是鏡頭控制都達(dá)到當(dāng)之無(wú)愧的SOTA水平。不少人在看過(guò)驚艷的官方示例后表示，SORA瞬間就不香了。

核心亮點(diǎn)有：

1. 高質(zhì)量與真實(shí)感

Veo 2在細(xì)節(jié)呈現(xiàn)、視覺(jué)風(fēng)格和減少瑕疵方面表現(xiàn)出色，能夠生成高達(dá)4K分辨率的視頻，且時(shí)長(zhǎng)可達(dá)數(shù)分鐘，適用于廣泛的場(chǎng)景和風(fēng)格。

2. 物理與人類(lèi)動(dòng)態(tài)理解

Veo 2對(duì)真實(shí)世界物理原理以及人類(lèi)動(dòng)作與表情的細(xì)微之處有著深刻理解，顯著提升了視頻的真實(shí)感與自然度。

例如示例中這位穿著暗黃色防護(hù)服的科學(xué)家。冷白色實(shí)驗(yàn)室燈光下，她神情焦慮地調(diào)試顯微鏡，擔(dān)憂(yōu)的神情清晰可見(jiàn)，渲染出沉重壓力的氛圍。

以及下方，楓糖漿緩緩淋在松軟的煎餅上，培根油脂細(xì)膩，咖啡倒入玻璃杯中沖出層次豐富的泡沫，都展示出媲美物理世界，真實(shí)誘人的畫(huà)面細(xì)節(jié)。

3. 精確的鏡頭控制

Veo 2 深諳電影語(yǔ)言，支持豐富的指令細(xì)節(jié)：

? 指定風(fēng)格與鏡頭（如“18mm鏡頭”生成廣角效果）

? 提供電影效果（如“淺景深”聚焦主體，虛化背景）

? 精確的動(dòng)態(tài)鏡頭控制，如低角度跟蹤鏡頭、特寫(xiě)鏡頭等。比如鏡頭跟隨下在馬路快速漂移的汽車(chē)：

4. 減少“幻覺(jué)”現(xiàn)象

相較于其他視頻生成模型，Veo 2在生成過(guò)程中更少出現(xiàn)多余的細(xì)節(jié)或“額外的手指”這類(lèi)意外物體，確保輸出結(jié)果更加真實(shí)可靠。

基準(zhǔn)表現(xiàn)：

在實(shí)際應(yīng)用評(píng)測(cè)中，通過(guò)Meta發(fā)布的MovieGenBench基準(zhǔn)數(shù)據(jù)集的1003組提示詞測(cè)試，Veo 2在人工評(píng)估中全面超越其他領(lǐng)先的視頻生成模型。特別是在以下兩個(gè)關(guān)鍵指標(biāo)上表現(xiàn)突出：

? 整體偏好度評(píng)分最高

? 提示詞執(zhí)行準(zhǔn)確度領(lǐng)先

現(xiàn)有局限：

盡管表現(xiàn)優(yōu)異，Veo 2在處理高度動(dòng)態(tài)或復(fù)雜場(chǎng)景時(shí)仍面臨挑戰(zhàn)，特別是在整個(gè)視頻中保持完全一致性方面還有提升空間。Google團(tuán)隊(duì)表示將持續(xù)優(yōu)化性能，逐步克服這些難題。

所有Veo 2生成的視頻均包含SynthID不可見(jiàn)水印，用于標(biāo)識(shí)其為AI生成，減少誤導(dǎo)和誤用風(fēng)險(xiǎn)。

目前，Veo 2的新功能已在Google Labs視頻生成工具VideoFX開(kāi)放，用戶(hù)可前往Google Labs申請(qǐng)加入候補(bǔ)名單。未來(lái)，Veo 2計(jì)劃進(jìn)一步集成到Y(jié)ouTube Shorts等產(chǎn)品中，持續(xù)推動(dòng)AI視頻生成技術(shù)的發(fā)展。

Imagen 3：極致細(xì)節(jié)與風(fēng)格多樣性的圖像生成革新

升級(jí)后的 Imagen 3 在圖像質(zhì)量、細(xì)節(jié)呈現(xiàn)、風(fēng)格多樣性和文字渲染方面取得了顯著提升，全面超越前代模型和其他領(lǐng)先競(jìng)品，成為文本到圖像生成領(lǐng)域的新標(biāo)桿。

核心技術(shù)突破：

1. 高清細(xì)節(jié)的優(yōu)質(zhì)圖像

Imagen 3 生成的圖像具備豐富的細(xì)節(jié)、更明亮自然的光影效果和更專(zhuān)業(yè)的構(gòu)圖水平，有效捕捉如皮膚質(zhì)感、手部細(xì)微皺紋、編織玩偶針線(xiàn)等復(fù)雜紋理與微小細(xì)節(jié)，同時(shí)減少視覺(jué)瑕疵，呈現(xiàn)更加自然精致的高保真體驗(yàn)。

手部皮膚和陶土質(zhì)感

動(dòng)物皮毛紋理細(xì)節(jié)

2. 風(fēng)格表現(xiàn)力增強(qiáng)

新版本在藝術(shù)風(fēng)格的駕馭上實(shí)現(xiàn)跨越式發(fā)展，涵蓋范圍廣泛，能滿(mǎn)足不同創(chuàng)作者的需求：

? 寫(xiě)實(shí)風(fēng)格：如風(fēng)景攝影、人物肖像。

人物肖像

空中的千紙鶴

? 各種藝術(shù)風(fēng)格：印象派油畫(huà)、動(dòng)漫、抽象畫(huà)、黏土動(dòng)畫(huà)等。

黏土動(dòng)畫(huà)

動(dòng)漫風(fēng)格

油畫(huà)風(fēng)格

3. 提示詞理解深化

Imagen 3對(duì)自然語(yǔ)言提示的理解能力大幅提升，無(wú)需復(fù)雜的提示詞工程即可準(zhǔn)確執(zhí)行用戶(hù)意圖。模型通過(guò)更豐富的訓(xùn)練數(shù)據(jù)標(biāo)注，能準(zhǔn)確理解長(zhǎng)提示詞中的復(fù)雜細(xì)節(jié)，并準(zhǔn)確呈現(xiàn)指定的鏡頭角度、構(gòu)圖等元素。

4. 強(qiáng)大的文本渲染能力

AI作圖此前的一大難點(diǎn)就是亂碼和錯(cuò)字。如今Imagen 3 顯著增強(qiáng)了文本渲染的準(zhǔn)確性，也為風(fēng)格化卡片、海報(bào)等應(yīng)用場(chǎng)景提供了更多可能。

基準(zhǔn)表現(xiàn)：

在嚴(yán)格的人工評(píng)估中，Imagen 3在視覺(jué)質(zhì)量、提示詞執(zhí)行準(zhǔn)確度和用戶(hù)偏好度等關(guān)鍵指標(biāo)上均創(chuàng)造新高。

從今天起，Imagen 3 將通過(guò) Google Labs 的圖像生成工具 ImageFX 在全球100多個(gè)國(guó)家上線(xiàn)。用戶(hù)可訪(fǎng)問(wèn) ImageFX親身體驗(yàn)。

可以說(shuō)，Imagen 3 以其卓越的細(xì)節(jié)呈現(xiàn)、風(fēng)格多樣性和強(qiáng)大的提示詞理解能力，為創(chuàng)作者提供了前所未有的高質(zhì)量圖像生成工具，重新定義了AI在藝術(shù)、設(shè)計(jì)與創(chuàng)意領(lǐng)域的應(yīng)用潛力。

Whisk：圖像驅(qū)動(dòng)的AI創(chuàng)意工具

除了以上兩個(gè)主要模型更新，Google Labs 還推出了一個(gè)趣味十足的實(shí)驗(yàn)項(xiàng)目 Whisk。

這款工具巧妙結(jié)合了 Gemini 和 Imagen 3 技術(shù)，為創(chuàng)作者提供通過(guò)圖像提示生成創(chuàng)意內(nèi)容的新奇體驗(yàn)。

不同于傳統(tǒng)需要輸入冗長(zhǎng)文字提示的方式，用戶(hù)只需拖拽上傳圖片，即可分別指定主題、場(chǎng)景和風(fēng)格，系統(tǒng)會(huì)自動(dòng)完成元素的創(chuàng)意重組。還能依據(jù)興趣選擇樣式，包括個(gè)性化的數(shù)字藝術(shù)品、徽章、貼紙、玩具等。

在技術(shù)實(shí)現(xiàn)上，Gemini 模型會(huì)先對(duì)輸入的圖像進(jìn)行智能分析，生成詳細(xì)的描述信息，并將這些描述輸入 Google 最新的圖像生成模型 Imagen 3，從而創(chuàng)作出全新的作品。

值得注意的是，Whisk 并非簡(jiǎn)單復(fù)制原圖，而是著重捕捉圖像的核心特征進(jìn)行創(chuàng)意重塑。雖然生成結(jié)果可能與原圖有所不同（如人物的身高、發(fā)型或細(xì)節(jié)特征），但用戶(hù)可以隨時(shí)查看并編輯生成的提示詞，靈活調(diào)整創(chuàng)意方向。

由于看起來(lái)實(shí)在好玩，我們也迫不及待試了試，讓水獺做主角，宮崎駿風(fēng)格的海邊壁紙做背景，并且輸入“角色抱著皮球玩具”的補(bǔ)充提示，選擇徽章樣式。

生成結(jié)果如下：

Google 將 Whisk 定位為一款面向快速視覺(jué)探索的創(chuàng)意工具，而非傳統(tǒng)的圖像編輯器。在早期測(cè)試中，藝術(shù)家與創(chuàng)意工作者們普遍認(rèn)為這種全新的創(chuàng)作方式充滿(mǎn)趣味性與創(chuàng)新力。

目前，Whisk已在美國(guó)市場(chǎng)開(kāi)放測(cè)試，手癢的朋友可以馬上去labs.google/whisk體驗(yàn)了。這也標(biāo)志著Google在生成式AI創(chuàng)意工具探索上邁出的重要一步。

總結(jié)

在OpenAI今天的搜索功能直播中，雖然地圖功能的加入收獲了不少好評(píng)，但整體內(nèi)容還是缺乏令人眼前一亮的新意。

相比之下，Google憑借Veo 2、Imagen 3 以及創(chuàng)意工具 Whisk 的強(qiáng)勢(shì)推出，占盡主角光環(huán)。也再次彰顯了其在生成式AI領(lǐng)域的強(qiáng)大技術(shù)實(shí)力。

從高質(zhì)量的視頻和圖像生成到圖像提示驅(qū)動(dòng)的創(chuàng)意混合，Google通過(guò)技術(shù)創(chuàng)新為創(chuàng)作者提供了更高效、更靈活的工具，讓人不得不服。

連續(xù)發(fā)布的OpenAI有些后勁不足，不過(guò)，官方預(yù)告明天OpenAI將迎來(lái)一場(chǎng)mini Dev Day，期待會(huì)帶來(lái)真正的驚喜。

本文為專(zhuān)欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀(guān)點(diǎn)，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系editor@cyzone.cn。