五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

繼續(xù)對著OpenAI來,Google發(fā)布Veo 2、Imagen 3,Sora和DALL-E不香了

大哥還是大哥

編者按:本文來自微信公眾號硅星人Pro(ID:Si-Planet),作者:Jessica,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

新的一周,OpenAI技術(shù)直播迎來了第8天。今日重點是ChatGPT Search,從領(lǐng)銜登場的熟面孔、公司首席產(chǎn)品官 Kevin Weil 來看,這次發(fā)布仍以優(yōu)化和完善產(chǎn)品功能為主。

與此同時,Google卻在發(fā)布 Gemini 2.0 Flash 后繼續(xù)在模型上發(fā)力,一口氣推出新一代視頻生成模型 Veo 2 和圖片生成模型 Imagen 3,還上線了一個可玩性很高的“圖生圖”實驗項目 Whisk。

即便已近年尾,OpenAI和Google這對老冤家依然打得火熱。而從社區(qū)反響來看,今天似乎又成了一個“Google主場日”。

ChatGPT 搜索集成地圖,全球免費開放

OpenAI今天主要帶來三項AI搜索更新:

1. 搜索功能優(yōu)化

ChatGPT 根據(jù)用戶反饋全面提升了搜索體驗,包括提升搜索速度、移動端增強(qiáng)和引入新的地圖功能等。

? 視覺效果更豐富:

搜索結(jié)果現(xiàn)在支持更豐富的視覺元素和結(jié)構(gòu)化信息展示。例如搜索"舊金山周末有趣的活動"時,系統(tǒng)會同時展示活動圖片、來源鏈接及詳細(xì)信息,讓結(jié)果更加直觀。用戶還能直接在搜索結(jié)果中觀看視頻內(nèi)容,不過這些并不稀奇,在Perplexity中早已實現(xiàn)過了。

圖片

? 移動端新增地圖功能:

新增「地圖」查看模式,支持用戶通過 ChatGPT應(yīng)用直接與地圖交互,也是此次更新的最大亮點。以搜索 Mission 區(qū)墨西哥餐廳為例,點擊地圖上的圖標(biāo)即可查看餐廳圖片、營業(yè)時間、露臺信息及導(dǎo)航路徑等詳情。

圖片

? 默認(rèn)搜索引擎的快速導(dǎo)航:將ChatGPT設(shè)為瀏覽器默認(rèn)搜索引擎后,無需打開網(wǎng)站,通過在地址欄直接輸入查詢內(nèi)容,即可快速調(diào)用ChatGPT并獲取推薦鏈接。

2. 搜索功能集成高級語音模式

搜索功能已整合至高級語音模式中,支持邊聊天邊搜索的自然交互體驗。

3. 全球免費開放

最后團(tuán)隊宣布,GPT搜索功能現(xiàn)已向所有登錄的免費用戶開放。用戶只需登錄賬戶即可在全球范圍內(nèi)的各種平臺上無需付費,享受這一增強(qiáng)搜索體驗。

Veo 2與Imagen 3齊發(fā),加推創(chuàng)意工具Whisk

來到Google這邊,直接給視頻和圖像生成技術(shù)來了個大升級,推出三款重磅產(chǎn)品:

全新視頻生成模型Veo 2、升級版圖像生成模型Imagen 3,以及創(chuàng)意實驗項目Whisk。

Veo 2重塑AI視頻生成:質(zhì)量與控制力雙突破

Google最新發(fā)布的Veo 2在AI視頻生成領(lǐng)域取得突破性進(jìn)展。無論真實感、運動表現(xiàn)能力,還是鏡頭控制都達(dá)到當(dāng)之無愧的SOTA水平。不少人在看過驚艷的官方示例后表示,SORA瞬間就不香了。

核心亮點有:

1. 高質(zhì)量與真實感

Veo 2在細(xì)節(jié)呈現(xiàn)、視覺風(fēng)格和減少瑕疵方面表現(xiàn)出色,能夠生成高達(dá)4K分辨率的視頻,且時長可達(dá)數(shù)分鐘,適用于廣泛的場景和風(fēng)格。

圖片

2. 物理與人類動態(tài)理解

Veo 2對真實世界物理原理以及人類動作與表情的細(xì)微之處有著深刻理解,顯著提升了視頻的真實感與自然度。

例如示例中這位穿著暗黃色防護(hù)服的科學(xué)家。冷白色實驗室燈光下,她神情焦慮地調(diào)試顯微鏡,擔(dān)憂的神情清晰可見,渲染出沉重壓力的氛圍。

圖片

以及下方,楓糖漿緩緩淋在松軟的煎餅上,培根油脂細(xì)膩,咖啡倒入玻璃杯中沖出層次豐富的泡沫,都展示出媲美物理世界,真實誘人的畫面細(xì)節(jié)。

圖片

3. 精確的鏡頭控制

Veo 2 深諳電影語言,支持豐富的指令細(xì)節(jié):

? 指定風(fēng)格與鏡頭(如“18mm鏡頭”生成廣角效果)

? 提供電影效果(如“淺景深”聚焦主體,虛化背景)

圖片

? 精確的動態(tài)鏡頭控制,如低角度跟蹤鏡頭、特寫鏡頭等。比如鏡頭跟隨下在馬路快速漂移的汽車:

圖片

4. 減少“幻覺”現(xiàn)象

相較于其他視頻生成模型,Veo 2在生成過程中更少出現(xiàn)多余的細(xì)節(jié)或“額外的手指”這類意外物體,確保輸出結(jié)果更加真實可靠。

基準(zhǔn)表現(xiàn):

在實際應(yīng)用評測中,通過Meta發(fā)布的MovieGenBench基準(zhǔn)數(shù)據(jù)集的1003組提示詞測試,Veo 2在人工評估中全面超越其他領(lǐng)先的視頻生成模型。特別是在以下兩個關(guān)鍵指標(biāo)上表現(xiàn)突出:

? 整體偏好度評分最高

? 提示詞執(zhí)行準(zhǔn)確度領(lǐng)先

圖片

現(xiàn)有局限:

盡管表現(xiàn)優(yōu)異,Veo 2在處理高度動態(tài)或復(fù)雜場景時仍面臨挑戰(zhàn),特別是在整個視頻中保持完全一致性方面還有提升空間。Google團(tuán)隊表示將持續(xù)優(yōu)化性能,逐步克服這些難題。

所有Veo 2生成的視頻均包含SynthID不可見水印,用于標(biāo)識其為AI生成,減少誤導(dǎo)和誤用風(fēng)險。

目前,Veo 2的新功能已在Google Labs視頻生成工具VideoFX開放,用戶可前往Google Labs申請加入候補(bǔ)名單。未來,Veo 2計劃進(jìn)一步集成到Y(jié)ouTube Shorts等產(chǎn)品中,持續(xù)推動AI視頻生成技術(shù)的發(fā)展。

Imagen 3:極致細(xì)節(jié)與風(fēng)格多樣性的圖像生成革新

升級后的 Imagen 3 在圖像質(zhì)量、細(xì)節(jié)呈現(xiàn)、風(fēng)格多樣性和文字渲染方面取得了顯著提升,全面超越前代模型和其他領(lǐng)先競品,成為文本到圖像生成領(lǐng)域的新標(biāo)桿。

核心技術(shù)突破:

1. 高清細(xì)節(jié)的優(yōu)質(zhì)圖像

Imagen 3 生成的圖像具備豐富的細(xì)節(jié)、更明亮自然的光影效果和更專業(yè)的構(gòu)圖水平,有效捕捉如皮膚質(zhì)感、手部細(xì)微皺紋、編織玩偶針線等復(fù)雜紋理與微小細(xì)節(jié),同時減少視覺瑕疵,呈現(xiàn)更加自然精致的高保真體驗。

圖片

手部皮膚和陶土質(zhì)感

圖片

動物皮毛紋理細(xì)節(jié)

2. 風(fēng)格表現(xiàn)力增強(qiáng)

新版本在藝術(shù)風(fēng)格的駕馭上實現(xiàn)跨越式發(fā)展,涵蓋范圍廣泛,能滿足不同創(chuàng)作者的需求:

? 寫實風(fēng)格:如風(fēng)景攝影、人物肖像。

圖片

人物肖像

圖片

空中的千紙鶴

? 各種藝術(shù)風(fēng)格:印象派油畫、動漫、抽象畫、黏土動畫等。

圖片

黏土動畫

圖片

動漫風(fēng)格

圖片

油畫風(fēng)格

3. 提示詞理解深化

Imagen 3對自然語言提示的理解能力大幅提升,無需復(fù)雜的提示詞工程即可準(zhǔn)確執(zhí)行用戶意圖。模型通過更豐富的訓(xùn)練數(shù)據(jù)標(biāo)注,能準(zhǔn)確理解長提示詞中的復(fù)雜細(xì)節(jié),并準(zhǔn)確呈現(xiàn)指定的鏡頭角度、構(gòu)圖等元素。

4. 強(qiáng)大的文本渲染能力

AI作圖此前的一大難點就是亂碼和錯字。如今Imagen 3 顯著增強(qiáng)了文本渲染的準(zhǔn)確性,也為風(fēng)格化卡片、海報等應(yīng)用場景提供了更多可能。

圖片

基準(zhǔn)表現(xiàn):

在嚴(yán)格的人工評估中,Imagen 3在視覺質(zhì)量、提示詞執(zhí)行準(zhǔn)確度和用戶偏好度等關(guān)鍵指標(biāo)上均創(chuàng)造新高。

圖片

從今天起,Imagen 3 將通過 Google Labs 的圖像生成工具 ImageFX 在全球100多個國家上線。用戶可訪問 ImageFX親身體驗。

可以說,Imagen 3 以其卓越的細(xì)節(jié)呈現(xiàn)、風(fēng)格多樣性和強(qiáng)大的提示詞理解能力,為創(chuàng)作者提供了前所未有的高質(zhì)量圖像生成工具,重新定義了AI在藝術(shù)、設(shè)計與創(chuàng)意領(lǐng)域的應(yīng)用潛力。

Whisk:圖像驅(qū)動的AI創(chuàng)意工具

除了以上兩個主要模型更新,Google Labs 還推出了一個趣味十足的實驗項目 Whisk。

這款工具巧妙結(jié)合了 Gemini 和 Imagen 3 技術(shù),為創(chuàng)作者提供通過圖像提示生成創(chuàng)意內(nèi)容的新奇體驗。

不同于傳統(tǒng)需要輸入冗長文字提示的方式,用戶只需拖拽上傳圖片,即可分別指定主題、場景和風(fēng)格,系統(tǒng)會自動完成元素的創(chuàng)意重組。還能依據(jù)興趣選擇樣式,包括個性化的數(shù)字藝術(shù)品、徽章、貼紙、玩具等。

圖片

在技術(shù)實現(xiàn)上,Gemini 模型會先對輸入的圖像進(jìn)行智能分析,生成詳細(xì)的描述信息,并將這些描述輸入 Google 最新的圖像生成模型 Imagen 3,從而創(chuàng)作出全新的作品。

圖片

值得注意的是,Whisk 并非簡單復(fù)制原圖,而是著重捕捉圖像的核心特征進(jìn)行創(chuàng)意重塑。雖然生成結(jié)果可能與原圖有所不同(如人物的身高、發(fā)型或細(xì)節(jié)特征),但用戶可以隨時查看并編輯生成的提示詞,靈活調(diào)整創(chuàng)意方向。

由于看起來實在好玩,我們也迫不及待試了試,讓水獺做主角,宮崎駿風(fēng)格的海邊壁紙做背景,并且輸入“角色抱著皮球玩具”的補(bǔ)充提示,選擇徽章樣式。

生成結(jié)果如下:

圖片

Google 將 Whisk 定位為一款面向快速視覺探索的創(chuàng)意工具,而非傳統(tǒng)的圖像編輯器。在早期測試中,藝術(shù)家與創(chuàng)意工作者們普遍認(rèn)為這種全新的創(chuàng)作方式充滿趣味性與創(chuàng)新力。

目前,Whisk已在美國市場開放測試,手癢的朋友可以馬上去labs.google/whisk體驗了。這也標(biāo)志著Google在生成式AI創(chuàng)意工具探索上邁出的重要一步。

總結(jié)

在OpenAI今天的搜索功能直播中,雖然地圖功能的加入收獲了不少好評,但整體內(nèi)容還是缺乏令人眼前一亮的新意。

相比之下,Google憑借Veo 2、Imagen 3 以及創(chuàng)意工具 Whisk 的強(qiáng)勢推出,占盡主角光環(huán)。也再次彰顯了其在生成式AI領(lǐng)域的強(qiáng)大技術(shù)實力。

從高質(zhì)量的視頻和圖像生成到圖像提示驅(qū)動的創(chuàng)意混合,Google通過技術(shù)創(chuàng)新為創(chuàng)作者提供了更高效、更靈活的工具,讓人不得不服。

連續(xù)發(fā)布的OpenAI有些后勁不足,不過,官方預(yù)告明天OpenAI將迎來一場mini Dev Day,期待會帶來真正的驚喜。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱