谷歌追著OpenAI打，Project Astra硬剛GPT-4o，Veo對抗Sora

創(chuàng)業(yè)邦的創(chuàng)作者2024-05-15

前一天OpenAI用GPT-4o把全世界掀翻，今天被提前截胡的谷歌，在一年一度的谷歌I/O開發(fā)者大會上開啟反擊！

展示了與GPT-4o 相似的語音視覺交互功能Gemini Live，還更進一步推出了比OpenAI等對手更激進的AI智能體Project Astra、還有對抗Sora的70秒視頻生成模型Veo等等

此外，谷歌對拿手業(yè)務——搜索進行了AI化改造，全面更新了Gemini模型家族。另外還發(fā)布了高質(zhì)量文生圖模型Imagen 3、AI音樂創(chuàng)作工具Music AI Sandbox等等。

數(shù)不勝數(shù)的AI產(chǎn)品讓人眼花繚亂。將近兩個小時的發(fā)布會上，提到了121次AI。

谷歌CEO皮查伊稱目前有超150萬開發(fā)人員在使用Gemini模型，谷歌擁有20億用戶的產(chǎn)品都在使用Gemini，谷歌推出安卓和iOS上可用的應用程序直接與Gemini互動，3個月內(nèi)已有超過100萬人注冊嘗試。

下面我們一起來看看產(chǎn)品更新吧：

一、未來通用AI Agent：日常生活隨時答疑解惑的超級助手

Project Astra。這是一個還在研發(fā)中的AI Agent。當演示者打開手機攝像頭，邊走邊問AI助手Project Astra捕捉到的現(xiàn)實場景中的問題。比如要求“看到能發(fā)出聲音的東西就告訴我”，Gemini就會給出準確描述：“我看到一個音響發(fā)出聲音。”接下來，測試者用紅色剪頭指向揚聲器的頂部，再次問道，這個揚聲器的部件叫什么？Gemini準確理解指令，并答出這是高音揚聲器，能產(chǎn)生高頻的聲音。

Astra還可以實時解答代碼、掃一眼周圍環(huán)境，Gemini就能推斷出你住在哪個小區(qū)等等

Astra有強大的對答如流的能力，谷歌還首次展示了AR眼鏡配上AI的震撼演示。

二、Veo：全新視頻生成模型，正面迎戰(zhàn)OpenAI Sora

Veo生成的視頻不僅真實，而且在光線、構圖等方面具有驚人的電影感。

谷歌結合了DeepMind研究成果中最好的架構和技術，提高了一致性、質(zhì)量和分辨率。

Veo具備1080p的高質(zhì)量，用戶提示可以是文本、圖像、視頻等各種格式，還能捕捉到其中關于視覺效果和影像風格的各種細節(jié)描述。通過點擊擴展按鈕，用戶就可以持續(xù)增加視頻的時長，它的時長已經(jīng)超過Sora達到了1分10秒。目前Veo已經(jīng)開始在官網(wǎng)開放試用了。

三、Imagen 3

升級后的Imagen 3能生成更多細節(jié)、光影豐富的圖像。新模型對提示的理解能力，得到顯著提升，可以從較長的提示中，捕獲細節(jié)。如下圖中，對狼的特征，背景顏色，畫質(zhì)質(zhì)量等要求，Imagen 3一致地呈現(xiàn)了出來。它可以準確地渲染小細節(jié)，比如人手上的細微皺紋，以及復雜的紋理。

谷歌稱Imagen 3是目前最強大的圖像生成模型。

四、Music AI Sandbox：AI音樂創(chuàng)作工具，可以改變音樂的創(chuàng)作方式，谷歌與音樂家、詞曲作者和制作人密切合作來幫助設計和測試這款工具。

五、Gemini 1.5 Pro，超長的上下文窗口，達到了100萬tokens的級別，超過了目前所有的大語言模型，而且開放給個人用戶使用。它的上下文token數(shù)將會達到2000K（200萬）！相比之下，GPT-4 Turbo只有128K，Claude 3也只有200K。

這意味著你可以給模型輸入2小時視頻、22小時音頻、超過6萬行代碼或者140多萬單詞。

在這樣的Gemini加持下，我們可以實現(xiàn)許多迅捷的功能。比如，作為父母需要了解孩子在學校的情況，就可以在Gmail中要求Gemini識別所有關于學校的電子郵件，然后幫你總結出要點。如果你錯過了公司會議，但可以拿到一小時時長的會議錄音，Gemini就能立刻幫你總結出會議要點。

現(xiàn)場谷歌演示了NotebookLM的音頻概述功能，用戶只需將文本資料輸入進去，該軟件即可基于Gemini Pro 1.5能力，生成豐富的音頻內(nèi)容素材。

另外谷歌還推出了輕量級模型Gemini 1.5 Flash，針對低延遲和低成本任務（聊天應用、從長文檔提取數(shù)據(jù)等）進行了優(yōu)化，成本效益更高，上下文窗口達100萬個tokens。

Gemini 1.5 Pro為7美元/100萬tokens，對于128k以下的輸入，將降價50%至3.5美元/100萬tokens；Gemini 1.5 Flash的價格為0.35美元/100萬tokens。

六、AI搜索

在Gemini的加持下，谷歌搜索大變樣。在搜索框下，會出現(xiàn)一個為你量身定做的AI總結。你的問題是什么樣，它就會幫你做規(guī)劃，展示出若干個卡片，讓搜索信息以鮮明的方式被呈現(xiàn)出來。

基于此谷歌宣布推出AI Overviews工具，這次AI Overview即將發(fā)布的另一個重磅功能，就是多步驟推理。它能將用戶輸入的一個復雜問題分解成多部分，確定需要解決哪些問題，以及用什么順序解決。

以前可能要花幾分鐘甚至幾個小時的研究，現(xiàn)在幾秒鐘內(nèi)就可以完成！因為它將十個問題合而為一。

比如，如果想找到波士頓最好的瑜伽或普拉提工作室，它會直接搜出來結果，然后幫你整理好情況介紹和工作時間。只要一次搜索，所有需要的信息就自動呈現(xiàn)出來。

你可以要求谷歌提供一個三天的膳食計劃。這些食譜被從整個網(wǎng)絡整合出來，清晰又全面。

并且目前還支持用視頻去搜索，比如，該怎么修這個唱片機？以前，我們需要進行一堆搜索，確定它的牌子、型號?，F(xiàn)在，直接拍一個視頻丟給谷歌，然后直接開口問：它的這個毛病是什么原因？谷歌用AI Overview，給出了最全面的信息。

七、畫圈即搜功能：在你的手機或平板電腦上圈出復雜的物理問題，就能獲得一步一步的指導，學習如何解決問題。

八、安卓版Gemini新功能：安卓系統(tǒng)上的Gemini變得更有幫助，更有環(huán)境意識；今年晚些時候支持將生成的圖像拖放到Google Messages和Gmail中，還支持用戶直接在設備上詢問有關YouTube視頻和PDF文件的問題。

谷歌要做“系統(tǒng)級AI”，把Gemini用在安卓系統(tǒng)底層。他們要讓安卓成為體驗谷歌AI的最強移動平臺。

Gemini在系統(tǒng)級層面運行，因此用戶不需要打開應用。同時Gemini有了上下文感知能力，可以提供更即的時幫助。

比如，Gemini可以幫用戶在聊天中生成有趣的表情包圖片，Gemini可以感知到用戶在看視頻，彈出提示，詢問是不是想了解關于這個視頻的問題，用戶可以直接詢問視頻中的細節(jié)，Gemini可以直接從視頻中找到答案。

谷歌強調(diào)Gemini只會在安卓上運行，而前段時間蘋果被曝與OpenAI洽談合作，iPhone將搭載ChatGPT，安卓陣營與蘋果陣營的AI大戰(zhàn)一觸即發(fā)。

九、原生多模態(tài)Gemini App

在Gemini APP中，谷歌推出Gemini Live功能，用戶可通過文本、語音或影像多種方式進行交互，直接與大模型進行對話，并能夠隨時打斷，可以打開攝像頭使其“看到”周圍的世界并實時響應。比如，你正在為一場面試做準備，只需要進入Live，Gemini就可以陪你一起做準備。

在Gemini的加持下，谷歌還推出Ask Photos的新功能。比如，如果付停車費時忘了自己的車牌號，就可以直接詢問自己的車牌照片是哪個，不需要翻閱手機里的大量照片了。

另外還有第六代TPU、AI基礎設施、AI搜索新功能、Google Workspace應用Gemini功能、Gemini Live多模態(tài)功能、、Gemini Advanced、、Gemini Nano新功能、AI輔助紅隊技術、擴展和開源SynthID文本水印等。

雖然OpenAI憑借創(chuàng)業(yè)公司的靈活專注優(yōu)勢，屢屢搶占先發(fā)優(yōu)勢，每次都突出谷歌一步發(fā)布新品，但谷歌依然有著自己的獨有優(yōu)勢，、除了產(chǎn)品研發(fā)，還擁有基礎設施和運算能力，以及龐大的谷歌應用矩陣與數(shù)十億的用戶級別。在激烈的生成式AI競賽中，最終贏家是誰值得期待。

免責申明

1.本平臺專注于提供資訊分享服務，所提供的資訊內(nèi)容僅代表作者個人觀點，不反映本平臺立場。

2.我們致力于確保所提供信息的準確性和及時性，但對信息的完整性、準確性、可靠性或適用性不做任何明示或暗示的保證。

3.用戶在使用本網(wǎng)站提供的信息時，請自行判斷并承擔相應風險。本網(wǎng)站對用戶因使用或未能使用本網(wǎng)站而導致的任何直接、間接、附帶的損失或損害概不負責，包括但不限于利潤損失、商業(yè)中斷、信息丟失等。

4.免責申明可能隨時修改，恕不另行通知。請定期查閱以獲取最新信息。

提及AI大模型

ChatGPT

ChatGPT是一種基于自然語言處理的神經(jīng)網(wǎng)絡模型，它是以預訓練技術為核心的生成模型。它是Transformer編碼-解碼模型的解碼部分，以ChatGPT為代表的大語言模型（LLM）是目前最先進的自然語言處理技術之一。