前一天OpenAI用GPT-4o把全世界掀翻,今天被提前截胡的谷歌,在一年一度的谷歌I/O開發(fā)者大會上開啟反擊!
展示了與GPT-4o 相似的語音視覺交互功能Gemini Live,還更進一步推出了比OpenAI等對手更激進的AI智能體Project Astra、還有對抗Sora的70秒視頻生成模型Veo等等
此外,谷歌對拿手業(yè)務——搜索進行了AI化改造,全面更新了Gemini模型家族。 另外還發(fā)布了高質(zhì)量文生圖模型Imagen 3、AI音樂創(chuàng)作工具Music AI Sandbox等等。
數(shù)不勝數(shù)的AI產(chǎn)品讓人眼花繚亂。將近兩個小時的發(fā)布會上,提到了121次AI。
谷歌CEO皮查伊稱目前有超150萬開發(fā)人員在使用Gemini模型,谷歌擁有20億用戶的產(chǎn)品都在使用Gemini,谷歌推出安卓和iOS上可用的應用程序直接與Gemini互動,3個月內(nèi)已有超過100萬人注冊嘗試。
下面我們一起來看看產(chǎn)品更新吧:
一、未來通用AI Agent:日常生活隨時答疑解惑的超級助手
Project Astra。這是一個還在研發(fā)中的AI Agent。當演示者打開手機攝像頭,邊走邊問AI助手Project Astra捕捉到的現(xiàn)實場景中的問題。比如要求“看到能發(fā)出聲音的東西就告訴我”,Gemini就會給出準確描述:“我看到一個音響發(fā)出聲音?!苯酉聛?,測試者用紅色剪頭指向揚聲器的頂部,再次問道,這個揚聲器的部件叫什么?Gemini準確理解指令,并答出這是高音揚聲器,能產(chǎn)生高頻的聲音。
Astra還可以實時解答代碼、掃一眼周圍環(huán)境,Gemini就能推斷出你住在哪個小區(qū)等等
Astra有強大的對答如流的能力,谷歌還首次展示了AR眼鏡配上AI的震撼演示。
二、Veo:全新視頻生成模型,正面迎戰(zhàn)OpenAI Sora
Veo生成的視頻不僅真實,而且在光線、構(gòu)圖等方面具有驚人的電影感。
谷歌結(jié)合了DeepMind研究成果中最好的架構(gòu)和技術(shù),提高了一致性、質(zhì)量和分辨率。
Veo具備1080p的高質(zhì)量,用戶提示可以是文本、圖像、視頻等各種格式,還能捕捉到其中關(guān)于視覺效果和影像風格的各種細節(jié)描述。通過點擊擴展按鈕,用戶就可以持續(xù)增加視頻的時長,它的時長已經(jīng)超過Sora達到了1分10秒。目前Veo已經(jīng)開始在官網(wǎng)開放試用了。
三、Imagen 3
升級后的Imagen 3能生成更多細節(jié)、光影豐富的圖像。新模型對提示的理解能力,得到顯著提升,可以從較長的提示中,捕獲細節(jié)。如下圖中,對狼的特征,背景顏色,畫質(zhì)質(zhì)量等要求,Imagen 3一致地呈現(xiàn)了出來。它可以準確地渲染小細節(jié),比如人手上的細微皺紋,以及復雜的紋理。
谷歌稱Imagen 3是目前最強大的圖像生成模型。
四、Music AI Sandbox:AI音樂創(chuàng)作工具,可以改變音樂的創(chuàng)作方式,谷歌與音樂家、詞曲作者和制作人密切合作來幫助設計和測試這款工具。
五、Gemini 1.5 Pro,超長的上下文窗口,達到了100萬tokens的級別,超過了目前所有的大語言模型,而且開放給個人用戶使用。它的上下文token數(shù)將會達到2000K(200萬)!相比之下,GPT-4 Turbo只有128K,Claude 3也只有200K。
這意味著你可以給模型輸入2小時視頻、22小時音頻、超過6萬行代碼或者140多萬單詞。
在這樣的Gemini加持下,我們可以實現(xiàn)許多迅捷的功能。比如,作為父母需要了解孩子在學校的情況,就可以在Gmail中要求Gemini識別所有關(guān)于學校的電子郵件,然后幫你總結(jié)出要點。如果你錯過了公司會議,但可以拿到一小時時長的會議錄音,Gemini就能立刻幫你總結(jié)出會議要點。
現(xiàn)場谷歌演示了NotebookLM的音頻概述功能,用戶只需將文本資料輸入進去,該軟件即可基于Gemini Pro 1.5能力,生成豐富的音頻內(nèi)容素材。
另外谷歌還推出了輕量級模型Gemini 1.5 Flash,針對低延遲和低成本任務(聊天應用、從長文檔提取數(shù)據(jù)等)進行了優(yōu)化,成本效益更高,上下文窗口達100萬個tokens。
Gemini 1.5 Pro為7美元/100萬tokens,對于128k以下的輸入,將降價50%至3.5美元/100萬tokens;Gemini 1.5 Flash的價格為0.35美元/100萬tokens。
六、AI搜索
在Gemini的加持下,谷歌搜索大變樣。在搜索框下,會出現(xiàn)一個為你量身定做的AI總結(jié)。你的問題是什么樣,它就會幫你做規(guī)劃,展示出若干個卡片,讓搜索信息以鮮明的方式被呈現(xiàn)出來。
基于此谷歌宣布推出AI Overviews工具,這次AI Overview即將發(fā)布的另一個重磅功能,就是多步驟推理。它能將用戶輸入的一個復雜問題分解成多部分,確定需要解決哪些問題,以及用什么順序解決。
以前可能要花幾分鐘甚至幾個小時的研究,現(xiàn)在幾秒鐘內(nèi)就可以完成!因為它將十個問題合而為一。
比如,如果想找到波士頓最好的瑜伽或普拉提工作室,它會直接搜出來結(jié)果,然后幫你整理好情況介紹和工作時間。只要一次搜索,所有需要的信息就自動呈現(xiàn)出來。
你可以要求谷歌提供一個三天的膳食計劃。這些食譜被從整個網(wǎng)絡整合出來,清晰又全面。
并且目前還支持用視頻去搜索,比如,該怎么修這個唱片機?以前,我們需要進行一堆搜索,確定它的牌子、型號?,F(xiàn)在,直接拍一個視頻丟給谷歌,然后直接開口問:它的這個毛病是什么原因?谷歌用AI Overview,給出了最全面的信息。
七、畫圈即搜功能:在你的手機或平板電腦上圈出復雜的物理問題,就能獲得一步一步的指導,學習如何解決問題。
八、安卓版Gemini新功能:安卓系統(tǒng)上的Gemini變得更有幫助,更有環(huán)境意識;今年晚些時候支持將生成的圖像拖放到Google Messages和Gmail中,還支持用戶直接在設備上詢問有關(guān)YouTube視頻和PDF文件的問題。
谷歌要做“系統(tǒng)級AI”,把Gemini用在安卓系統(tǒng)底層。他們要讓安卓成為體驗谷歌AI的最強移動平臺。
Gemini在系統(tǒng)級層面運行,因此用戶不需要打開應用。同時Gemini有了上下文感知能力,可以提供更即的時幫助。
比如,Gemini可以幫用戶在聊天中生成有趣的表情包圖片,Gemini可以感知到用戶在看視頻,彈出提示,詢問是不是想了解關(guān)于這個視頻的問題,用戶可以直接詢問視頻中的細節(jié),Gemini可以直接從視頻中找到答案。
谷歌強調(diào)Gemini只會在安卓上運行,而前段時間蘋果被曝與OpenAI洽談合作,iPhone將搭載ChatGPT,安卓陣營與蘋果陣營的AI大戰(zhàn)一觸即發(fā)。
九、原生多模態(tài)Gemini App
在Gemini APP中,谷歌推出Gemini Live功能,用戶可通過文本、語音或影像多種方式進行交互,直接與大模型進行對話,并能夠隨時打斷,可以打開攝像頭使其“看到”周圍的世界并實時響應。比如,你正在為一場面試做準備,只需要進入Live,Gemini就可以陪你一起做準備。
在Gemini的加持下,谷歌還推出Ask Photos的新功能。比如,如果付停車費時忘了自己的車牌號,就可以直接詢問自己的車牌照片是哪個,不需要翻閱手機里的大量照片了。
另外還有第六代TPU、AI基礎(chǔ)設施、AI搜索新功能、Google Workspace應用Gemini功能、Gemini Live多模態(tài)功能、、Gemini Advanced、、Gemini Nano新功能、AI輔助紅隊技術(shù)、擴展和開源SynthID文本水印等。
雖然OpenAI憑借創(chuàng)業(yè)公司的靈活專注優(yōu)勢,屢屢搶占先發(fā)優(yōu)勢,每次都突出谷歌一步發(fā)布新品,但谷歌依然有著自己的獨有優(yōu)勢,、除了產(chǎn)品研發(fā),還擁有基礎(chǔ)設施和運算能力,以及龐大的谷歌應用矩陣與數(shù)十億的用戶級別。在激烈的生成式AI競賽中,最終贏家是誰值得期待。