五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

Gemini接管搜索、全家桶秒變通用Agent ,以及Google Glass is so back!

Gemini要變成世界模型,Gemini APP要變成全能助手,Google要奪回一切

編者按:本文來自微信公眾號硅星人Pro(ID:Si-Planet),作者:王兆洋,Jessica,周一笑,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

誰也沒想到,Google I/O現(xiàn)場的最高潮來自“復(fù)活”的Google Glass有些翻車了的實(shí)時demo。

圖片

2025年5月20日,Google的年度開發(fā)者大會Google I/O在加州山景城舉辦。

與去年在舉辦之前一天被OpenAI“狙擊”不同,今年的Google I/O,劍拔弩張的氛圍讓位給了派對的氛圍,在ChatGPT帶來的狼狽之后,Google已經(jīng)回到了自己的節(jié)奏。

是的,它回到了飽和式發(fā)布的節(jié)奏。當(dāng)天Google一口氣發(fā)布了至少十多個AI相關(guān)的更新,而其中大多數(shù)和Gemini有關(guān)。

簡單說,Google主要做了四件事:展示Gemini在多模態(tài)上的遙遙領(lǐng)先;給Gemini AI助手做全方位的更新;讓Gemini徹底接管搜索,并讓全家桶變成通用Agent;以及令人興奮的AI+AR眼鏡。

這些發(fā)布個個重要,但因?yàn)锳I模型層面本身的進(jìn)展在過去幾年已經(jīng)吊足了大家胃口,以及Google在此次大會之前已經(jīng)發(fā)布了Gemini最新的大迭代,現(xiàn)場似乎顯得平靜。

圖片

直到Google Glass的“復(fù)活”。它通過live demo徹底點(diǎn)燃了現(xiàn)場。

Google Glass is so back

當(dāng)天的Google I/O一共只有三四個Live demo,而最后出場的Android XR眼鏡,是最讓人興奮的一個。

在喧囂的I/O后臺,演示者Nishta戴上了這款看起來與普通眼鏡無異的Android XR眼鏡,為觀眾帶來第一視角的體驗(yàn)。

她先是對著鏡子喝了一口咖啡,通過語音指令發(fā)送短信、設(shè)置手機(jī)靜音,詢問眼鏡里內(nèi)置的Gemini,她看到的墻壁上的樂隊(duì)與這個劇場的關(guān)系,而這一切的答案和互動,都通過眼鏡上實(shí)時懸浮顯示,呈現(xiàn)在她眼前。

圖片

而且,像極了故意對當(dāng)年Google Glass太超前而被公眾質(zhì)疑的call back,當(dāng)展示者戴著眼鏡從后臺出發(fā),遇到的第一個人對她說:“你眼鏡在閃爍,我是在直播里么?”然后很開心的參與了互動,而不是說“摘掉你的Google Glass”。

是的,這一切都是為了展示眼鏡里Gemini視覺記憶能力:當(dāng)來到主舞臺后,Nishta隨口問起之前喝過的咖啡,Gemini竟然憑借杯子上模糊的印記,準(zhǔn)確報出了咖啡店的名字“Blooms Giving”。接著咖啡店的圖片、3D步行導(dǎo)航地圖、給朋友發(fā)送的咖啡邀約,都通過很有Google特色的懸浮交互完成。

最后他們甚至做了一個實(shí)時的“有風(fēng)險出錯”的演示——Nishta和臺上的Shahram分別用印地語和波斯語進(jìn)行對話,而兩人鏡片上實(shí)時滾動出英文的字幕。而在展示中,這部分的確卡頓了,但即便最終有些翻車,現(xiàn)場卻依然一片掌聲和歡呼。因?yàn)檫@基本就是接下來所有人期待的AI發(fā)展方向。

當(dāng)Gemini的一切能力都可以跟現(xiàn)實(shí)世界,物理環(huán)境交互,并且通過視覺和語音的端到端的方式可以擁有記憶、執(zhí)行和行動能力后,將解鎖太多可能。

據(jù)Google介紹,Android XR 智能眼鏡將搭載 Gemini Live AI 助手,通過鏡頭、麥克風(fēng)和可選的內(nèi)置顯示器,實(shí)現(xiàn)語音互動、拍照、地圖導(dǎo)航、實(shí)時翻譯等功能。

同時它也將與 Gentle Monster、Warby Parker 等時尚品牌合作。目前沒有公布價格和上市時間,但谷歌確認(rèn)今年會開放平臺,供開發(fā)者為 XR 生態(tài)構(gòu)建應(yīng)用。

Gemini接管Google的一切

在眼鏡點(diǎn)燃現(xiàn)場之前,Google I/O更像是Google一個密集的AI軍火展示。

今年坐在Google IO的圓形劇場里,你能非常直觀感受到一年時間對于今天的AI來說,能發(fā)生多少事情。

當(dāng)Google CEO Sundar Pichai站上當(dāng)天的舞臺,Google面前已經(jīng)沒有了OpenAI的偷襲攪局,Llama被DeepSeek徹底打亂陣腳,微軟的Build仍讓人擔(dān)心它和OpenAI的關(guān)系,而Gemini自己的多模態(tài)能力則在一年的不停突破后站穩(wěn)了領(lǐng)先,天天被念叨的搜索業(yè)務(wù)沒有被Perplexity們沖垮,廣告基本盤更是在最近財報里仍在超預(yù)期增長,歸因也是“因?yàn)锳I”。

圖片

甚至人們都快忘了,在Google I/O上接過Pichai話筒的,已經(jīng)是“諾貝爾化學(xué)獎得主”Demis Hassabis。

圖片

在當(dāng)天的Google I/O上,Pichai的開場Keynote回到了久違的Google味兒,一切是Google自己的節(jié)奏而不是慌慌張張的應(yīng)對。

“通常,在 I/O 大會召開前的幾周,我們不會透露太多信息,因?yàn)榭倳炎钪匕醯哪P土舻酱髸习l(fā)布?!盤ichai說。“然而在Gemini 時代不同了 ?,F(xiàn)在,我們很可能在IO前就發(fā)布了最智能的模型,或者提前一周公布像 AlphaEvolve 這樣的突破 。我們的目標(biāo)是盡快將最出色的模型和產(chǎn)品交付到大家手中 。我們速度前所未有的快 ?!?/p>

在Pichai的開場分享里,是一連串體現(xiàn)速度的數(shù)字。

Gemini 應(yīng)用月活躍用戶超過 4 億;Gemini 應(yīng)用中 2.5 Pro 使用量增長了 45%;產(chǎn)品和 API 每月處理的token數(shù)從去年同期的 9.7 萬億增長到超過 480 萬億,增長了 50 倍;超過 700 萬開發(fā)者正在利用 Gemini 進(jìn)行構(gòu)建,是去年同期的 5 倍;Vertex AI 上 Gemini 使用量增長了 40 倍。

而模型上,Pichai甚至直接喊出Google已經(jīng)遙遙領(lǐng)先。

自第一代 Gemini Pro 模型發(fā)布以來,它的Elo 分?jǐn)?shù)提升了 300 多分。(衡量大模型能力的ELO是一種通過模型之間兩兩匿名對比(類似下棋)的結(jié)果,來計算和更新各個模型相對實(shí)力排名的方法);第七代 TPU Ironwood 比上一代性能提升了 10 倍。每個 pod 提供 42.5 exaflops 的計算能力。

AI的滲透也帶來Google產(chǎn)品的增長。

Search 中的 AI 概覽已覆蓋超過 15 億用戶。 目前已在 200 個國家和地區(qū)推出;在美國和印度等最大市場,推動顯示它們的查詢類型增長超過 10%;AI mode早期測試者提出的查詢長度是傳統(tǒng)搜索的 2 到 3 倍。

去年,Pichai就已經(jīng)開始形容Google的員工已經(jīng)是“geminier”,而今年的I/O當(dāng)天正是Gemini(雙子座)季節(jié)的第一天,他開玩笑形容在Google內(nèi)部來說,每天都是Gemini季節(jié)。

甚至在他的演講保留環(huán)節(jié)“統(tǒng)計AI出現(xiàn)次數(shù)”的環(huán)節(jié),Gemini正式超過了AI成為他說的最多的單詞。

圖片

對Google來說,走出ChatGPT猛攻之下的狼狽,一切都靠Gemini的反殺。

而Demis Hassabis顯然就是讓這一切發(fā)生的那個人,當(dāng)他出場,后面的AI生成的圖像甚至都是一只山羊——GOAT(greatest of all time)。

圖片

當(dāng)天Hassabis的分享部分,其實(shí)更像是一場諾貝爾得主回家見面會,他回顧了他從最初癡迷用AI做乒乓球游戲,到Google的Transformer、AlphaGo,再到Gemini的歷程。言外之意,向全AI界喊話,Google永遠(yuǎn)是你大爺。

而這位新晉諾獎得主也更加直白了,他表示他的最終目標(biāo)是做出一個世界模型,而Gemini現(xiàn)在無比接近這個愿景。

對于更強(qiáng)的 2.5 Pro,谷歌帶來了一個全新的“深度思考模式”(Deep Think),專門用來處理數(shù)學(xué)、編程這類復(fù)雜問題。它融合了最新的 AI 推理研究成果,包括并行思維技術(shù),能在面對復(fù)雜問題時更像人一樣“多角度思考”,給出更周到、更靠譜的答案。目前只開放給少數(shù)用戶測試。

此外,一個比較新的功能是,谷歌正在為 Gemini 2.5 Pro 和 2.5 Flash 增添更自然對話體驗(yàn)的原生音頻輸出能力,而Gemini多模態(tài)可能接入的最新視頻生成模型Veo 3,在視頻質(zhì)量上繼續(xù)突破,且首次具備了原生音頻生成能力,用戶可以一句話生成匹配音效、背景環(huán)境聲乃至角色對話的視頻內(nèi)容,并在文本理解、物理效果模擬和口型同步方面表現(xiàn)優(yōu)異 。

而在榜單方面,Gemini 2.5 Pro和Gemini 2.5 Flash Preview版本分別占據(jù)了大模型競技場評測榜單的前兩名。

圖片

顯然,Gemini堅持死磕原生多模態(tài)的技術(shù)路線,以及利用Google老本行搜索能力來增強(qiáng)模型研究能力的產(chǎn)品路線,含金量還在增加。

對于Google來說,Gemini的模型能力+以Gemini app為核心的全能的單一AI通用助手+Gemini“接管”的Google全家桶,就是它此刻的AI戰(zhàn)略。

Hassabis 也對Gemini App提出了自己的終極想法:“我最終極的目標(biāo)是讓Gemini成為一個全能的助手?!?/p>

而通往這個目標(biāo)路上,最近的一個突破,是之前還只是展示階段的AI Agent項(xiàng)目Project Astra開始正式進(jìn)入現(xiàn)實(shí)世界。

圖片

“這是通往AGI的一個關(guān)鍵節(jié)點(diǎn)?!盚assabis說?!艾F(xiàn)在它的音頻能力,記憶能力都得到了提升?!?/p>

Project Astra以Gemini Live的新身份開始進(jìn)入Gemini App。在現(xiàn)場,他展示了一個修理自行車的案例:

用戶呼喚出Gemini,讓她幫忙上網(wǎng)找到Huffy山地車的用戶手冊,并根據(jù)指令翻到剎車相關(guān)的特定頁面;接著從YouTube上篩選出修復(fù)滑絲螺絲的教學(xué)視頻,直接播放給你看。更厲害的是,Gemini Live甚至能翻閱你過去的郵件,從你和自行車店的聊天記錄里找出那個讓人頭疼的六角螺母的準(zhǔn)確尺寸,并在墻上工具箱里高亮出對應(yīng)的型號。

當(dāng)發(fā)現(xiàn)還需要一個備用張力螺絲時,Gemini Live迅速遵照指令,給最近的自行車店打電話問有沒有貨。

演示中還有一個重要細(xì)節(jié),當(dāng)用戶的一位朋友閃現(xiàn)在門口,喊他去吃午飯時,Gemini自動停止了說話,而等對方離開后,在用戶提醒下,繼續(xù)無縫銜接地匯報了自行車店的回電內(nèi)容。

這些技術(shù)的最終趨勢,是讓Gemini變得更加主動。

在硅星人參加的一個小型溝通會上,Hassabis提到他對AI助手必須更加主動的看法。

“如果你看看今天的工具,我會說它們大多是被動反應(yīng)式的。也就是說,你通過查詢或問題來輸入,然后它做出回應(yīng)。所以是你把所有的信息都投入到系統(tǒng)中。我們希望下一代和我們的AI助手能夠做到的是,讓它們具有預(yù)測性,能夠提前提供幫助。例如,如果你要進(jìn)行長途飛行,它可能會為你推薦一本適合在飛機(jī)上閱讀的好書?;蛘?,如果你有某種健身目標(biāo),它可能會主動提醒你今天要去跑步,或者建議你做一些與你長期目標(biāo)相關(guān)的事情。所以我們認(rèn)為,當(dāng)這些主動型系統(tǒng)和代理系統(tǒng)能夠預(yù)測你想要做什么時,它們的感覺會非常不同?!?/p>

Gemini app當(dāng)天也宣布了大量更新。

包括Gemini live 功能的全面開放,它能更加實(shí)時,而且此前的小范圍測試數(shù)據(jù)已經(jīng)顯示,人們比用打字會有5倍長的交互時間。同時,隨著Project Astra變成成熟產(chǎn)品,攝像頭實(shí)時互動和屏幕讀取的能力也在Gemini里免費(fèi)開放。

Gemini里的Deep Research模式接下來允許以用戶自己上傳資料,之后更是可以在Google全家桶里打通使用你的各種數(shù)據(jù)庫。此外Canvas 更新了更強(qiáng)的編程模式,最新的圖像模型Imagen 4也接入Gemini。

而除了Gemini自己的app上的更多功能,Google能讓Hassabis實(shí)現(xiàn)“統(tǒng)一的主動Agent”這個想法,更關(guān)鍵因?yàn)镚oogle有它積攢了多年的強(qiáng)大的搜索+全家桶。而且,Hassabis已經(jīng)為自己贏得了用Gemini更深入“接管”這些全家桶的權(quán)力。

圖片

與Project Astra從實(shí)驗(yàn)室走向Gemini相似,此前Google的Project Mariner也變成了Gemini里的Agent mode。

“我們認(rèn)為智能體(agents)是結(jié)合了高級 AI 模型智能和工具訪問權(quán)限的系統(tǒng),因此它們可以在您的控制下代表您執(zhí)行操作 ?!盤ichai說。Google引入了一種名為“教學(xué)與重復(fù)”的方法,即只需向它展示一次任務(wù),它就能學(xué)習(xí)未來類似任務(wù)的計劃 。

“Agent mode可以同時完成多達(dá)十種不同的任務(wù)。這些智能體可以幫助您查找信息、進(jìn)行預(yù)訂、購買商品、做研究等等——所有這些都可以同時進(jìn)行?!盚assabis說。“而且我們還會把它推廣到更多產(chǎn)品,首先從瀏覽器開始?!?/p>

當(dāng)天Google宣布,Chrome將接入Gemini并擁有類似諸多通用Agent產(chǎn)品展示的功能,它能直接在你的瀏覽器頁面中開始工作,幫你自動完成你指定的目標(biāo)任務(wù)。

Google通過API提供Agent Mode的能力,同時有它建立的開放的 Agent2Agent 協(xié)議,能讓智能體之間相互通信,當(dāng)天Google還宣布,它的 Gemini API 和 SDK 將兼容目前最流行的Agent與工具之間的協(xié)議 MCP 。

一切都集齊了。那些基于Google的API做出來的AI瀏覽器、需要不停調(diào)用瀏覽器的通用Agent產(chǎn)品們,可能要想想自己如何和Google的親兒子Chrome這樣的產(chǎn)品競爭了。

而Google接下來的計劃是,它的全家桶都會在擁有了Computer use和Astra這樣的Agent能力后的Gemini加持下,瞬間變成一個通用Agent。

在Google的理解,Agent可能根本就不是一個單獨(dú)產(chǎn)品,而是任何AI產(chǎn)品的基礎(chǔ)功能。

圖片

搜索徹底Gemini化

Google在OpenAI最初的沖擊中,一度讓人感覺英雄遲暮,而外界關(guān)注它能否轉(zhuǎn)身成功的關(guān)鍵之一就是它是否能對自己躺著賺錢的基礎(chǔ)——搜索業(yè)務(wù)動刀。

而現(xiàn)在看來,它的動作還是很快的。

“僅僅是一年時間,人們用搜索的方式已經(jīng)深刻地改變了?!盙oogle搜索負(fù)責(zé)人Elizabeth Reid說?!叭藗冮_始問更長的問題。因此我們把Gemini和搜索對世界信息的理解合并到一起?!?/p>

當(dāng)天全美的Google用戶會看到Google多年來又一次大的改變,在首頁的第一個tab的位置,變成了AI Mode。相比于小規(guī)模試驗(yàn)性質(zhì)的AI Overview,這是又一個大的自我革新的動作。

硅星人Pro

,贊4

AI Mode的一個最大變化,其實(shí)是Gemini的AI能力和Google搜索的技術(shù)的更深入的融合,Google稱在底層技術(shù)上,它使用查詢扇出 (query fan-out) 技術(shù),它會將問題分解為子主題,并同時替用戶自動發(fā)出多個查詢。這使得AI Mode能夠比傳統(tǒng)的Google搜索更深入地探索網(wǎng)絡(luò),幫助用戶發(fā)現(xiàn)網(wǎng)絡(luò)上更多的內(nèi)容,找到更好的答案。此外,deep search模式也加入到AI Mode的選項(xiàng)里,可以在搜索里也制作深度的報告。

“這就是Google搜索的未來。從信息到智能。”Elizabeth Reid說。

Gemini對搜索核心業(yè)務(wù)的“接管”,也讓Google此前一直想做但有所停滯的一些業(yè)務(wù)可以有新的做法。比如電商。

Google shopping基本也是建立在搜索入口流量之上的業(yè)務(wù),此前也不溫不火,而此次基于Gemini的改造,它有了一個全新的交互。

在I/O現(xiàn)場,Shopping 得到了少有的live demo機(jī)會。Google展示了一個虛擬試衣(Virtual Try-on)功能。現(xiàn)場掀起了一陣小高潮。

圖片

以往我們線上購物時,只能看著模特圖腦補(bǔ)自己穿上身的樣子,生怕買了不合適。如今,只需上傳一張自己的全身生活照,Google專門訓(xùn)練過的更了解人們身形和衣服褶皺的模型,會通過先進(jìn)的身體映射和服裝形變技術(shù),將商品“穿”在你的數(shù)字分身上,褶皺、垂墜感都無比逼真,讓人隔著屏幕也能清楚判斷上身效果。

挑中款式和尺碼后,還可以設(shè)置期望價格,讓Chrome的AI Agent去盯著價格,當(dāng)?shù)蛢r出現(xiàn)后,agent自動下單,把支付界面推送給你由你最后操作支付。

Google把所有最重要的入口位置都給了Gemini,當(dāng)然也希望它能激活Google已有的各種業(yè)務(wù)。

Flow 和彩蛋

Gemini系列模型在多模態(tài)上的瘋狂進(jìn)展,最直接惠及的就是創(chuàng)作者。

Google此次也更新了圖像模型Imagen 4,和視頻模型Veo 3。

視頻生成模型Veo 3懂物理規(guī)律、生成電影級的視頻畫面之外,還能同步創(chuàng)作出自然語音對話和逼真的環(huán)境音效 。在制作一位飽經(jīng)滄桑的男子獨(dú)自在波濤洶涌的大海上航行的視頻時,Veo 3除了完美渲染海浪動態(tài)、人物面部細(xì)微的情感變化,還為他配上了一段富有磁性的內(nèi)心獨(dú)白,意境十足。另一段森林中老貓頭鷹和小獾的對話視頻,更是活靈活現(xiàn)。

這些能力讓Google特意單獨(dú)又推出了一個app——Flow。它可以讓普通人也能一句話輕松創(chuàng)作出有聲音又對白有畫面的專業(yè)級視頻 。

圖片

它融合了Google最頂尖的AI技術(shù)——視頻生成模型Veo、圖像生成模型Imagen以及強(qiáng)大的Gemini智能,在發(fā)布會當(dāng)天已正式上線。

當(dāng)然,這些背后是燃燒的token。

Google也在Flow的展示后,公布了新的套餐定價。

它將原本的 AI Premium 訂閱正式更名為 “谷歌AI Pro”,并推出了全新的高端版 “谷歌AI Ultra”,月費(fèi)高達(dá) 249.99 美元。Pro 版月費(fèi)仍為 19.99 美元。

圖片

而就像一部大片一樣,Google I/O也有諸多彩蛋,它并不是放在結(jié)尾,而是藏在了密集的發(fā)布之中。

一個有意思的一帶而過的彩蛋,是Gemini的Diffusion 模型,它不是用在圖片上,而是用在文本生成上。這讓它的生成速度快的驚人。在現(xiàn)場的展示上,輸入完成后,它幾乎是瞬間完成了輸出。

“傳統(tǒng)的自回歸語言模型一次生成一個詞或者token。這種序列化的過程可能會很慢,并且會限制輸出的質(zhì)量和連貫性。擴(kuò)散模型的工作方式則不同。它們并非直接預(yù)測文本,而是通過逐步優(yōu)化噪聲來學(xué)習(xí)生成輸出。這意味著它們可以非??焖俚貙σ粋€解決方案進(jìn)行迭代,并在生成過程中糾正錯誤。這使得它們在編輯等任務(wù)中表現(xiàn)出色,包括在數(shù)學(xué)和代碼相關(guān)的場景下?!?Gemini團(tuán)隊(duì)介紹。

而除了速度,這種嘗試也在暗示著Gemini在模態(tài)融合之外,對模態(tài)生成和多模態(tài)推理融合的潛在的發(fā)力方向。

你現(xiàn)在可以在網(wǎng)站上加入waitlist來試用這個模型。

圖片

這是一場信息量巨大的Google I/O,Google正在回到自己的節(jié)奏,這些強(qiáng)大的更新,和更清晰的思路,讓人感覺可能AI最終真的是所有人努力半天,Google拿走勝利的游戲。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱