五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

11億,具身智能單筆最大融資出現(xiàn),我們獨(dú)家對(duì)話了銀河通用創(chuàng)始人王鶴

我相信它標(biāo)志著人形機(jī)器人生產(chǎn)力時(shí)代的揭幕,大家一起努力讓這個(gè)時(shí)代更加光明。

編者按:本文來(lái)自微信公眾號(hào) 騰訊科技(ID:qqtech),作者:曉靜,編輯:萌萌,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

6月23日,北京銀河通用機(jī)器人有限公司(以下簡(jiǎn)稱“銀河通用”)宣布正式完成由寧德時(shí)代領(lǐng)投的11億元人民幣新一輪融資,這也是目前為止國(guó)內(nèi)具身智能領(lǐng)域單筆最大融資。

除了寧德時(shí)代,其他投資方包括溥泉資本、國(guó)家開發(fā)銀行國(guó)開科創(chuàng)、北京機(jī)器人產(chǎn)業(yè)基金、紀(jì)源資本(GGV)等新頂級(jí)投資方,及多家老股東追加投資。

這家成立于 2023 年 5 月的初創(chuàng)公司,曾以 7 億元天使輪融資打破業(yè)內(nèi)紀(jì)錄;如今再度創(chuàng)下新高。

北京大學(xué)助理教授、銀河通用機(jī)器人創(chuàng)始人及CTO、智源學(xué)者王鶴,擁有清華本科、斯坦福博士的履歷,師從美國(guó)三院院士Leonidas J. Guibas教授,2021年加入北京大學(xué)前沿計(jì)算研究中心擔(dān)任助理教授,創(chuàng)立具身感知與交互實(shí)驗(yàn)室。

銀河通用的機(jī)器人已經(jīng)“進(jìn)廠打工”了,有些在整車裝配線“工作”,還有一些在零售場(chǎng)景實(shí)現(xiàn)不間斷值守。

在人形機(jī)器人行業(yè),除了進(jìn)廠打工的機(jī)器人,還有會(huì)跳舞和打拳擊的機(jī)器人。但是,跳舞和打拳擊通常是在固定場(chǎng)景下通過(guò)預(yù)編程或遙控實(shí)現(xiàn),這些機(jī)器人并不具備真正的"泛化"能力——即在面對(duì)新環(huán)境、新任務(wù)或新情境時(shí),能夠應(yīng)用已學(xué)習(xí)的知識(shí)和技能進(jìn)行適應(yīng)和執(zhí)行的能力。

只有具備這種“泛化”能力,機(jī)器人才能真正進(jìn)入工廠,成為人類勞動(dòng)的得力助手。

然而,從"炫技"到"進(jìn)廠",機(jī)器人行業(yè)最大的問(wèn)題是訓(xùn)練數(shù)據(jù)缺失。同時(shí),行業(yè)對(duì)數(shù)據(jù)路線分歧巨大:英偉達(dá)主推Isaac Sim仿真平臺(tái),代表合成數(shù)據(jù)路線;谷歌DeepMind聯(lián)合21家機(jī)構(gòu)發(fā)布包含100多萬(wàn)條真實(shí)機(jī)器人軌跡的數(shù)據(jù)集,堅(jiān)持"只有真實(shí)世界的遙操數(shù)據(jù)才能讓機(jī)器人真正理解物理世界"。

而王鶴則堅(jiān)持用高質(zhì)量合成數(shù)據(jù)進(jìn)行VLA大模型預(yù)訓(xùn)練,認(rèn)為這種方法比大規(guī)模真機(jī)遙操作更高效。在2025年智源大會(huì)現(xiàn)場(chǎng),銀河通用的Galbot機(jī)器人展示了如何從密集貨架中精準(zhǔn)抓取酸奶和果凍。它搭載了銀河通用新發(fā)布的 VLA 大模型,采用了99%的合成數(shù)據(jù)和1%的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練。

這也是行業(yè)內(nèi)首次在公開舞臺(tái)上進(jìn)行云端自主推理的實(shí)機(jī)演示。

這個(gè)演示的技術(shù)難點(diǎn)在于,每條指令都要經(jīng)云端模型實(shí)時(shí)推理,哪怕延遲幾十毫秒就可能抓取失敗;再加上光照、行人和噪聲干擾,感知到執(zhí)行的全鏈路稍有偏差就會(huì)“翻車”。

在2025的智源大會(huì),騰訊科技和王鶴教授進(jìn)行了深度對(duì)話,這位90后的創(chuàng)始人認(rèn)為,具身智能發(fā)展尚在早期,技術(shù)曙光初現(xiàn),面對(duì)無(wú)限種可能,創(chuàng)業(yè)公司的每個(gè)關(guān)鍵選擇,都無(wú)異于一場(chǎng)“基于技術(shù)自信的豪賭”。

在對(duì)談中,關(guān)于具身智能的發(fā)展,我們還探討了以下問(wèn)題:

  • 聚光燈下的VLA大模型,對(duì)機(jī)器人“進(jìn)化”有什么重要意義?

  • 合成數(shù)據(jù)是訓(xùn)練具身大模型的最優(yōu)解嗎?

  • 幾十萬(wàn)一臺(tái)的Galbot,如何實(shí)現(xiàn)PMF?

  • “跳舞“、”跑步“的技能,對(duì)機(jī)器人的生產(chǎn)力提升有何幫助?

聚光燈下的VLA大模型,對(duì)機(jī)器人“進(jìn)化”有什么重要意義?

騰訊科技:Galbot機(jī)器人去年也在智源大會(huì)展示過(guò),今年有什么新的進(jìn)化?

王鶴:去年Galbot首次亮相,主要是依靠 2D/3D 視覺(jué)與實(shí)時(shí)運(yùn)動(dòng)生成的多模塊組合,從貨架上抓取瓶裝飲料和盒裝零食。

今年,我們用端到端的 VLA 大模型重構(gòu)了整套系統(tǒng),不再依賴 3D 小模型,擴(kuò)展性與泛化能力大幅提升。

今年的新演示把場(chǎng)景推近真實(shí)商超:瓶與瓶緊貼,SKU 成倍增加,新增袋裝果凍、膨化食品、方便面、面包和散裝鹵蛋等異形包裝;即便瓶子被碰倒或臨時(shí)移動(dòng),VLA 仍能閉環(huán)穩(wěn)定抓取。這是全球應(yīng)用VLA技術(shù)首次在高度密集、多品類環(huán)境下公開展示大規(guī)模物體泛化抓取。

騰訊科技:發(fā)出指令后機(jī)器人馬上就能執(zhí)行,這是VLM和VLA兩個(gè)大模型的配合嗎?一臺(tái)機(jī)器人需要幾個(gè)模型?

王鶴: 我們的核心是VLA模型。VLA基于VLM底座開發(fā),在VLM基礎(chǔ)上加入了動(dòng)作執(zhí)行能力,既保留了視覺(jué)語(yǔ)言理解功能,又能直接執(zhí)行操作。

系統(tǒng)支持兩種交互方式:語(yǔ)音輸入(先轉(zhuǎn)文字再進(jìn)入VLA)和iPad界面點(diǎn)擊操作。除了主要的VLA模型,還有語(yǔ)音識(shí)別和iPad系統(tǒng)對(duì)接等輔助模塊。

未來(lái)也可能升級(jí)為VLAA模型,直接處理人類語(yǔ)音輸入,無(wú)需文字轉(zhuǎn)換,從而降低響應(yīng)延遲。

騰訊科技:那是否意味著未來(lái)機(jī)器人能用一個(gè)大模型實(shí)現(xiàn)所有操作?

王鶴: 這是個(gè)好問(wèn)題。人的大腦有系統(tǒng)一、系統(tǒng)二,對(duì)應(yīng)著快系統(tǒng)和慢系統(tǒng)。慢系統(tǒng)負(fù)責(zé)思考推理、長(zhǎng)程規(guī)劃,典型代表是DeepSeek、OpenAI的O3這些推理模型。

在貨架上拿飲料時(shí),慢系統(tǒng)負(fù)荷很小,主要通過(guò)VLA快系統(tǒng),人腦快速通過(guò)神經(jīng)產(chǎn)生動(dòng)作規(guī)劃,由小腦負(fù)責(zé)平衡和控制。

但如果未來(lái)任務(wù)出現(xiàn)復(fù)雜推理和動(dòng)作生成交互,是用單一系統(tǒng)還是雙系統(tǒng)或?qū)蛹?jí)化系統(tǒng),目前還沒(méi)有確定的答案。神經(jīng)網(wǎng)絡(luò)的特性是速度相對(duì)恒定,但很難在快慢之間輕易切換。如果能突破大模型快慢速度切換,可能可以用一個(gè)大模型類比人的大腦。

騰訊科技:您也提到了,今年各家具身智能公司都在推出自研VLA模型,這對(duì)每家公司的重要意義在哪里?VLA目前的局限性在哪里?

王鶴: VLA是將大模型系統(tǒng)變成端到端大模型的重要嘗試,核心優(yōu)勢(shì)在于能夠直接從視覺(jué)觀測(cè)和自然語(yǔ)言指令中端到端地輸出動(dòng)作,無(wú)需中間產(chǎn)物。但是人類除視覺(jué)的輸入之外,還有味覺(jué)、觸覺(jué)、嗅覺(jué)、聽覺(jué)以及對(duì)溫度的感知。所以VLA模型只能是一個(gè)起點(diǎn),如果想達(dá)到人類級(jí)別的具身智能,還需要不斷融入新模態(tài)。

我認(rèn)為VLA是一種通用且端到端的范式,在以視覺(jué)作為主要反饋模態(tài)、不需要深度思考、看懂就直接執(zhí)行的任務(wù)中擁有很高的性能上限,且未來(lái)有很好的模態(tài)和任務(wù)擴(kuò)展性。

不同廠商在 VLA 技術(shù)上的側(cè)重點(diǎn)各不相同。

我們希望能聚焦視覺(jué)模態(tài)反饋就能做好的一些“atomic action(原子動(dòng)作)”,打造真正的產(chǎn)品級(jí) VLA:將抓取、放置、移動(dòng)、導(dǎo)航四類基本動(dòng)作訓(xùn)練為具備跨場(chǎng)景、跨物體自由泛化能力的foundational model(基礎(chǔ)模型)。

這種端到端的 Mobile Pick-and-Place(移動(dòng)-抓取-放置)大模型,可在工業(yè)與商業(yè)場(chǎng)景中覆蓋搬運(yùn)、分揀、補(bǔ)貨/卸貨等高頻任務(wù),加速具身智能的商業(yè)化落地。

相比之下,部分以研究為主的廠商雖然展示了更“diverse skills(多樣技能)”,卻高度依賴特定數(shù)據(jù)采集環(huán)境:一旦更換場(chǎng)景或物體,模型往往難以穩(wěn)定工作。

騰訊科技:具身智能VLA模型的技術(shù)路線是否已經(jīng)收斂?

王鶴: 從模型角度看,大家都是從VLM做模態(tài)插入,或用VLM的token接action decoder(動(dòng)作解碼器),部分團(tuán)隊(duì)再疊加 World Model(世界模型)或 Future Prediction(未來(lái)預(yù)測(cè))模塊,整體思路大差不差。

但目前不是在模型架構(gòu)上拼勝負(fù),而是從數(shù)據(jù)角度,我們究竟能用哪些數(shù)據(jù)充分訓(xùn)練VLA。

合成數(shù)據(jù)是訓(xùn)練具身大模型的最優(yōu)解嗎?

騰訊科技:既然數(shù)據(jù)是目前最大的區(qū)分點(diǎn),銀河通用的數(shù)據(jù)策略是怎樣的?像你上文提到的,究竟用的是哪些數(shù)據(jù)呢?

王鶴:我們的觀點(diǎn)是要用好合成數(shù)據(jù)。

高精物理仿真和物理渲染的合成數(shù)據(jù),我們認(rèn)為是現(xiàn)階段信息量最豐富的,這些數(shù)據(jù)同時(shí)包含視覺(jué)信息、任務(wù)級(jí)語(yǔ)言標(biāo)簽和嚴(yán)格符合動(dòng)力學(xué)約束的機(jī)器人動(dòng)作軌跡,信息密度最高且理論上可無(wú)限擴(kuò)充(只需 GPU 渲染即可)。

相較之下,互聯(lián)網(wǎng)上的人類勞動(dòng)視頻雖帶有“動(dòng)作”,卻是人體動(dòng)作:與機(jī)器人關(guān)節(jié)約束、運(yùn)動(dòng)學(xué)完全不匹配,且缺乏精確 3D 軌跡標(biāo)注;即便勉強(qiáng)提取,也混雜了攝像機(jī)運(yùn)動(dòng)與人體運(yùn)動(dòng),誤差難以校正。

依托高比例的精確合成數(shù)據(jù),我們可以將資源聚焦于 Mobile Pick-and-Place(自動(dòng)化抓取、放置) 等原子動(dòng)作的產(chǎn)品級(jí)落地,不用在人力密集的遙操采集與低效標(biāo)注上耗費(fèi)成本。

騰訊科技:合成數(shù)據(jù)一直很有爭(zhēng)議,其他同行用遙操建立仿真或真實(shí)環(huán)境收集數(shù)據(jù),這與合成數(shù)據(jù)有哪些本質(zhì)區(qū)別?

王鶴: 遙操有兩種:真實(shí)世界人類遙操真實(shí)世界機(jī)器人,和遙操仿真環(huán)境中的機(jī)器人。

先說(shuō)遙操仿真環(huán)境中的機(jī)器人,相對(duì)于我們的自動(dòng)合成管線沒(méi)什么優(yōu)勢(shì),最終都受制于渲染器和物理仿真器精度。遙操仿真環(huán)境時(shí),3D世界被渲染成2D平面圖片,操作員對(duì)深度感知減弱,操作比真實(shí)世界更難,可能產(chǎn)生更多運(yùn)動(dòng)軌跡偏差。

我也認(rèn)同遙操真實(shí)世界機(jī)器人是重要數(shù)據(jù)來(lái)源,但是不是今天具身智能冷啟動(dòng)可以真正依賴的數(shù)據(jù)來(lái)源。

可以類比自動(dòng)駕駛,但不同的是,自動(dòng)駕駛的駕駛行為是自發(fā)自愿的,因?yàn)檐嚤热丝?。而我們今天的遙操都達(dá)不到人干活的效率。

而且遙操很難,因?yàn)槟阌秒p臂遙控機(jī)器人從臂時(shí),沒(méi)有從臂的觸覺(jué)力覺(jué),只能通過(guò)視覺(jué)觀察被遙操機(jī)器人的運(yùn)動(dòng)狀態(tài),從傳感器角度是缺失的,需要長(zhǎng)時(shí)間訓(xùn)練。

另外,機(jī)器人稀缺,全世界頭部廠商今年都是千臺(tái)級(jí)量產(chǎn)目標(biāo),沒(méi)有汽車那樣上百萬(wàn)存量支持大規(guī)模遙操;第三是數(shù)據(jù)量挑戰(zhàn),采集需求量指數(shù)依賴于動(dòng)作空間維度,人形機(jī)器人操作比自動(dòng)駕駛2D平面運(yùn)動(dòng)維度高很多,從二十幾到接近100個(gè)自由度。

騰訊科技:這是否能證明合成數(shù)據(jù)的泛化能力?

王鶴: 很多從業(yè)人員對(duì)合成數(shù)據(jù)的真實(shí)能力缺乏體驗(yàn)。合成數(shù)據(jù)作為具身智能基建,需要長(zhǎng)期積淀。制造低質(zhì)量合成數(shù)據(jù)很容易,隨便搞個(gè)渲染假的仿真器,產(chǎn)生只有深藍(lán)淺藍(lán)背景的trajectory,學(xué)完發(fā)現(xiàn)根本不能用,就得出合成數(shù)據(jù)垃圾的結(jié)論。

這其實(shí)是對(duì)工具認(rèn)知不足、理解不充分、使用水平低造成的武斷評(píng)論。

騰訊科技: 高質(zhì)量合成數(shù)據(jù)的核心和門檻是什么?

王鶴:首先是如何自動(dòng)生成動(dòng)作。以“疊衣服”數(shù)據(jù)集為例,衣料在折疊過(guò)程中會(huì)出現(xiàn)褶皺,必須在合成時(shí)實(shí)時(shí)檢測(cè)并展開,再繼續(xù)模擬。若缺乏這種 on-the-fly 閉環(huán)校正能力,只能得到局限于簡(jiǎn)單場(chǎng)景的低質(zhì)量數(shù)據(jù)。

類似地,我們?cè)陟`巧手項(xiàng)目Dextonomy中,對(duì)人類手學(xué)界公認(rèn)的 33 種抓握方式全部實(shí)現(xiàn)批量合成:無(wú)論給定什么物體、什么手型,都能生成對(duì)應(yīng)抓取。這背后依賴長(zhǎng)期積累的數(shù)學(xué)優(yōu)化和物理推導(dǎo);有了仿真器,并不代表就能“按鍵生成”高質(zhì)量動(dòng)作。

第二,做對(duì)物理仿真與渲染。每條數(shù)據(jù)都要通過(guò)動(dòng)力學(xué)檢驗(yàn)與高品質(zhì)渲染輸出,保證視覺(jué)、語(yǔ)言標(biāo)簽與機(jī)器人動(dòng)作三位一體、一致可信。

第三,分清“必須真實(shí)”的部分。仿真永遠(yuǎn)無(wú)法與現(xiàn)實(shí)完全等價(jià),但通過(guò)預(yù)訓(xùn)練的大規(guī)模 VLM,我們發(fā)現(xiàn)模型真正關(guān)心的是時(shí)序邏輯和物理因果,而非人眼感到“逼真”的紋理細(xì)節(jié);因此應(yīng)把計(jì)算預(yù)算投入在模型在乎的環(huán)節(jié),把不敏感的地方簡(jiǎn)化掉。

第四,掌握數(shù)據(jù)分布與閉環(huán)迭代。模型推理階段暴露的失敗用例,必須反哺合成管線,定向生成難例,形成持續(xù)改進(jìn)的數(shù)據(jù)分布。

我們是專注做了九年,才能有今天合成數(shù)據(jù)基底。在智源大會(huì)現(xiàn)場(chǎng)完成真實(shí)貨架抓取演示的大部分?jǐn)?shù)據(jù),就來(lái)源于這條自研管線。

騰訊科技:英偉達(dá)也支持合成數(shù)據(jù),但是使用比例和你們相比呢?

王鶴:我們比他更高。Nvidia的工作試圖構(gòu)建更廣闊意義的基座,不追求在場(chǎng)景的每個(gè)應(yīng)用上能直接work到99.99%,他們論文也不敢聲稱可以做到這點(diǎn)。

但我們做完后,對(duì)于桌面級(jí)抓取、貨架級(jí)抓取,都能做到九十大幾的成功率,才能搬到用戶或訪客面前演示,最終會(huì)做到百分百成功,直接能當(dāng)產(chǎn)品用。

騰訊科技: 你會(huì)在意質(zhì)疑的聲音嗎?

王鶴: 不管研究還是創(chuàng)業(yè),本質(zhì)都是大家認(rèn)知上的差異。如果認(rèn)知沒(méi)差異,知識(shí)技術(shù)都平權(quán),就沒(méi)有先進(jìn)與落后之分了。質(zhì)疑的人可以永遠(yuǎn)保有質(zhì)疑,但我們需要憑借堅(jiān)信把事情進(jìn)一步推動(dòng)下去做好。

幾十萬(wàn)一臺(tái)的Galbot,如何實(shí)現(xiàn)PMF?

騰訊科技:這樣看來(lái),銀河通用的資源主要投入是在模型研發(fā)上嗎?

王鶴: 行業(yè)里有一種誤解,做一款模型產(chǎn)品不需要硬件。如果目標(biāo)是科研Demo,展示時(shí)間僅限于臺(tái)上的幾分鐘,當(dāng)然無(wú)所謂。

但是如果真的讓讓機(jī)器人在實(shí)際場(chǎng)景里24小時(shí)不間斷服役,可靠性要求完全不同,需要按照車規(guī)級(jí)做。其實(shí)我們公司里做硬件的團(tuán)隊(duì)規(guī)模大于軟件團(tuán)隊(duì)。比如,我們?cè)?4小時(shí)藥店的場(chǎng)景里出現(xiàn)任何硬件問(wèn)題,都要工程師到場(chǎng)維修。

騰訊科技: 您之前提過(guò)最重視機(jī)器人的大腦和手臂,對(duì)腿放在次要位置,但如果只是大腦和手,和現(xiàn)在智能產(chǎn)線用機(jī)械臂實(shí)現(xiàn)的任務(wù)有什么區(qū)別?

王鶴:在傳統(tǒng)流水線上,絕大多數(shù)工業(yè)機(jī)器人主要靠“定態(tài)操作”工作:工程師先把來(lái)料位置、抓取姿態(tài)、噴涂或焊接軌跡調(diào)試成固定程序,機(jī)械臂隨后只需反復(fù)播放這一條軌跡即可完成任務(wù)。

這種方法對(duì)零部件位置和姿態(tài)要求極度標(biāo)準(zhǔn)化,一些無(wú)法標(biāo)準(zhǔn)化的地方,比如在汽車總裝前端的配料區(qū)——需要從數(shù)千種零件中按訂單快速揀選并裝車——自動(dòng)化就遲遲難落地。

要么用價(jià)值上億、體積堪比廠房的“巨型自動(dòng)售貨機(jī)”徹底重構(gòu)產(chǎn)線,要么給每個(gè)料框配一臺(tái)機(jī)械臂,既占空間又成本高昂,這筆賬算不過(guò)來(lái)。

具身智能機(jī)器人必須像人類一樣,在雜亂料筐中識(shí)別多形態(tài)零件、選擇合適抓取策略、完成抓—放—移動(dòng)(Mobile Pick-and-Place)閉環(huán),并在幾米范圍內(nèi)靈活巡視多個(gè)料位。

只有把“視覺(jué)理解+多樣抓取+自主導(dǎo)航”三大能力融為一體,才能用一臺(tái)機(jī)器人替代多個(gè)工人。主要的空間在于“傳統(tǒng)機(jī)械臂干不了、人類又昂貴”的中間地帶自動(dòng)化。

對(duì)中國(guó)電動(dòng)車廠而言,一線工人緊缺,兩班倒已成常態(tài),哪怕能為每輛車節(jié)省 1000元人力成本,都很重要。

騰訊科技:市場(chǎng)空間有多大?

王鶴:在零售前置倉(cāng)和車企 SPS (分揀配料系統(tǒng))等高頻場(chǎng)景中,“抓—放—移動(dòng)”式作業(yè)需求極為龐大,僅工業(yè)分揀一項(xiàng),潛在出貨量就可達(dá)數(shù)十萬(wàn)臺(tái)。

以全球工業(yè)機(jī)器人年產(chǎn)值約 1000 億美元、出貨量也不過(guò)數(shù)十萬(wàn)臺(tái)。如果 Mobile Pick-and-Place 機(jī)器人在這些場(chǎng)景全面落地,其市場(chǎng)規(guī)模有望與傳統(tǒng)工業(yè)機(jī)器人比肩甚至超越。

騰訊科技:但是特斯拉的機(jī)器人還在分揀電池,這看起來(lái)也是機(jī)械臂能完成的工作?

王鶴: 所以說(shuō)特斯拉的人形機(jī)器人是否具備落地價(jià)值有待討論,跟波士頓動(dòng)力過(guò)去幾十年做的事情性質(zhì)相當(dāng)。

騰訊科技:但大家可能喜歡看機(jī)器人跳舞、跑馬拉松、打擂臺(tái),普通人覺(jué)得那些更炫的機(jī)器人更厲害?

王鶴:不同人有不同視角,大眾覺(jué)得娛樂(lè)化覺(jué)得最吸睛。

我們也時(shí)刻關(guān)注雙足層面的全身運(yùn)動(dòng)控制,在智源大會(huì)上公布開源方案做雙腿人形機(jī)器人全身控制,為未來(lái)發(fā)揮高自由度全人型本體做基石性工作。

但如果跟產(chǎn)業(yè)方聊,客戶只問(wèn)一件事:你能不能像人一樣把活干好?一個(gè)工人有才藝能歌善舞固然好,但沒(méi)有哪個(gè)廠大面積雇傭舞蹈演員,關(guān)鍵是能不能把產(chǎn)線上的活做好。

這是我們最關(guān)注的,找到具身智能真正可批量復(fù)制的商業(yè)模式,把技術(shù)作為產(chǎn)品真正落到場(chǎng)景中。

騰訊科技:銀河通用Galbot一臺(tái)機(jī)器人的成本是多少?

王鶴: 成本會(huì)隨量產(chǎn)不斷下降,但我可以說(shuō)我們的成本目前遠(yuǎn)低于雇傭一個(gè)人工作三年企業(yè)需要付出的成本。在當(dāng)下,企業(yè)只要能做好功能,只要具身智能能有功能保證高質(zhì)量完成任務(wù),價(jià)格不是問(wèn)題,使用方非常愿意用。

騰訊科技: 您從創(chuàng)業(yè)開始就思考PMF嗎?

王鶴: 是的。

騰訊科技:銀河通用的PMF主要是什么邏輯?

王鶴: 很簡(jiǎn)單,人形機(jī)器人做的事是能真正節(jié)省人類勞動(dòng)力,產(chǎn)生自主的新智生產(chǎn)力,所以我們的價(jià)值應(yīng)當(dāng)與對(duì)等的人類做這件事的價(jià)值進(jìn)行衡量。

在目前能干活的人形機(jī)器人約等于沒(méi)有的狀態(tài)下,這是我們價(jià)值的天花板。未來(lái)銀河通用會(huì)不斷推出越來(lái)越高技能的人形機(jī)器人,持續(xù)占據(jù)重要的企業(yè)可批量復(fù)制的場(chǎng)景,本質(zhì)上一直擁有非常好的ROI,所以PMF不成問(wèn)題。

今年銀河應(yīng)該有數(shù)億元收入。我們專注高價(jià)值場(chǎng)景,一臺(tái)賣幾十萬(wàn),但能替代客戶"三班倒"三年的人力成本。

騰訊科技:?jiǎn)螜C(jī)器人本體定價(jià)幾十萬(wàn)會(huì)不會(huì)太貴了?

王鶴:如果機(jī)器人能連續(xù)工作一個(gè)月零故障,這就是它應(yīng)有的價(jià)格。

具身智能如何跨入“生產(chǎn)力時(shí)代”?

騰訊科技:你期待銀河通用的下一個(gè)技術(shù)突破是什么?

王鶴:把Mobile Pick-and-Place做到可以大規(guī)模復(fù)制:零售貨架、工廠分揀線全部覆蓋。這將是具身機(jī)器人史上的里程碑。

騰訊科技:在未來(lái)批量化的下一階段,最大的障礙和困難是什么?

王鶴: 還是要把機(jī)器人打造成真正高可靠的產(chǎn)品,需要付出系統(tǒng)化努力。今天你買一臺(tái)車,期待開五年都沒(méi)有機(jī)械故障,這是天然期望。車達(dá)到這么高良率和可靠度,是上百年積淀。

人形機(jī)器人作為新生產(chǎn)品,必須正視產(chǎn)業(yè)仍處發(fā)展初期,從上游供應(yīng)鏈到模型,到與客戶打磨,都處在推進(jìn)過(guò)程中。我們要做好產(chǎn)品,大家一起系統(tǒng)化迭代,最終實(shí)現(xiàn)以數(shù)年級(jí)不出現(xiàn)失誤為期待的產(chǎn)品。這路上我們還會(huì)通過(guò)遠(yuǎn)程人類干預(yù)、運(yùn)維團(tuán)隊(duì)來(lái)做客戶服務(wù),這也是一種國(guó)內(nèi)新的商業(yè)模式探索。

騰訊科技:您為什么說(shuō)具身智能發(fā)展現(xiàn)在已經(jīng)進(jìn)入生產(chǎn)力時(shí)代?

王鶴: 這是我們的目標(biāo),“推動(dòng)人形機(jī)器人生產(chǎn)力時(shí)代到來(lái)”。今年我們已經(jīng)部署機(jī)器人在藥店里真正投入使用,目前在北京常態(tài)化運(yùn)行7家店,到年底北京、上海、深圳等一線城市預(yù)計(jì)會(huì)運(yùn)營(yíng)超過(guò)100家店。這100家店里,我們的人形機(jī)器人24小時(shí)完成自動(dòng)化揀貨,這是人形機(jī)器人生產(chǎn)力時(shí)代的開端。

雖然目前只有100個(gè)人形機(jī)器人,但我們?cè)谌陜?nèi)看得到1萬(wàn)臺(tái)人形機(jī)器人完全自主干活,替人類解決在封閉環(huán)境里24小時(shí)工作這樣的苦活。

我相信它標(biāo)志著人形機(jī)器人生產(chǎn)力時(shí)代的揭幕,大家一起努力讓這個(gè)時(shí)代更加光明。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱