當(dāng)Google的Gemini性能超越GPT-4，對創(chuàng)業(yè)者意味著什么？

阿爾法公社2023-12-08

GPT-4真正得到競爭對手終于來了。

編者按：本文來自微信公眾號阿爾法公社（ ID：alphastartups），作者：阿爾法公社，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

真正能與GPT-4正面比拼性能的AI基礎(chǔ)模型終于出現(xiàn)了。

北京時(shí)間12月7日凌晨，Google DeepMind發(fā)布了Gemini系列AI基礎(chǔ)模型，它分為Gemini Ultra，Gemini Pro，Gemini Nano三個(gè)版本，其中Gemini Ultra在32個(gè)測試中的30個(gè)超越了之前的SOTA模型，Gemini Pro會成為Bard背后的模型，Gemini Nano則將搭載于Pixel 8 Pro，是一個(gè)定位在端側(cè)的模型。

Gemini是一個(gè)原生多模態(tài)的模型，直接和GPT-4和GPT-4V對標(biāo)，而且Google在安全性上經(jīng)過了加強(qiáng)，它經(jīng)過最全面安全評估，包括偏見和有害內(nèi)容方面，還能防護(hù)包括網(wǎng)絡(luò)攻擊、“越獄”在內(nèi)的潛在風(fēng)險(xiǎn)。

Google為開發(fā)者和企業(yè)客戶推出了Google AI Studio和Vertex AI，Google AI Studio是一個(gè)免費(fèi)的基于網(wǎng)絡(luò)的開發(fā)者工具，開發(fā)者們可以利用API快速搭建AI應(yīng)用，Vertex AI則允許企業(yè)用戶定制Gemini，并完全控制數(shù)據(jù)。

Gemini是原生多模態(tài)大模型，大部分性能超越GPT-4

今年3月中旬，OpenAI的GPT-4發(fā)布，其性能對其他AI基礎(chǔ)大模型呈現(xiàn)碾壓之勢，這讓Google感到深刻的威脅。4月21日，Google將Google Brain和DeepMind兩個(gè)最強(qiáng)大的AI實(shí)驗(yàn)室合并，集中精銳的研究力量，并讓DeepMind的創(chuàng)始人Demis Hassabis來領(lǐng)導(dǎo)公司。

與OpenAI一樣，Hassabis一直以來的愿景也是打造AGI，他在發(fā)布會中表示：“我始終相信，如果我們能夠構(gòu)建更智能的機(jī)器，就能利用它們以難以置信的方式造福人類。長期以來，我們一直希望構(gòu)建新一代的人工智能模型，這些模型的靈感來自于人類理解和與世界互動的方式。這樣的人工智能，感覺上不像是一款智能軟件，更像是一種有用且直觀的東西——一個(gè)專家助手或助理?！?/p>

高性能的原生多模態(tài)模型系列

Gemini系列AI基礎(chǔ)模型分為Gemini Ultra，Gemini Pro，Gemini Nano三個(gè)版本。

其中Gemini Ultra適用于高度復(fù)雜的任務(wù)；Gemini Pro是性能和尺寸最平衡的版本，適用于多種任務(wù)的擴(kuò)展；Gemini Nano則適用于端側(cè)，可以直接搭載于移動設(shè)備。

不過Gemini Ultra還需要完成更嚴(yán)格的信任和安全檢測，以及紅隊(duì)測試和RLHF，才能推向市場，它的上線時(shí)間會是2024年初，主要面對開發(fā)者和企業(yè)客戶。

在性能方面，從自然圖像、音頻和視頻理解到數(shù)學(xué)推理，GeminiUltra在32個(gè)廣泛使用的學(xué)術(shù)基準(zhǔn)測試中的30個(gè)上超越了當(dāng)前的最先進(jìn)結(jié)果。

其中Gemini Ultra以90.0%的成績成為首個(gè)在MMLU（大規(guī)模多任務(wù)語言理解）上超越人類專家的模型，該測試結(jié)合了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等57個(gè)科目，用于測試世界知識和解決問題的能力。

此外，值得注意的是，在與推理、數(shù)學(xué)和編碼等幾個(gè)評判大模型真正能力的測試中，Gemini Ultra幾乎是全面突出GPT-4的。

以下是Gemini的技術(shù)資料里更詳細(xì)的對比，能夠了解到Gemini Ultra和Gemini Pro與主流模型的性能差異。

在多模態(tài)能力的對比中，無論是圖片，視頻還是音頻，Gemini Ultra也在大多數(shù)測試中超越了GPT-4V，這些測試凸顯了Gemini的原生多模態(tài)特性，并表明了Gemini更復(fù)雜推理能力的早期跡象。

另外，在更復(fù)雜的MMMU基準(zhǔn)測試中Gemini Ultra取得了突出的59.4%的得分，該基準(zhǔn)測試包含了跨不同領(lǐng)域、需要深思熟慮的推理的多模態(tài)任務(wù)。

此前，創(chuàng)建多模態(tài)模型的標(biāo)準(zhǔn)方法涉及分別訓(xùn)練不同模態(tài)的組件，然后將它們拼接在一起以大致模仿這些功能。這些模型有時(shí)在執(zhí)行某些任務(wù)（如描述圖像）方面表現(xiàn)良好，但在更概念性和復(fù)雜的推理上則有所掙扎。

Gemini則是原生的多模態(tài)模型，它一開始就在不同的模態(tài)上進(jìn)行預(yù)訓(xùn)練，然后Google再用額外的多模態(tài)數(shù)據(jù)對其進(jìn)行了微調(diào)，以進(jìn)一步提高其效果。這有助于Gemini從根本上無縫理解和推理各種輸入。

這也使Gemini能夠很好的理解文本、圖像、音頻等內(nèi)容，能夠適應(yīng)更多的復(fù)雜應(yīng)用需求。

對于生成式AI非常重要的程序編碼需求，Google使用一個(gè)專有版本的Gemini，創(chuàng)建了一個(gè)更高級的代碼生成系統(tǒng)AlphaCode 2，它擅長解決超出編碼范疇、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的競賽編程問題。

AlphaCode 2相比此前的AlphaCode顯示出巨大的進(jìn)步，據(jù)估計(jì)它的表現(xiàn)優(yōu)于85%的人類參賽者，而AlphaCode的數(shù)據(jù)是超越近50%參賽者。

負(fù)責(zé)任的大廠，強(qiáng)大的安全性

除了性能提升外，作為一個(gè)科技大廠，Google一直在人工智能的安全性上十分重視。具體到Gemini，Google做了以下措施：

1.對模型進(jìn)行全面安全評估的，包括偏見和有害內(nèi)容方面。

2.利用對抗測試技術(shù)，幫助提前識別Gemini部署中的關(guān)鍵安全問題。

3.與多元化的外部專家和合作伙伴合作，對Gemini在一系列問題上進(jìn)行壓力測試。

4.為了限制傷害，Google構(gòu)建了專門的安全分類器來識別、標(biāo)記和篩選涉及暴力或負(fù)面刻板印象的內(nèi)容。

5.與行業(yè)和更廣泛的生態(tài)系統(tǒng)合作，例如MLCommons、前沿模型論壇及其AI安全基金。

Gemini Pro加持的Bard，針對開發(fā)者和企業(yè)用戶的Google AI Studio和Vertex AI

在產(chǎn)品方面，Google會將Gemini模型的能力擴(kuò)展到各種服務(wù)中，例如搜索、廣告、Chrome和Duet AI（企業(yè)級效率應(yīng)用）。

直接對標(biāo)ChatGPT的Bard，將會把背后的模型從PaLM2，換成經(jīng)過精細(xì)調(diào)整的Gemini Pro版本，以實(shí)現(xiàn)更高級的推理、規(guī)劃、理解等功能。不過雖然Bard已經(jīng)在170多個(gè)國家和地區(qū)提供服務(wù)，未來Google會開放更多的模態(tài)，并支持新的語言和地區(qū)。

明年初，Google將推出Bard Advanced，它背后的模型將是Gemini Ultra，而不是Gemini Pro。

Gemini Nano這個(gè)面向端側(cè)的小參數(shù)模型將搭載在Google的Pixel 8 Pro手機(jī)上，提供例如錄音摘要，Gboard的智能回復(fù)等功能，未來還有更多可能性。

此外，從12月13日開始，Google會為開發(fā)者和企業(yè)客戶提供Gemini API以訪問Gemini Pro模型。

Google AI Studio是一個(gè)免費(fèi)的基于網(wǎng)絡(luò)的開發(fā)者工具，開發(fā)者可以使用API快速搭建產(chǎn)品原型并驗(yàn)證產(chǎn)品功能。

Vertex AI讓企業(yè)用戶可以自定義Gemini，并完全控制數(shù)據(jù)，它還提供完全托管的服務(wù)，并為模型的安全、隱私以及數(shù)據(jù)治理和合規(guī)性負(fù)責(zé)。

更強(qiáng)大的基礎(chǔ)模型，讓創(chuàng)業(yè)者有更多更便宜的選擇

盡管仍然需要到實(shí)際場景中檢驗(yàn)，但是Gemini Ultra是第一款真正意義能力與GPT-4持平或超越的AI模型，此前的Claude2和Inflection2只是在部分細(xì)分測試上追上了GPT-4的分?jǐn)?shù)。

在技術(shù)上，Gemini模型原生多模態(tài)的范式代表了大模型的發(fā)展方向，在未來2-3年內(nèi)，新推出的大模型都應(yīng)該是多模態(tài)大模型。而只有大模型具有了多模態(tài)能力，它才有可能完整的“理解”世界，才有可能在未來誕生AGI的雛形。

此外，部署在移動端的Gemini Nano模型也代表了另一個(gè)趨勢，相比聯(lián)網(wǎng)使用云端的大模型，端側(cè)模型雖然通用能力上欠缺，但是更靈活，更安全，經(jīng)過微調(diào)后在特定任務(wù)上也具有高可用性。隨著端側(cè)AI算力的不斷增強(qiáng)，它應(yīng)該具有不小的開發(fā)潛力。

在生態(tài)建設(shè)上，Google提供為開發(fā)者提供了API和應(yīng)用搭建工具Google AI Studio，讓開發(fā)者可以使用先進(jìn)的AI模型搭建自己的原生AI應(yīng)用。它也為企業(yè)用戶提供模型定制和模型部署的服務(wù)。

這些做法，與Meta，Amazon，百度，阿里等科技巨頭較為類似，它們都想通過生成式AI重塑自己的業(yè)務(wù)，并建立新的生態(tài)，從而打開第二增長曲線。

其中Meta和阿里更激進(jìn)些，不但有云平臺，而且開源了自己的基礎(chǔ)模型（llama2，通義千問）；Amazon的力度也不小，不但提供自己的閉源模型，還接入了Claude等第三方的先進(jìn)模型。

當(dāng)然，在產(chǎn)品和生態(tài)打造上，目前最成功的仍然是OpenAI的ChatGPT、助手API和GPTS。而他成功的基礎(chǔ)，又是基于能力強(qiáng)大的GPT-4。

所以，當(dāng)Gemini Ultra的能力趕超GPT-4后，對于創(chuàng)業(yè)者意味著什么？

首先，這讓人人都是產(chǎn)品經(jīng)理越來越成為現(xiàn)實(shí)，有產(chǎn)品想法和能力的人可以更快更低成本的驗(yàn)證自己的想法，而不需要太多的開發(fā)經(jīng)驗(yàn)。

對于那些具有產(chǎn)品能力和開發(fā)能力的個(gè)人創(chuàng)業(yè)者，現(xiàn)在除了GPT-4外有了另一個(gè)足夠強(qiáng)大的模型可用，而且競爭有可能使得API的成本降低，具有更多的試錯空間。

對于基于API或定制模型打造垂直行業(yè)應(yīng)用的創(chuàng)業(yè)公司，與開發(fā)者一樣，他們有了更多的選擇，并有望降低成本。但是真正的成本降低，可能還是得等足夠高效和低成本得算力芯片成熟。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

免責(zé)申明

1.本平臺專注于提供資訊分享服務(wù)，所提供的資訊內(nèi)容僅代表作者個(gè)人觀點(diǎn)，不反映本平臺立場。

2.我們致力于確保所提供信息的準(zhǔn)確性和及時(shí)性，但對信息的完整性、準(zhǔn)確性、可靠性或適用性不做任何明示或暗示的保證。

3.用戶在使用本網(wǎng)站提供的信息時(shí)，請自行判斷并承擔(dān)相應(yīng)風(fēng)險(xiǎn)。本網(wǎng)站對用戶因使用或未能使用本網(wǎng)站而導(dǎo)致的任何直接、間接、附帶的損失或損害概不負(fù)責(zé)，包括但不限于利潤損失、商業(yè)中斷、信息丟失等。

4.免責(zé)申明可能隨時(shí)修改，恕不另行通知。請定期查閱以獲取最新信息。

相關(guān)專題

AI大模型