五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

百倍提升7B模型推理能力,昆侖萬(wàn)維攜手新加坡南洋理工大學(xué)發(fā)布Q*算法

打破OpenAI壟斷!昆侖萬(wàn)維顏水成團(tuán)隊(duì)推出Q*算法,百倍提高模型推理能力

近日,昆侖萬(wàn)維攜手新加坡南洋理工大學(xué)成功開發(fā)了一個(gè)名為Q*的算法,能夠顯著提升現(xiàn)有大模型的推理能力。在GSM8K數(shù)據(jù)集上,Q*幫助Llama-2-7b提升至80.8%的準(zhǔn)確率,超越了ChatGPT;在MATH數(shù)據(jù)集上,Q*幫助DeepSeek-Math-7b提升至55.4%的準(zhǔn)確率,超越了Gemini Ultra;在MBPP數(shù)據(jù)集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準(zhǔn)確率,縮小了與GPT-4的編程水平差距。

Q*能夠幫助小模型達(dá)到參數(shù)量比其大數(shù)十倍、甚至百倍模型的推理能力,這一算法不僅大幅提升了小模型的性能,還顯著降低了計(jì)算資源的需求,為人工智能的廣泛應(yīng)用帶來(lái)了全新可能,開創(chuàng)了高效智能的新紀(jì)元。

項(xiàng)目論文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已公開發(fā)布。論文鏈接:https://arxiv.org/abs/2406.14283

圖片1.png

打破OpenAI封鎖提升現(xiàn)有模型能力

自O(shè)penAI的Q*項(xiàng)目曝光后,引發(fā)業(yè)內(nèi)眾多討論。據(jù)現(xiàn)有信息匯總,Q*項(xiàng)目被視作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大嘗試,有望在包括數(shù)學(xué)問(wèn)題解決能力、自主學(xué)習(xí)和自我改進(jìn)等多個(gè)層面對(duì)人工智能技術(shù)帶來(lái)革新性突破。

圖片4.png

圖片2.png

(英偉達(dá)科學(xué)家Jim Fan、圖靈獎(jiǎng)得主Yann LeCun等參與討論OpenAI的Q*實(shí)現(xiàn)方式)

圖片3.png

(Meta科學(xué)家田淵棟則認(rèn)為Q*是Q-learning和A*的結(jié)合,且天然地適合推理任務(wù),尤其在數(shù)學(xué)推理方面)

不過(guò)迄今為止OpenAI沒(méi)有公開關(guān)于Q*算法的具體細(xì)節(jié),其效果究竟如何我們并不得而知。

昆侖萬(wàn)維自Q*項(xiàng)目曝光以來(lái),一直密切關(guān)注Q*的動(dòng)向,且在第一時(shí)間就成立研究小組嘗試開發(fā)自己的Q*算法,希望打破OpenAI的封鎖,提升現(xiàn)有開源模型的推理能力。經(jīng)過(guò)數(shù)月的嘗試,團(tuán)隊(duì)提出了一種新穎的Q*框架,并且?guī)椭F(xiàn)有開源模型在GSM8K、MATH和MBPP數(shù)據(jù)集上,分別超越了ChatGPT和Gemini Ultra。

復(fù)雜推理任務(wù)全盤規(guī)劃

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中,研究人員首先將大語(yǔ)言模型的推理軌跡分解為若干個(gè)狀態(tài),對(duì)于每一個(gè)狀態(tài),參考DeepCubeA中的設(shè)計(jì),通過(guò)將定義Path Cost的g(s_t)函數(shù)和定義Accumulated Reward的Q*(s_t, a_t)集成到同一個(gè)f(s_t)函數(shù)內(nèi),實(shí)現(xiàn)了對(duì)歷史狀態(tài)收益和未來(lái)期望收益的綜合考慮。最后利用A*搜索算法對(duì)狀態(tài)進(jìn)行最佳優(yōu)先搜索,實(shí)現(xiàn)了對(duì)復(fù)雜推理任務(wù)的全盤規(guī)劃,從而提升開源模型在推理任務(wù)上的性能。

圖片5.png

其中g(shù)(s_t)表示當(dāng)前軌跡中的多個(gè)歷史狀態(tài),既{s1,...,s_t},的聚合收益。

圖片6.png

具體g(s_t)的函數(shù)形式可以通過(guò)人為定義,例如判斷當(dāng)前代碼是否符合語(yǔ)法規(guī)則等,或者通過(guò)構(gòu)建Process Reward Model (PRM) 進(jìn)行監(jiān)督學(xué)習(xí)得到;g(s_t)中的聚合方式可以為求和,最大值,最小值等。

圖片7.png

圖片8.png

image.png

實(shí)驗(yàn)結(jié)果表明,昆侖萬(wàn)本次所提出的Q*框架,可以顯著地提升LLM的推理能力,在GSM8K數(shù)據(jù)集上,Q*幫助Llama-2-7b提升至80.8%的準(zhǔn)確率,超越了ChatGPT;在MATH數(shù)據(jù)集上,Q*幫助DeepSeek-Math-7b提升至55.4%的準(zhǔn)確率,超越了Gemini Ultra; 在MBPP數(shù)據(jù)集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準(zhǔn)確率,縮小了與GPT-4的編程水平差距。

圖片11.png

圖片12.png

圖片13.png研究證明,Q*能夠幫助參數(shù)量?jī)H為7b的小模型達(dá)到參數(shù)量比其大數(shù)十倍甚至百倍模型的推理能力,大幅提升模型的性能,并顯著降低了計(jì)算資源的需求。目前,Q*的研究尚在初級(jí)階段,算法在各個(gè)環(huán)節(jié)還有進(jìn)一步的改進(jìn)空間。未來(lái),昆侖萬(wàn)會(huì)繼續(xù)深入此項(xiàng)研究,不斷提升國(guó)產(chǎn)開源模型推理能力,打破OpenAI閉源封鎖,為人工智能前沿技術(shù)發(fā)展帶來(lái)全新可能。

來(lái)源:昆侖萬(wàn)維
反饋
聯(lián)系我們
推薦訂閱