大模型圈最新現(xiàn)狀：一半在用DeepSeek，另一半在玩“顏文字”？

硅星人·2024-12-30

開放的心態(tài)，加上對工程實踐的重視，正在加速中國AI行業(yè)的發(fā)展。

編者按：本文來自微信公眾號硅星人Pro（ID：Si-Planet），作者：周一笑，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

這兩天的大模型圈子，可謂是熱鬧非凡。一邊，DeepSeek憑借其低成本、高性能的亮眼表現(xiàn)，吸引著無數(shù)目光，各路技術大牛紛紛點贊。

而另一邊，社交媒體和技術論壇上卻開始流行起各種奇特的“顏文字”，比如“QwQ”、“QVQ”，不明所以的人可能一臉懵，但懂行的人都知道，這指的正是阿里通義千問開源的系列模型。

今年9月，阿里發(fā)布通義千問新一代開源模型Qwen2.5系列，一口氣推出了從0.5B到72B參數(shù)的不同規(guī)模版本，覆蓋了各種應用需求，成功躋身全球頂尖開源模型行列，多模態(tài)、多語言能力樣樣不落，成了不少企業(yè)和開發(fā)者的心頭好。不僅如此，Qwen團隊最近也動作頻頻，接連開源了幾款頗具亮點的 AI 模型，持續(xù)引發(fā)關注。

Qwen團隊的命名風格也是相當“抽象”：QVQ，“兩眼瞪”；QwQ，像是鍵盤上不小心蹭了一下。這是什么代碼世界的顏文字？似乎技術大牛們在嚴肅的科研之余，偷偷藏了一點“皮”。也許，Qwen的命名哲學就是：名字隨意，能打才是硬道理？

提起生成式 AI，大家的目光似乎總離不開大洋彼岸的科技巨頭：OpenAI、谷歌、Meta。但最近，AI圈子里卻頻頻閃現(xiàn)一些來自東方的身影，比如DeepSeek和阿里的通義千問Qwen，它們正在各大AI模型性能榜單上攻城略地，成為焦點。

要知道，過去我們聊到國產(chǎn)大模型，總感覺帶著點“追趕者”的陰影。但現(xiàn)在這樣的中國開源力量，正在用實力證明自己不再是看客，而是足以和OpenAI、Meta這些巨頭勁旅掰手腕的角色。

Hugging Face 2024 年年度盤點數(shù)據(jù)就很有意思：Qwen2.5-1.5B-Instruct 的下載量占比高達 26.6%，碾壓了Llama 3 和 Gemma這些明星開源模型。下載量這東西，雖然不能完全等同于“最強實力”，但絕對是人氣的硬指標。

Qwen2.5-1.5B-Instruct的超高下載量，證明了其在當前時間節(jié)點上的廣泛應用和高人氣，也反映出中國公司開發(fā)的開源大模型正在國際舞臺上展現(xiàn)出越來越強的影響力，實際上，Hugging Face平臺上 2023年下載量最高的開源模型，同樣來自中國社區(qū)，是智源研究院BGE-base。

對于Qwen的亮眼表現(xiàn)，國外網(wǎng)友也是喜聞樂見，甚至已經(jīng)開始玩梗了：扎克伯格可能正偷偷瞅著你用Qwen而不是 Llama。”

圣誕大禮包QvQ，首個開源多模態(tài)推理模型

網(wǎng)友們開始用上的包括Qwen團隊送上的圣誕禮物：QVQ-72B-Preview。這是一款能夠分析圖像并進行推理的全新開源模型。雖然還處于實驗階段，但初步測試表明，它在視覺推理任務中表現(xiàn)相當出色。

QVQ通過逐步思考來解決問題，類似于OpenAI的o1或Google的Flash Thinking等能夠“逐步思考”的模型。用戶扔給它一張圖和一些指令，系統(tǒng)會分析信息，在必要時花時間進行反思，并以每個預測的置信度分數(shù)提供答案。

在底層架構(gòu)上，QVQ-72B-Preview 基于 Qwen 現(xiàn)有的視覺語言模型 Qwen2-VL-72B 構(gòu)建，并增添了思考與推理的能力，這使它成為首個此類開源模型。

開發(fā)者在Macbook Pro上運行QVQ

在基準測試中，開源的QVQ全面超越了其前身Qwen2-VL-72B-Instruct，達到了與閉源模型如 OpenAI 的 o1 和 Claude 3.5 Sonnet 相近的準確水平。

QVQ-72B-Preview 的基準測試結(jié)果

在實際測試中，一位網(wǎng)友拍了一張紐約地鐵照片考驗QVQ，并提問“如果我要去唐人街，我該在這站下車嗎？”用戶最終表示模型做出了正確的判斷，結(jié)合問題進行了有效的推理。

獲陶哲軒點贊的開源推理模型QwQ

時間再往前推，2024年11月28日，Qwen團隊還開源了一款專注于推理能力的AI模型 QwQ-32B-Preview。

這是Qwen團隊發(fā)布的首個開源推理模型，旨在增強AI推理能力。盡管參數(shù)量僅為32B，但在 GPQA、AIME、MATH-500 和 LiveCodeBench 等多個評測中，QwQ 都取得了不俗的成績，甚至在部分測試中超越了超越了o1。QwQ具備深度自省能力，能夠質(zhì)疑自身假設并進行深思熟慮的自我對話，從而解決復雜問題。

雖然QwQ目前還處于實驗階段，但它展現(xiàn)出的強大分析能力和獨特的推理方式，已經(jīng)吸引了不少目光，甚至連數(shù)學界的大牛陶哲軒都公開點贊，說它的表現(xiàn)超越了以往的所有開源模型。

在 AIMO（AI 數(shù)學奧林匹克）挑戰(zhàn)賽中，Qwen 系列模型也成為了參賽者們最常用的模型之一，位列前三。

AIMO使用最多的模型排名前三均為Qwen

“開放權(quán)重、價格低、基礎能力突出，這樣的推理模型誰不喜歡呢”。

Qwen2.5-Coder：開源界的“代碼扛把子”？

Qwen2.5 系列的發(fā)布，尤其是 Qwen2.5-Coder 的亮相，在AI圈內(nèi)引發(fā)了一波討論。盡管模型體積相對較小，但Qwen 2.5 Coder32B在HumanEval 等編程基準測試中仍能與前沿模型相媲美。

有海外技術博主就吐槽，現(xiàn)在大家好像都盯著 OpenAI、谷歌、Anthropic 這些巨頭的動態(tài)，卻忽略了Qwen這個“狠角色”。人家可是第一個能跟Claude Sonnet和GPT-4o正面硬剛，還能在你電腦上本地運行的開放權(quán)重模型。這可不僅僅是跑分好看而已，很多體驗過的人都說“真香”。相比之下，DeepSeek的模型雖然也很牛，但體積太大，本地跑起來有點費勁（彼時deepseek v3還未發(fā)布）。Qwen2.5-Coder 的出現(xiàn)，對于開源社區(qū)來說絕對是個大新聞。更良心的是，阿里還把技術報告完完整整地公開了，沒有藏著掖著，與社區(qū)共享這份成果。

還有開發(fā)者基于Qwen2.5-Coder做了AI 的視頻編輯器Video Composer，用戶可以通過拖放素材（如圖片、視頻和音頻），并使用自然語言，讓Qwen2.5-Coder生成新視頻（基于 FFMPEG 技術）。

滿足多樣化需求，全球化的Qwen

Qwen的另一大優(yōu)勢在于它的“平易近人”。Qwen2.5 系列不僅面向技術專家或大型企業(yè)，它的設計初衷是讓廣大用戶都能輕松使用。從資源受限設備適用的 0.5 億參數(shù)版本，到企業(yè)級應用所需的 720 億參數(shù)版本，提供了豐富的選擇，滿足不同需求。

在日本，阿里云與東京大學初創(chuàng)企業(yè) Lightblue 合作，旨在提升其日語大型語言模型（LLMs）。Lightblue 借助阿里云的架構(gòu)及 Qwen LLM技術，對模型進行了優(yōu)化，從而提高了東亞語言的準確性。

知名投資人Coinbase前CTOBalaji Srinivasan也公開認可了 Qwen 的多模態(tài)和多語言能力。

現(xiàn)在，全球各地的工程師幾乎都可以輕松訪問Qwen的各類模型。更難得的是，Qwen在處理多種語言方面表現(xiàn)出色，即使是一些全球AI訓練數(shù)據(jù)比較少的“小語種”，比如緬甸語、孟加拉語和烏爾都語，它也能應對。相比之下，Meta的開源AI模型Llama主要還是針對英語應用為主。

不少日本開發(fā)者在認真研究 Qwen2.5 的技術報告

中國AI開源勢力崛起

Qwen等中國AI模型的崛起，為國內(nèi)企業(yè)提供了更多選擇和可能性。在當前國際環(huán)境，意義更加凸顯。更關鍵的是，它們不僅僅是一個“備胎”選項，而是正在證明自己有實力與美國頂尖技術掰手腕。

Qwen的意義，也不僅僅體現(xiàn)在技術上，其背后代表的開放、協(xié)作，這說明中國在AI領域并沒有掉隊，反而通過開源展現(xiàn)出了強勁的競爭力。事實證明，所謂的GPU限制并沒有阻礙中國 AI 的發(fā)展。如果這個勢頭保持下去，中國很有可能在LLM市場占據(jù)更重要的地位。當開源模型比 Meta（發(fā)布帶有特殊 Llama 研究許可的模型）還要開放，當大家都能用上性能不輸甚至更強的開源模型時，誰會不樂于使用呢？

CNBC 近期也發(fā)文指出，中國在LLM方面取得了顯著進展，Qwen、DeepSeek等模型在某些方面已經(jīng)超越了美國的競爭對手。中國公司正積極擁抱開源模式，推動AI技術的發(fā)展和應用，以促進創(chuàng)新并擴大全球影響力。文章認為，中國正在AI領域快速崛起，其AI模型已經(jīng)具備相當?shù)膰H競爭力，并且正在努力構(gòu)建自主可控的AI生態(tài)。