潮新聞客戶端 記者 張云山
8月2日凌晨,國際權(quán)威大模型評測 Chatbot Arena更新了最新一期的大模型榜單,上周新鮮開源的阿里千問3新模型斬獲1433分,超越頂尖閉源模型Grok4、Claude4,位列所有閉源及開源模型的全球總榜第三。同時,千問3還奪得數(shù)學(xué)、代碼、復(fù)雜提示、長文本檢索、指令遵循等5項(xiàng)全球第一。

全球知名ChatBot?Arena大模型排行榜,千問3位列全球頂級模型第三、開源第一(受訪者供圖)
Chatbot Arena是由獨(dú)立研究機(jī)構(gòu)LMSYS Org推出的大模型評測平臺,其評測分?jǐn)?shù)被認(rèn)為是全球最具公信力的大模型榜單。
不到一年前,Qwen2.5-72B是第一個入選該榜前十的中國大模型;上周開源的千問3非思考基礎(chǔ)模型 Qwen3-235B-A22B-Instruct-2507 再次實(shí)現(xiàn)重大突破,攬獲5項(xiàng)關(guān)鍵能力全球第一,并以1433分的總分創(chuàng)下開源大模型的史上最高分,力壓Grok4、Claude4、Gemini 2.5-Flash、GPT4.1等一眾頂級閉源模型,千問3與GPT4.5并列全球第三。

千問3在數(shù)學(xué)、代碼、復(fù)雜提示、長文本、指令遵循等方面位列全球第一(受訪者供圖)
7月22日起,阿里通義團(tuán)隊(duì)接連開源千問3基礎(chǔ)模型、AI編程模型和推理模型,性能均實(shí)現(xiàn)同類開源模型的新突破。除千問3 指令(Instruct)模型外,推理模型 Qwen3-235B-A22B-Thinking-2507 也闖進(jìn)榜單前十,數(shù)學(xué)能力并列全球第一;在Chatbot Arena專門評估編程能力的WebDevArena子榜單中,編程模型Qwen3-Coder性能與Gemini2.5 Pro、DeepSeek-R1、Claude4并列第一。

通義模型(受訪者供圖)
本周,通義千問仍在以“周級迭代”頻率持續(xù)更新:Qwen3-30B-A3B 更新了Instruct模型、推理模型、編程模型等3款模型,性能媲美Gemini2.5-flash、GPT-4o,可在消費(fèi)級硬件直接部署,廣受開發(fā)者歡迎。
同時,千問3新模型的“訓(xùn)練秘籍”GSPO新算法也對外公開,GSPO從根源上解決了大規(guī)模MoE模型在強(qiáng)化學(xué)習(xí)中的穩(wěn)定性問題,訓(xùn)練效率較經(jīng)典GRPO算法實(shí)現(xiàn)大幅提升,GSPO論文在全球最大的AI開源社區(qū)HuggingFace里論文熱度排名第一。

阿里千問模型API調(diào)用量市場份額超10.9%,位列全球第四(受訪者供圖)
阿里AI多連發(fā),在全球范圍內(nèi)引發(fā)新一輪接入中國開源模型熱潮。
海外大模型API聚合平臺OpenRouter數(shù)據(jù)顯示,阿里千問模型全球市場份額逾10.9%,超越OpenAI和Meta-Llama系列模型,位列全球第四;其中,Qwen3-Coder調(diào)用量一周暴增1474%,位列編程領(lǐng)域的全球第二。

編程領(lǐng)域中,Qwen3-Coder尤受AI社區(qū)歡迎,API調(diào)用量一周暴增1474%(受訪者供圖)
截至目前,阿里已開源300余個模型,持續(xù)推進(jìn)“全尺寸”、“全模態(tài)”的全面開源。通義千問衍生模型已超過14萬個,是全球第一的開源模型,也是中國企業(yè)用得最多的大模型。
未來三年,阿里巴巴還將投入3800億元在AI和云基礎(chǔ)設(shè)施建設(shè)上,夯實(shí)“AI全棧”的技術(shù)體系和戰(zhàn)略布局,為全球開發(fā)者和企業(yè)提供更高性能、更普惠的AI和云計算服務(wù)。