精品久久久久久综合日本欧美,亚洲国产欧美日韩另类综合,久久久久免费网

開源大模型得分新紀(jì)錄！阿里千問3性能全球第三

2025-08-11 12:43

潮新聞客戶端記者張云山

8月2日凌晨，國際權(quán)威大模型評測 Chatbot Arena更新了最新一期的大模型榜單，上周新鮮開源的阿里千問3新模型斬獲1433分，超越頂尖閉源模型Grok4、Claude4，位列所有閉源及開源模型的全球總榜第三。同時，千問3還奪得數(shù)學(xué)、代碼、復(fù)雜提示、長文本檢索、指令遵循等5項(xiàng)全球第一。

全球知名ChatBot?Arena大模型排行榜，千問3位列全球頂級模型第三、開源第一（受訪者供圖）

Chatbot Arena是由獨(dú)立研究機(jī)構(gòu)LMSYS Org推出的大模型評測平臺，其評測分?jǐn)?shù)被認(rèn)為是全球最具公信力的大模型榜單。

不到一年前，Qwen2.5-72B是第一個入選該榜前十的中國大模型；上周開源的千問3非思考基礎(chǔ)模型 Qwen3-235B-A22B-Instruct-2507 再次實(shí)現(xiàn)重大突破，攬獲5項(xiàng)關(guān)鍵能力全球第一，并以1433分的總分創(chuàng)下開源大模型的史上最高分，力壓Grok4、Claude4、Gemini 2.5-Flash、GPT4.1等一眾頂級閉源模型，千問3與GPT4.5并列全球第三。

千問3在數(shù)學(xué)、代碼、復(fù)雜提示、長文本、指令遵循等方面位列全球第一（受訪者供圖）

7月22日起，阿里通義團(tuán)隊(duì)接連開源千問3基礎(chǔ)模型、AI編程模型和推理模型，性能均實(shí)現(xiàn)同類開源模型的新突破。除千問3 指令（Instruct）模型外，推理模型 Qwen3-235B-A22B-Thinking-2507 也闖進(jìn)榜單前十，數(shù)學(xué)能力并列全球第一；在Chatbot Arena專門評估編程能力的WebDevArena子榜單中，編程模型Qwen3-Coder性能與Gemini2.5 Pro、DeepSeek-R1、Claude4并列第一。

通義模型（受訪者供圖）

本周，通義千問仍在以“周級迭代”頻率持續(xù)更新：Qwen3-30B-A3B 更新了Instruct模型、推理模型、編程模型等3款模型，性能媲美Gemini2.5-flash、GPT-4o，可在消費(fèi)級硬件直接部署，廣受開發(fā)者歡迎。

同時，千問3新模型的“訓(xùn)練秘籍”GSPO新算法也對外公開，GSPO從根源上解決了大規(guī)模MoE模型在強(qiáng)化學(xué)習(xí)中的穩(wěn)定性問題，訓(xùn)練效率較經(jīng)典GRPO算法實(shí)現(xiàn)大幅提升，GSPO論文在全球最大的AI開源社區(qū)HuggingFace里論文熱度排名第一。

阿里千問模型API調(diào)用量市場份額超10.9%，位列全球第四（受訪者供圖）

阿里AI多連發(fā)，在全球范圍內(nèi)引發(fā)新一輪接入中國開源模型熱潮。

海外大模型API聚合平臺OpenRouter數(shù)據(jù)顯示，阿里千問模型全球市場份額逾10.9%，超越OpenAI和Meta-Llama系列模型，位列全球第四；其中，Qwen3-Coder調(diào)用量一周暴增1474%，位列編程領(lǐng)域的全球第二。

編程領(lǐng)域中，Qwen3-Coder尤受AI社區(qū)歡迎，API調(diào)用量一周暴增1474%（受訪者供圖）

截至目前，阿里已開源300余個模型，持續(xù)推進(jìn)“全尺寸”、“全模態(tài)”的全面開源。通義千問衍生模型已超過14萬個，是全球第一的開源模型，也是中國企業(yè)用得最多的大模型。

未來三年，阿里巴巴還將投入3800億元在AI和云基礎(chǔ)設(shè)施建設(shè)上，夯實(shí)“AI全棧”的技術(shù)體系和戰(zhàn)略布局，為全球開發(fā)者和企業(yè)提供更高性能、更普惠的AI和云計算服務(wù)。