阿里發(fā)布Qwen3-Coder,為4800億參數(shù)開(kāi)源代碼模型
關(guān)鍵詞: 阿里Qwen3-Coder 混合專(zhuān)家模型 代碼強(qiáng)化學(xué)習(xí) 代理式編程 開(kāi)源模型
近日,阿里巴巴集團(tuán)正式發(fā)布了全新開(kāi)源代碼模型 Qwen3-Coder,引起了廣泛關(guān)注。此次發(fā)布的 Qwen3-Coder-480B-A35B-Instruct(以下簡(jiǎn)稱(chēng) Qwen3-Coder)是該系列中最強(qiáng)大的版本,擁有高達(dá)4,800億的總參數(shù)量和350億的激活參數(shù),原生支持256K token的上下文,并可擴(kuò)展到1百萬(wàn)token,支持358種編程語(yǔ)言。
Qwen3-Coder采用了混合專(zhuān)家(MoE)模型架構(gòu),配備了96個(gè)查詢(xún)(Q)注意力頭和8個(gè)鍵/值(KV)注意力頭,擁有160個(gè)專(zhuān)家,其中8個(gè)專(zhuān)家被激活。在預(yù)訓(xùn)練階段,該模型從數(shù)據(jù)、上下文和合成數(shù)據(jù)三個(gè)角度進(jìn)行擴(kuò)展,以提升代碼能力;在后訓(xùn)練階段,研究團(tuán)隊(duì)通過(guò)在真實(shí)代碼任務(wù)上擴(kuò)展代碼強(qiáng)化學(xué)習(xí)(Code RL)訓(xùn)練,顯著提升了代碼執(zhí)行成功率。

值得一提的是,Qwen3-Coder在代理式編碼、代理式瀏覽器使用和代理式工具使用上達(dá)到了開(kāi)源模型的領(lǐng)先水平,媲美Claude Sonnet 4。其代碼庫(kù)上線(xiàn)一小時(shí)便收獲了5.1k Star,足見(jiàn)其受歡迎程度。此外,阿里還推出了基于Qwen3-Coder的命令行工具Qwen Code,進(jìn)一步提升了其在代理式編程任務(wù)上的表現(xiàn)。
Qwen3-Coder的發(fā)布是阿里Qwen3系列模型的最新進(jìn)展。三個(gè)月前,阿里發(fā)布了Qwen3系列,包括兩款MoE模型和六款密集模型。其中的旗艦?zāi)P蚎wen3-235B-A22B,總參數(shù)量高達(dá)2,350億,激活參數(shù)為220億。此次發(fā)布的Qwen3-Coder取消了混合思維模式,專(zhuān)注于非思考模式,以獲得最佳質(zhì)量。
- 硅谷機(jī)器人明星公司K-Scale Labs猝死,融資600多萬(wàn)美元一年燒光!11-14
- 荷蘭高級(jí)代表團(tuán)下周訪(fǎng)華,共商安世半導(dǎo)體問(wèn)題解決方案11-14
- 因過(guò)熱和起火風(fēng)險(xiǎn),特斯拉大規(guī)模召回10500套Powerwall 211-14
- 立中集團(tuán)又獲3客戶(hù)項(xiàng)目定點(diǎn),合計(jì)金額約2.7億元11-14
- 蘇州固锝:含銀量10%的銀包銅產(chǎn)品已進(jìn)入量產(chǎn)階段11-14
- 關(guān)于美光禁售,商務(wù)部這樣回應(yīng)......11-07