要聞

阿里開源新架構Qwen3-Next，模型訓練成本降9成，長文本推理吞吐提升10倍

2025-09-12 08:26:38

阿(a)里通(tong)義于(yu)9月12日(ri)發布下一代基礎(chu)模型(xing)(xing)架(jia)構Qwen3-Next。該架(jia)構針對大(da)模型(xing)(xing)未來擴(kuo)展趨勢(shi)設計，采用全新高稀(xi)疏MoE架(jia)構，重(zhong)構Transformer核心組件，實現訓練(lian)和推(tui)理雙重(zhong)性價比突破。基于(yu)新架(jia)構，“打樣”Qwen3-Next-80B-A3B系列模型(xing)(xing)，性能媲(pi)美(mei)千問3旗(qi)艦(jian)版(ban)235B模型(xing)(xing)，計算效率大(da)增，訓練(lian)成本降超90%。

每經(jing)記者｜葉曉丹每經(jing)編(bian)輯｜張益銘

每經杭州9月12日電（記者葉曉丹）9月12日，阿里通義發布下一代基礎模型架構Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展（Scaling）的未來趨勢而設計，采用全新的高稀疏MoE架構，并對經典Transformer核心組件進行了重構，創新采(cai)用線性注意(yi)力(li)和自(zi)研門控注意(yi)力(li)結合(he)的混(hun)合(he)注意(yi)力(li)機(ji)制，實現了模型訓練和推理的雙(shuang)重性價(jia)比突破(po)。

基于(yu)這(zhe)一新架構，阿里(li)通義“打樣”了Qwen3-Next-80B-A3B系列模(mo)型，開(kai)源(yuan)指令（Instruct）和推理（Thinking）兩大模(mo)型版(ban)本(ben)(ben)。新模(mo)型總參數80B僅激(ji)活3B，性能(neng)可媲美千問3旗(qi)艦版(ban)235B模(mo)型，模(mo)型計(ji)算效率(lv)大幅提升。Qwen3-Next訓練成(cheng)本(ben)(ben)較密集模(mo)型Qwen3-32B大降超90%，長文(wen)(wen)本(ben)(ben)推理吞吐量(liang)提升10倍以上，并可支持百萬(wan)Tokens（文(wen)(wen)本(ben)(ben)處理的最小單位(wei)?）超長上下文(wen)(wen)。

封(feng)面圖片來源：圖片來源：視覺中國-VCG211478193393

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新聞》報社授權，嚴禁(jin)轉載或鏡像，違者(zhe)必究。

讀(du)者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您(nin)不(bu)希(xi)望作品(pin)出現在本站，可聯(lian)系我(wo)們(men)要求撤下(xia)您(nin)的作品(pin)。

上一篇文章

周(zhou)四(si)日(ri)元兌主要貨(huo)幣多數走低

返回每經網首頁

下一篇文章

全球(qiu)最長航線開始(shi)售(shou)票，上(shang)海出發(fa)全程(cheng)(cheng)2萬公里無需換乘，去(qu)程(cheng)(cheng)近26小時，經濟(ji)艙票價12235元起，東(dong)航計劃用波音777機型執飛