2025-09-12 08:26:38
阿(a)里通(tong)義于(yu)9月12日(ri)發布下一代基礎(chu)模型(xing)(xing)架(jia)構Qwen3-Next。該架(jia)構針對大(da)模型(xing)(xing)未來擴(kuo)展趨勢(shi)設計,采用全新高稀(xi)疏MoE架(jia)構,重(zhong)構Transformer核心組件,實現訓練(lian)和推(tui)理雙重(zhong)性價比突破。基于(yu)新架(jia)構,“打樣”Qwen3-Next-80B-A3B系列模型(xing)(xing),性能媲(pi)美(mei)千問3旗(qi)艦(jian)版(ban)235B模型(xing)(xing),計算效率大(da)增,訓練(lian)成本降超90%。
每經(jing)記者|葉曉丹 每經(jing)編(bian)輯|張益銘
每經杭州9月12日電(記者葉曉丹)9月12日,阿里通義發布下一代基礎模型架構Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展(Scaling)的未來趨勢而設計,采用全新的高稀疏MoE架構,并對經典Transformer核心組件進行了重構,創新采(cai)用線性注意(yi)力(li)和自(zi)研門控注意(yi)力(li)結合(he)的混(hun)合(he)注意(yi)力(li)機(ji)制,實現了模型訓練和推理的雙(shuang)重性價(jia)比突破(po)。
基于(yu)這(zhe)一新架構,阿里(li)通義“打樣”了Qwen3-Next-80B-A3B系列模(mo)型,開(kai)源(yuan)指令(Instruct)和推理(Thinking)兩大模(mo)型版(ban)本(ben)(ben)。新模(mo)型總參數80B僅激(ji)活3B,性能(neng)可媲美千問3旗(qi)艦版(ban)235B模(mo)型,模(mo)型計(ji)算效率(lv)大幅提升。Qwen3-Next訓練成(cheng)本(ben)(ben)較密集模(mo)型Qwen3-32B大降超90%,長文(wen)(wen)本(ben)(ben)推理吞吐量(liang)提升10倍以上,并可支持百萬(wan)Tokens(文(wen)(wen)本(ben)(ben)處理的最小單位(wei)?)超長上下文(wen)(wen)。
封(feng)面圖片來源:圖片來源:視覺中國-VCG211478193393
如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新聞》報社授權,嚴禁(jin)轉載或鏡像,違者(zhe)必究。
讀(du)者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您(nin)不(bu)希(xi)望作品(pin)出現在本站,可聯(lian)系我(wo)們(men)要求撤下(xia)您(nin)的作品(pin)。
歡迎(ying)關注每(mei)日(ri)經濟新聞APP