男欢女爱销魂蚀骨免费阅读,性欧美丰满熟妇XXXX性久久久,适合单身男人看的影片,www天堂无人区在线观看,悟空影视免费高清

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

阿里開源新架構Qwen3-Next,模型訓練成本降9成,長文本推理吞吐提升10倍

2025-09-12 08:26:38

阿(a)里通(tong)義于(yu)9月12日(ri)發布下一代基礎(chu)模型(xing)(xing)架(jia)構Qwen3-Next。該架(jia)構針對大(da)模型(xing)(xing)未來擴(kuo)展趨勢(shi)設計,采用全新高稀(xi)疏MoE架(jia)構,重(zhong)構Transformer核心組件,實現訓練(lian)和推(tui)理雙重(zhong)性價比突破。基于(yu)新架(jia)構,“打樣”Qwen3-Next-80B-A3B系列模型(xing)(xing),性能媲(pi)美(mei)千問3旗(qi)艦(jian)版(ban)235B模型(xing)(xing),計算效率大(da)增,訓練(lian)成本降超90%。

每經(jing)記者|葉曉丹    每經(jing)編(bian)輯|張益銘    

每經杭州9月12日電(記者葉曉丹)9月12日,阿里通義發布下一代基礎模型架構Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展(Scaling)的未來趨勢而設計,采用全新的高稀疏MoE架構,并對經典Transformer核心組件進行了重構,創新采(cai)用線性注意(yi)力(li)和自(zi)研門控注意(yi)力(li)結合(he)的混(hun)合(he)注意(yi)力(li)機(ji)制,實現了模型訓練和推理的雙(shuang)重性價(jia)比突破(po)。

基于(yu)這(zhe)一新架構,阿里(li)通義“打樣”了Qwen3-Next-80B-A3B系列模(mo)型,開(kai)源(yuan)指令(Instruct)和推理(Thinking)兩大模(mo)型版(ban)本(ben)(ben)。新模(mo)型總參數80B僅激(ji)活3B,性能(neng)可媲美千問3旗(qi)艦版(ban)235B模(mo)型,模(mo)型計(ji)算效率(lv)大幅提升。Qwen3-Next訓練成(cheng)本(ben)(ben)較密集模(mo)型Qwen3-32B大降超90%,長文(wen)(wen)本(ben)(ben)推理吞吐量(liang)提升10倍以上,并可支持百萬(wan)Tokens(文(wen)(wen)本(ben)(ben)處理的最小單位(wei)?)超長上下文(wen)(wen)。

封(feng)面圖片來源:圖片來源:視覺中國-VCG211478193393

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新聞》報社授權,嚴禁(jin)轉載或鏡像,違者(zhe)必究。

讀(du)者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您(nin)不(bu)希(xi)望作品(pin)出現在本站,可聯(lian)系我(wo)們(men)要求撤下(xia)您(nin)的作品(pin)。

歡迎(ying)關注每(mei)日(ri)經濟新聞APP

每經經濟新聞官方APP

0

0