每日(ri)經濟(ji)新聞 2025-03-28 20:37:52
每經(jing)記者|葉(xie)曉(xiao)丹(dan) 每經(jing)編(bian)輯|陳(chen)俊(jun)杰
近(jin)日,來(lai)自杭(hang)州(zhou)的三家科(ke)技公(gong)司發布的大模(mo)型拿下全球最大AI開源(yuan)社區HuggingFace趨勢榜前三。
這三(san)款模型分(fen)別是DeepSeek-v3、群核(he)科技SpatialLM、通(tong)義千問Qwen2.5-Omni。
《每日經濟新(xin)聞》記者從(cong)阿里云(yun)方面了(le)解到,Qwen2.5-Omni采用了(le)通義團隊全新(xin)首創(chuang)的Thinker-Talker雙核(he)架構,Position Embedding (位置嵌入)融合音視頻技術,位置編碼算法(fa)TMRoPE(Time-aligned Multimodal RoPE)。
雙核(he)架(jia)構Thinker-Talker讓Qwen2.5-Omni擁有了人(ren)類的“大腦”和“發聲器”,形(xing)成(cheng)了端到端的統(tong)一模型架(jia)構,實現了實時語義理(li)解(jie)與語音(yin)生成(cheng)的高(gao)效協同。
3月27日凌晨,阿里巴巴發布并開源首個端(duan)到端(duan)全模態大模型(xing)通義千問Qwen2.5-Omni-7B,可(ke)同時處理文本、圖像、音(yin)頻(pin)和視(shi)頻(pin)等多種輸入,并實時生成文本與(yu)自然語音(yin)合成輸出。
相較于動輒(zhe)數(shu)千(qian)億(yi)參數(shu)的閉(bi)源大(da)模型(xing)(xing),Qwen2.5-Omni以7B的小(xiao)尺寸讓全模態(tai)大(da)模型(xing)(xing)在產(chan)業上的廣泛應(ying)用成為可(ke)能(neng)。即(ji)便在手機上,也能(neng)輕(qing)松部署和應(ying)用Qwen2.5-Omni模型(xing)(xing)。
而近(jin)期(qi)群核科技發布(bu)的空(kong)間理解開源模(mo)型(xing)SpatialLM,登上全(quan)球最大AI開源社(she)區HuggingFace趨勢榜第二位。
公開(kai)資料顯示,SpatialLM是群核科技自(zi)主(zhu)研發的一款(kuan)空(kong)間(jian)理解模型(xing),該(gai)模型(xing)僅通過一段視頻即可生成物(wu)理正確的3D場景布局。不同于傳統大語(yu)言(yan)模型(xing),SpatialLM突破了(le)對物(wu)理世界(jie)幾何與空(kong)間(jian)關系的理解局限,將在機器類人的空(kong)間(jian)認知(zhi)和解析能力(li)上(shang)發揮重(zhong)大作用。
而據《每日經濟新聞(wen)》此前報(bao)道,3月24日,DeepSeek發布了(le)V3的一個小(xiao)版(ban)本更(geng)新,版(ban)本號為V3-0324。雖然官方稱這只是“小(xiao)版(ban)本升級”,但實測能力接近V3.5版(ban)本,尤其在復雜邏(luo)輯和多模(mo)態理解上(shang)表現突出(chu)。
如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新聞》報社授權,嚴禁(jin)轉載或(huo)鏡像(xiang),違者必究(jiu)。
讀者熱線(xian):4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您(nin)不希望作(zuo)品出現在本站,可聯系我(wo)們(men)要求撤下您(nin)的(de)作(zuo)品。
歡迎關(guan)注每日經濟新聞APP