2025-10-19 15:01:20
阿里云計算池化方案“Aegaeon”入選頂級學術會議SOSP 2025,解決GPU資源浪費問題,提升利用率,核心技術已應用于百煉平臺。在測試中,該系統削減GPU用量82%,降低硬件成本。Aegaeon支持單GPU服務多模型,提升吞吐量。阿里云CEO吳泳銘宣布將推進AI基建,升級全棧AI體系,打造全棧人工智能服務商,迎接超級人工智能時代到來。
每經編輯|畢陸名
近日,阿里云提出的計算池化解決方案“Aegaeon”成功入選頂級學術會議SOSP 2025,該方案可解決AI模型服務中普遍存在的GPU資源浪費問題,大幅提升GPU資源利用率,目前其核心技術已應用在阿里云百煉平臺。
SOSP(操作系統原理研討會)由ACM SIGOPS主辦,是計算機系統領域頂級學術會議,平均每年收錄的論文數量僅有數十篇,被譽為計算機操作系統界的“奧斯卡”,入選論文代表了操作系統和軟件領域最具代表的研究成果。本屆SOSP大會上,系統軟件與AI大模型技術的融合成為新的趨勢。
數據顯示,在阿里云模型市場為期超三個月的Beta測試中,Aegaeon系統在服務數十個參數量高達720億的大模型時,所需的英偉達H20 GPU數量從1192個減至213個,削減比例高達82%(見下圖)。GPU用量削減82%意味著公司硬件采購成本將顯著降低,這對于動輒使用成千上萬張GPU的大型模型服務商至關重要。
在真實的模型服務場景中,少數熱門模型(如阿里的Qwen)承載了絕大多數用戶請求,而大量不常被調用的“長尾”模型卻各自獨占著GPU資源。數據顯示,在阿里云模型市場中,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置嚴重。
而Aegaeon系統通過GPU資源池化,打破了“一個模型綁定一個GPU”的低效模式。
Token級調度是該系統的核心創新點,Aegaeon多模型混合服務系統在每次生成下一個token后動態決定是否切換模型,實現精細化管理,同時,通過組件復用、顯存精細化管理和KV緩存同步優化等全棧技術,Aegaeon將模型切換開銷降低97%,確保了token級調度的實時性,可支持亞秒級的模型切換響應。
據介紹,Aegaeon系統支持單GPU同時服務多達7個不同模型,相比現有主流方案提升1.5-9倍的有效吞吐量,實現2-2.5倍的請求處理能力。
如何從底層系統軟件層面優化,以更好地支撐和賦能上層AI應用,已成為全球學術界和工業界關注的焦點。未來AI的發展將不僅依賴于硬件算力的單純增長,更需要通過系統級的軟件創新來深度挖掘現有硬件的潛力。
9月24日,在2025云棲大會上,阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘明確闡述了AI時代下阿里云的核心戰略。
他表示大模型是下一代操作系統,而AI云是下一代計算機。“大模型將取代傳統OS,成為連接用戶、軟件與AI計算資源的中間層。”
他宣布,公司正積極推進3800億元的AI基礎設施建設,并計劃追加更大投入。到2032年,阿里云全球數據中心的能耗規模將比2022年提升10倍。
這一目標預示著阿里云算力投入將指數級增長,為迎接超級人工智能(ASI)時代做準備。此前公布的2025財年第二季度財報顯示,阿里云智能集團收入同比增長26%,創下近三年最高增速。公司整體凈利潤同比增長76%,表明AI投入已開始產生實效。
吳泳銘在演講中表示,通用人工智能(AGI)已是確定性事件,但這只是起點,終極目標是發展出能自我迭代、全面超越人類的超級人工智能(ASI)。
“AI時代,大模型將是下一代操作系統,超級AI云是下一代計算機。”吳泳銘說,超級AI云需要超大規模的基礎設施和全棧的技術積累,未來,全世界可能只會有5—6個超級云計算平臺。阿里云將持續加大投入,迎接超級人工智能時代到來。
吳泳銘宣布阿里云重磅升級全棧AI體系,實現從AI大模型到AI基礎設施的技術更新。阿里云將全力打造成為全棧人工智能服務商。
為了迎接ASI時代的到來,對比2022年,2032年阿里云全球數據中心的能耗規模將提升10倍。這意味著阿里云算力投入將指數級提升。
當下,在AI基礎設施上,阿里云圍繞AI進行了軟硬全棧的協同優化和系統創新,已初步形成以通義為核心的操作系統和以AI云為核心的下一代計算機。過去一年,阿里云AI算力增長超5倍,AI存力增長4倍多。
每日經濟新聞綜合公開信息
封面圖片來源:視覺中國
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP