日前,以“智躍無界,開源致遠”為主題的操作系統大會2025(以下簡稱“大會”)在北京中關村國際創新中心成功舉辦。大會由開放原子開源歐拉(OpenAtom openEuler,簡稱“開源歐拉”或“openEuler”)社區協同數十家產業伙伴共同舉辦。
百度智能云分享了在操作系統和智算領域的挑戰與實踐,介紹了基于全國產算力構建的3.2萬卡超大規模智算集群,并系統性展示了支撐這一集群的智能化操作系統——BaiduLinux Cloud OS的重要作用。?
百度智能云AI基礎設施新突破,百度Linux構筑智算新基石
今年4月,百度正式點亮了采用全國產算力構建的3.2萬卡超大規模智算集群,實現了核心技術的自主創新。該集群可提供超萬P算力,在萬卡有效訓練時間以及能效等方面均達到領先水平,建成后運行穩定,獲得了唯一的萬卡規模智算集群服務穩定性五星級認證。
BaiduLinux Cloud OS作為上述智算底座的重要組件,為整個集群提供穩定、高效的運行時環境,支撐從機房建設到算力調度的全生命周期服務。百度Linux服務器操作系統5.0基于openEuler 24.03構建,深度融合百度自研技術,具備優秀跨架構兼容性,支持Intel、AMD、海光、鯤鵬等主流硬件平臺。系統針對云原生混部場景優化了CPU調度與內存回收機制,提升資源利用率并抑制性能抖動,保障業務穩定運行。通過構建內核與應用一體化的內生安全體系,實現全棧國密、身份認證與訪問控制,全面抵御外部威脅,為企業應用提供穩定、安全、高效的操作環境。

架構創新驅動性能突破
面對算力規模持續擴張的挑戰,百度在架構層面實現雙向突破:
? 在橫向擴展(Scale Out)領域,創新推出跨園區RDMA長傳方案,實現150公里無損傳輸,將大模型訓練損耗嚴格控制在3%以內。通過路由聚合與多平面組網等前沿技術,構建了支持十萬卡規模的高性能集群架構。
? 在縱向擴展(Scale Up)方向,推出多款超節點產品,顯著提升卡間互聯帶寬與性能。其中,單個超節點即可獨立完成萬億參數模型訓練。依托與openEuler的深度協作,BaiduLinux Cloud OS通過統一內存管理、異構調度框架等核心技術,實現數據零拷貝流動,將分布式硬件集群融為統一的超級計算機。
全鏈路優化釋放算力潛能
百度通過全鏈路優化與智能運維的雙輪驅動,確保算力資源高效轉化為AI生產力:
? 在基礎設施層,BaiduLinux Cloud OS憑借異構算力協同技術,實現單機推理性能倍增;在資源管理層,基于云原生底座與智能調度優化,達成毫秒級操作響應;在AI任務層,通過模型結構與推理引擎的協同優化,全面提升單卡吞吐性能。
? 基于與openEuler共建的一站式運維平臺,實現了跨層數據的統一采集與智能分析,能夠自動定位95%以上的慢節點問題,將性能問題定位時間縮短至小時級,并通過全景可視化界面助力運維團隊實時掌握集群狀態。
異構機密計算筑牢安全屏障
百度通過BaiduLinux Cloud OS與openEuler的深度融合,打造了“高安全、高易用、低開銷”的異構機密計算解決方案。該方案采用硬件級隔離與內存加密技術,確保數據在計算全生命周期的安全;原生支持機密虛擬機,顯著降低遷移成本;創新性“機密直通”技術實現虛擬機直接訪問加速卡,在保障安全性的同時保持卓越性能。
百度智能云的這一系列技術突破,充分展現了國產算力基礎設施的建設成果,為各行業的智能化轉型提供了堅實可靠的技術底座。?
深化開源合作,共創智能未來
百度與openEuler社區的合作始于2021年,雙方攜手發布并持續演進BaiduLinux智能云操作系統,現已升級為智算原生底座BaiduLinux Cloud OS。該系統全面支撐千帆大模型平臺與百舸異構智算平臺,已在多場景規模部署超2萬套,展現出卓越的穩定性和兼容性。

展望未來,百度將持續深化與openEule的合作,重點推進三大方向:聯合發布業界首個ARM CCA機密計算解決方案,推動技術從通用計算邁向智能計算;作為異構融合產學研聯盟首批成員,共建行業軟件標準;積極參與AI工作組,打造智能化平臺生態。
在技術聯創層面,百度將聚焦超節點OS核心技術攻關、操作系統智能化升級及全棧安全方案構建,致力于打造操作系統領域旗艦產品,為國產算力基礎設施建設注入新動能。
關鍵詞: