北京超算參建北京算力互聯互通平臺,瞄準算力資源利用最大化
“盡管 AI 算力資源需求增長迅猛,但算力利用率存在波峰波谷,算力資源的利用并非始終處于滿負荷狀態。”北京超級云計算中心運營實體北京北龍超級云計算有限責任公司 CTO 甄亞楠一語道出了算力產業發展的關鍵痛點。
為解決算力“供不上、用不起”的困境,在工業和信息化部指導下,由北京市通信管理局與北京市經濟和信息化局聯合部署,工業和信息化部北京互聯網交換中心和北方算網聯建全國首個互聯互通平臺。在2024全球數字經濟大會期間,北京算力互聯互通和運行服務平臺戰略合作簽約儀式舉行,北京超算作為作為參建與接入服務商受邀參加儀式。這標志著北京市在算力互聯互通和運行服務領域邁出了堅實的一步,也進一步彰顯了北京超算在算力服務方面的實力。未來,北京超算將配合算力互聯互通和運行服務平臺完成對接聯調等平臺建設工作。
算力資源利用率如何最大化
大模型訓練作為典型的大規模超算應用,具有異構計算、大規模并行計算等典型超算應用特征,在當下大模型訓練算力需求爆發的時代,如何實現算力資源的最大化利用,成為關鍵問題。
從大模型算力供給來看,存在建設經費投入大、高端算力資源供貨周期不可控、客戶業務規劃預期難以把握等制約因素。在甄亞楠看來,對于大模型而言,基座大模型企業對算力資源總量要求頗高,5000 卡規模的算力集群需求常見,國內能滿足的算力中心較少;而行業或垂類大模型基于基座或開源模型微調,算力需求相對較小,國內許多算力服務單位能夠滿足。
為了讓算力資源利用率實現最大化,北京超算采用超算架構模式構建智算資源,將分布在國內的各大算力中心的資源加以整合,并利用成熟的算力網絡進行調度,以滿足大規模訓練所需的海量算力需求。例如,在與某科研機構的合作中,通過整合資源,成功將大模型訓練時間從原本的數月縮短至數周,切實的幫助用戶降本增效。
甄亞楠介紹,北京超算推出了按需構建算力資源的創新模式,通過算力租賃,讓用戶依據業務需求獲取彈性的計算資源,實現大規模的計算任務。用戶只需支付實際使用所需的計算量與計算時間,大幅降低運營成本,適用于各種大規模計算需求的場景。此外,還能夠在用戶業務運行中提升利用效率,比如某用戶優化前利用率為 75%,優化后可達 97%,在綜合成本不變的情況下充分發揮機器性能。
值得一提的是,在2024全球數字經濟大會人工智能專題論壇上,“2024人工智能大模型場景應用典型案例”正式發布,北京超算與中科聞歌合作推出的“雅意·智學大模型賦能教育領域應用實踐”成功入選。
此外,北京超算已與北京智源人工智能研究院、智譜 AI、瀾舟科技、中科聞歌、深勢科技、智子引擎、中科紫東太初等單位形成了算力合作,為國產大模型如智譜 GLM-4、孟子大模型等提供了算力服務支撐,助力訓練優化以及數據分析,為大模型團隊提升效率。
打造高質量、高性價比 算力服務體系
成立于 2011 年的北京超算,起初正如其名,定位以超算為主,服務于氣象模擬、汽車流體力學模擬、材料模擬等科學計算領域,通過數值仿真解決應用問題,并連續四年蟬聯中國 HPC TOP100 排行榜通用 CPU 算力性能(同構眾核 CPU 性能)第一名。
在“東數西算”戰略的推動以及“人工智能+”時代對高質量算力服務的需求下,北京超算從 2019 年開始布局 AI 算力,著力打造高質量、高性價比的算力服務體系。北京超算積極推動“算力市場化”改革,已形成“智算云”“超算云”“行業云”和“設計仿真云”四大公共算力服務體系,實現了跨區域調度、多算力中心的商業化服務能力。
圖 超智融合全景算力服務
從“超算”到“智算” 北京超算是不是“降維打擊”?
甄亞楠表示,超算和智算有很強的相似性,都致力于解決計算密集型問題,且底層都是基于超算架構,在資源池、穩定性和高效性方面有著共性需求。北京超算中心憑借自身的行業背景優勢,通過超算架構結合 GPU 卡服務 AI 計算需求,能夠為用戶帶來顯著的性能提升。
北京超算通過算力預測判斷用戶真正所需的算力資源,基于應用運行特征分析進行算力選型,幫助用戶適配更高性價比的算力資源。那么,如何讓算力更好用?
“我們為用戶提供的并非單一技術、單一資源,而是一套滿足用戶綜合發展需求的行業解決方案。通過 7×24 小時技術專家服務團隊、平臺預置 AI 主流框架、常用數據集等方式,滿足用戶在算力使用中的各種需求。”甄亞楠透露,北京超算具備萬卡集群工程化能力,同時擁有長達十三年的專業服務經驗,有力保障大模型訓練、推理業務的開展,實現算力資源從可用到好用再到降本。