專訪北京超算CTO:利用應用運行特征分析技術,提供高效穩定算力
進入 2024 年,企業客戶對于算力的穩定高效,高性價比有了更多的追求。在此次專訪中,CTO 甄亞楠揭秘了北京超算如何通過超算技術助力百億、千億參數的大模型訓練,利用應用運行特征分析技術,為客戶提供高效、可靠的智算云服務。
9 月 24 日至 26 日,第 20 屆 CCF 全國高性能計算學術年會 (CCF HPC China 2024),暨首個以「算力」為主題的大型國際科技交流盛會 2024 世界算力博覽會(WEC 2024)在武漢市中國光谷科技會展中心盛大舉行。
全球算力領域科研機構與代表企業紛紛參會。北京超級云計算中心(簡稱:北京超算)作為專注于為大模型訓練企業和研究機構提供高性能、高質量、高性價比算力服務的優秀代表,也參與了此次盛會。
在此次盛會上,極客公園專訪了北京超算 CTO 甄亞楠。
甄亞楠在高性能計算領域擁有十余年經驗,參與了多個大型算力中心的建設和產業化推廣項目。
在大模型熱帶來算力荒后,北京超算開始在AI智算云基礎上更大規模擴容智算算力,很快擁有了包括智譜AI、中科聞歌、瀾舟科技、深勢科技、紫東太初等一系列大模型公司在內的模型客戶。
進入 2024 年,企業客戶對于算力的穩定高效,高性價比有了更多的追求。在此次專訪中,CTO 甄亞楠揭秘了北京超算如何通過超算技術助力百億、千億參數的大模型訓練,利用應用運行特征分析技術,為客戶提供高效、可靠的智算云服務。
同時,通過兩年對大模型客戶的服務,北京超算也積累了許多對行業的認知。
以下是訪談實錄,為求精簡做了部分刪減。
轉型智算,靈活提供多種算力形式
問:北京超級云計算中心,成立初期主要以超算服務為主,什么時候開始轉型開始做智算服務?
甄亞楠:北京超級云計算中心從 2011 年成立以來,一直做的是算力服務,這點沒有變化。
在 2019 年之前,我們其實主要是以 CPU 算力服務為主,當時主要還是服務的是科學計算的用戶。
從 2019 年開始我們上線了一系列的 GPU 的加速卡,主要目的是為科研用戶提供計算加速。當時已經有一些傳統科學計算的軟件可以通過 GPU 加速技術來縮短研究的周期。與此同時,我們也意識到深度學習逐漸受到業內的重視,因此我們提供了對應的 GPU 的算力資源。
隨著算力服務方向的變化,算力用戶方面也開始發生一些變化。
傳統的教育和科研用戶仍在增長,自 2023 年以來,大模型企業的算力需求不斷增加,同時北京超算的 GPU 算力資源也在持續擴充。
目前我們的核心業務中,智算客戶已經遠遠的超過了我們的超算客戶的增長數量和增長速度。從未來更長期的的角度可以預見,人工智能算力的需求會持續增長。
問:大模型訓練這塊,客戶群體主要是怎樣的?
甄亞楠:大模型這一塊的話,客戶群體有幾類。
一類是以科研院所為代表的,本身有非常長時間的 AI 方向領域的一個積累。隨著大模型的爆發,歷史上的研究經驗、研究成果,轉到了大模型這一端來。
同時的話我們也看到非常多的初創公司,由于大家都有非常好的 AI 的經驗以及知識體系,初創公司增長非常迅速,也都獲得了資本市場的支持。最后一類就是傳統企業。隨著業務發展的訴求,也非常敏銳地嗅覺到了 AI 模型對于提升企業效率和降低成本上的優勢。
目前為止,基本上科研院所+初創企業+傳統企業,是我們現在主要的大模型算力用戶。
問:不同的客戶群體對于算力的需求是否有所不同?
甄亞楠:科研用戶由于資金和研究方向的限制,單個客戶的算力需求較小,但整體群體規模較大。相反,企業用戶數量較少,但每個企業的算力需求通常達到數百卡甚至上千卡,有時甚至會超過萬卡。
一些垂類大模型的研發,一般需要和企業內部的私有數據來去做結合。所以在研發的初期可能會有公開的數據集,或者是數據相對非敏感的數據,可以在云端去做對應的訓練,還有一些推理業務。
到了成熟期,某些企業會考慮到自己的數據安全隱私的訴求,我們推薦使用兩種方式解決:
一種是在云端去提供一個相對獨立可控的專屬資源池,用戶的數據可以得到完全獨立自主的使用。
另外一類就是對于一些某些敏感單位,需要完全的私有化部署。在這種情況下算力資源需求主要取決于項目、資金和研發進度,采購算力本地使用。
問:北京超算是如何滿足客戶的多樣化算力需求的?
甄亞楠:我們提供的算力資源有幾種形態。
一種叫「裸金屬」,就是物理服務。我們有非常多的物理服務器的資源,基于超算的模式,通過高速互聯網絡把這些機器連接在一起,以提供非常好的并行計算效率。
對于一些業務相對來講比較敏感性或者保密性要求比較高的,用戶可以拿到全部權限,然后在這個基礎上直接部署自己的業務。
另一種是超算集群,就是既提供硬件資源,也搭配了對應的調度系統。對于科研或者是偏初期的研發用戶來講,最終目的其實就是為了將程序跑起來,如何去進行調度的這個事情,用戶其實也不太想去參與。在這種模式下,用戶登錄到平臺,可以很輕松的把自己的任務運行起來,至于這些任務是分配到了哪些加速卡上,用戶不用操心。
最后一種是類似于云計算的虛擬機的場景。對于一些科研用戶,或者是一些算法的初研階段,需求的資源量不是很大,也許單張加速卡或者單臺計算設備就能滿足的計算需求,這種情況下,云計算/云主機的模式就可以很好的解決用戶的需求。
應用運行特征分析:為客戶做體檢,主動提供合適的算力
問:從 2023 年到 2024 年,企業對算力需求的關注是否有變化?
甄亞楠:其實從 2023 年大模型爆發以后,來找我們的這種企業或者是研究機構,以及我們主動發現的客戶還蠻多的。據我們的統計,到 2023 年年底的時候,我們主動接觸過的大模型企業或研究機構差不多將近 200 多家。
當時其實大家討論的主要的問題是,在那個時間節點是否可以提供足量的加速卡來支持企業的項目推進。
近兩年,相同的情況是,大家在市場上都覺得獲取算力資源太難了,在短時間內都希望能夠優先拿到這些算力資源
除了想要獲取算力資源,我也看到了國內的很多的用戶其實在去尋求,通用芯片外的解決方案,比如說國產替代的方案,我們也在幫客戶去做算法移植的事情,協助用戶將已有的模型移植到國產芯片上,以便在緊急時刻提供可用的算力資源。
問:北京超級云計算中心,如何幫助客戶穩定高效和高性價比地獲取算力?
甄亞楠:AI,是一個非常復雜的系統工程。在使用算力的過程中,一般需要企業配制足夠 IT 架構的技術人員去管理和維護算力資源環境,但是,這個過程會占用客戶非常多的時間精力。北京超級云計算中心在提供算力資源的同時,可以提供系統級服務,更好地幫助客戶。
我們在實際的服務經驗過程中,幫客戶去提供非常多平臺級的服務,比如說幫用戶提供鏡像倉庫,幫用戶提供節點實時性能的監測,同時對于一些異常情況,會通過主動報警的方式直接發送到用戶的飛書或者企業微信等辦公軟件。
我們一直提倡要給用戶提供高性能、高質量、高性價比的算力資源。
我們主動提供應用運行特征分析,幫助用戶全面了解 AI 程序在計算全生命周期內的性能特征。基于這些特征,我們能在多種加速卡型號中為用戶優化算力選型,確保用戶在性能需求提升時能夠迅速匹配到最合適的算力資源。這不僅節省了用戶的時間,也有效提升了算力的利用效率,為客戶提供更加穩定、高效的計算體驗。
有點類似于我們先幫人做體檢。體檢完成以后根據各項指標的狀態,我們來推薦未來在業務升級的時候,哪一款算力或者哪一種配置更適合業務場景,從而幫用戶去降低它的成本。
通過建設算力池,解決通用芯片緊缺的問題
問:算力供不應求的時代,我們如何滿足客戶對算力的需求?
甄亞楠:首先我們建設了很多算力資源。
北京超級云計算中心,總部其實是在北京,但是隨著近幾年我們的快速發展,除了北京市以外,在寧夏的中衛,還有內蒙古的和林格爾新區,都部署了全新的算力資源。
北京這邊主要是以超算算力為主,寧夏是超算+智算中心。內蒙古和林格爾新區的算力基地是今年 6 月份剛剛上線的,我們計劃在內蒙放置更多的智算算力,目前已經上線的主要是訓練卡的資源,10 月份也會陸續上線推理資源。
我們一直踐行按需擴容的算力服務模式,當用戶有需求的時候,能很便捷地幫用戶把算力資源建設好,并且供給出去。
其次我們具有跨域的算力調度能力。當用戶的任務出現排隊時,可以自動調度到其他算力中心,計算完成后將結果傳回。
此外,我們進行了多元化的算力資源儲備。這里既包括了通用資源,也包括國產資源。
問:目前看到北京政府這邊,也有建設北京算力互聯互通和運行服務平臺這樣的平臺。北京超級云計算中心在其中扮演怎樣的角色?
甄亞楠:從算力的互聯互通的這個角度來講,一方面我們的算力本身就是一種共享模式,當有需求的時候,我們的算力可以直接共享出來。另外一方面,我們現在已經連接到的國內的算力資源都可以成為北京算力互聯互通里面的子集。北京超算非常愿意在這個基礎之上能夠和更多的合作伙伴一起去服務好整個大市場。
我們也在不斷的進行有效的探討以及互相的學習,看看大家的技術能否形成一些行業規范,以達到共同進步的目的。