【無算力,不模型 】雷峰網對話北京超級云計算中心CTO甄亞楠
導語:國內180 余家大模型企業的共同訴求
「現在是不是很多人打電話要卡?」
「這段時間確實是。」
2023 年 8 月,在青島 2023 年CCF全國高性能計算學術年會(CCF HPC China 2023)的現場,筆者見到了北京超級云計算中心CTO甄亞楠。
算力、算法、數據被稱為大模型時代的三駕馬車。業界多宣傳算法先進性,但算力其實是各家的大后方重要據點,很少有企業愿意將自己有多少張卡開誠布公地講出來。提及這個問題時,甄亞楠很淡定。毫不掩飾北京超級云計算中心的實力與資源。
「數據顯示中國現在有 79 家大模型公司,實際我們接觸過程中,這個數字高達 180+。」
2011年11月1日正式奠基的北京超級云計算中心(以下簡稱北京超算)一開始就贏在了起跑線上,背后超強的CPU及GPU資源,在大模型時代顯得尤為矚目。
ChatGPT的火爆使得各大廠商對于高端算力資源的需求愈發旺盛,形成了需求與供給間的巨大鴻溝。這對于北京超算而言,既是機遇,又意味著巨大的挑戰。在交流的過程中,甄亞楠也為展示了他對于這一浪潮的深度思考。
據OpenAI報告,訓練一次 1746 億參數的 GPT-3模型需要的算力約為 3640 PFlop/s-day。即假如每秒計算一千萬億次, 也需要計算 3640 天,此外目前大模型訓練所需算力的增速保持在3-4個月/倍速度增長,遠超摩爾定律 18-24個月/倍,如此大規模的算力需求,GPU一卡難求成為行業共識。
但與大眾所認知的不一樣,AI所需要的算力與傳統超算其實還存在著略微的差異。在傳統的超算領域里邊,算力主要依托于CPU,然后以及內存來幫用戶去解決科學計算的問題。但是在人工智能領域里邊, 我們常常聽到的都是GPU。這其實與GPU的獨特性能有關。而人工智能和機器學習最流行的算法即為深度神經網絡計算,其核心為超大規模矩陣計算,在這方面,GPU在矩陣計算方面十分出色,所以GPU之于AI可謂是相當契合。
「我們也是關注到了這一點,并且業內目前有非常多的科學計算的程序以及人工智能相關的一些框架,都可以支持GPU的計算加速,這樣的話也可以有效得到計算結果的產出。」甄亞楠表示。
從甄亞楠的回答中,我們也能間接得出北京超算能獲得眾多用戶青睞的原因,一方面是北京超算對于模型算力底座的持續搭建,另一方面也來自于其不斷創新的商業模式,北京超算對算力進行租賃,用戶只需要支付實際使用所需的計算量與計算時間,大幅度降低運營成本,成為大模型時代絕佳的算力支持。
談到大模型的未來,甄亞楠表示,未來具有太多不確定性,但不管怎樣,百模大戰之下的算力需求已成肉眼可見的行業趨勢,北京超算對未來的規劃也十分清楚明晰。目前除了北京以外,北京超算已經在內蒙古、寧夏等地建設了大型算力中心,未來也有規劃繼續去擴容算力中心的地域以及規模。在面向于用戶應用場景,采用了按需建設的一個算力資源建設模式,根據用戶的實際業務需求來去建設匹配用戶業務的算力資源。
1、大模型時代下的算力「饑渴」
雷峰網:大模型熱潮對于算力資源帶來了哪樣的機遇與挑戰?北京超算在這方面有哪些布局?
甄亞楠:大模型訓練對于今年的算力來講是一個非常大的機遇,同時也伴隨著相應的挑戰。機遇主要體現在大模型算力需求量屬于爆發式增長。對于算力中心來講,需要有非常龐大的計算能力來去進行有效支撐。但是,現在從大模型算力的供給量而言,我們現在還是受到了一些瓶頸上的制約,所以我們一方面在積極尋找優質的加速卡資源,來保障用戶在大模型計算過程中有效的、短期的算力資源。另一方面我們擁有強大的算力服務能力,持續性輸出給大模型客戶,比如算力資源建設能力、后方保障能力等。
同時,面向于大規模計算的業務場景,未來是否有持續性的算力需求,我們也正在持續的觀察中。我們希望能夠和大模型的算力合作伙伴保持長期的穩定的合作關系,為未來的算力發展以及算力規劃,去提供有效數據,從而更有效地服務于業務場景。
雷峰網(公眾號:雷峰網):北京超算構建超算架構模式,最開始布局是起源于什么時候,是基于哪樣的初衷與考慮呢?
甄亞楠:北京超級云計算中心成立于2011年,自成立之初一直都在做超算相關的一些業務,也就是采用通用算力來去解決科學計算和工程計算中所遇到的一些計算密集型的問題。
我們從2019年開始布局AI算力,也就是通過GPU以及其他的加速卡,來給客戶提供算力上的一些服務和支撐。通過算力服務來保證用戶在人工智能的場景里邊可以得到有效的支撐。
在服務的過程中,我們其實也看到了在傳統的深度學習以及大模型領域,用戶對于算力資源的需求量比較豐富,我們希望能夠在多場景的情況下,比如說在自然語言處理、聲音識別、自動駕駛等多個場景里邊給客戶去提供支撐服務。
到目前為止,從產品的角度來講,北京超算已經形成了基于超算架構的算力資源,以及基于云主機的算力資源,既可以滿足用戶在大規模并行計算上邊的算力需求,也可以滿足用戶在傳統科研、教育過程中所需的算力需求。在平臺上,我們會集成用戶所常用的一些深度學習框架或者是一些開源的數據集,可以保證用戶在使用過程中得到一個高效穩定的環境。
雷峰網:以超級計算機為代表的超算架構能力能夠提升大模型訓練的效果、收斂以及預測的精準度。北京超算是如何做到這一點的?
甄亞楠:目前在大模型的業務場景里邊,參數量的增長速度比較大,參數增長量和整個計算量基本上是成正比的關系。用戶對于計算量和精度的高要求,離不開算力的支撐。我們會通過增加GPU算力資源,同時通過對用戶場景的應用性能分析,綜合判斷客戶在計算過程中究竟需要怎樣的算力資源。首先我們要保證給客戶去提供穩定可靠的算力資源,保證這些算力在用戶環境上是可用的;同時,我們還需要針對用戶的業務場景去提供多種多樣的算力服務,既包括了我們整個系統級服務,平臺級服務;針對于各種實際場景,我們也可以去提供深入針對代碼級的優化服務,從而提供非常好用的算力環境;我們也將持續去優化算力成本,以及平臺的計算時長,保障用戶的降本增效。
2、行業變革下的應對與思考
雷峰網:超級計算機通常使用的是高性能的CPU和大量的RIM,而AI計算通常是更加依賴于GPU和其他的專門的硬件,對于傳統超算的與AI運算所需要的硬件之間的差異與融合,您是如何看待的?
甄亞楠:在傳統的超算領域里邊,我們主要依托于CPU以及內存來幫用戶去解決科學計算的問題。但是在人工智能領域里邊,GPU在矩陣計算方面具有獨特優勢,所以在GPU以及顯存方面,我們可以給用戶帶來非常高的性能上的提升。在人工智能以及部分的科學計算場景里邊,目前都已經采用了GPU加速卡來作為計算加速的有效部件,那么我們也是關注到了這一點,目前業內有非常多的科學計算的程序以及人工智能相關的框架,都可以支持GPU的計算加速,有效促進計算結果的產出。
雷峰網:超算對應的數據存儲量和存儲種類都在快速增加,北京超算的超算架構模式整合了國內各大中心的算力資源,在數據存儲方面是否有針對性的一個優化計劃?
甄亞楠:在存儲方面,無論是科學計算還是人工智能計算都面臨著以下幾方面的需求與挑戰:
一方面是存儲容量的增加,隨著大模型相關的業務的開展,用戶對于存儲容量的需求相對來說還是比較大的。
另一方面,大模型對于存儲IO性能的要求在逐漸提高,在計算過程中伴隨著大量的數據的讀取,我們如何去提供高效的數據存儲空間,能夠既可以滿足用戶容量的需求,又可以滿足用戶讀寫上的需求,這個是用戶非常關心的一個點。
此外,對于整個存儲服務領域,我們能不能提供有效的存儲解決方案,既可以保證用戶數據的安全性,又可以讓用戶輕松的在云端完成自己數據的管理。
北京超算提供了多種的存儲解決方案,一方面我們可以提供基于SSD的存儲空間,保障了用戶的數據存儲變得高效;同時我們也可以提供基于PB級的大容量的存儲空間,可以存儲用戶更多的數據;針對于企業級客戶,或者是針對于私有數據的客戶群體,北京超算也可以提供獨立的存儲空間來保障用戶的數據,使客戶得到有效安全的存儲;同時我們也提供分布式文件系統,來保證用戶數據業務的安全性和穩定性。
雷峰網:在處理人工智能大規模訓練的時候,與普通的計算方式相比,異構計算和大規模并行計算有哪些顯著優勢?
甄亞楠:異構計算目前主要是指采用CPU+加速卡的模式來給用戶去提供對應的算力服務。這塊主要是基于應用場景來開展,我們一般去處理這種場景的話,都是從用戶的應用程序來出發,如果用戶的應用程序只支持傳統的CPU計算,那么它的業務場景基本上都維持在CPU計算的場景里邊。但是現在我們很高興地看到不管是常用的計算軟件還是針對性的國產計算軟件,基本上都支持了CPU+加速卡的異構計算模式。我們也相信未來會有更多的計算軟件加入到異構計算的這個場景里面去。
北京超級云計算中心,現在也在積極地部署異構算力資源,通過多種資源的多元化來保證用戶不同業務場景的有效服務。
3、暗礁之上,持續突圍
雷峰網:收集、策劃和清洗數據是模型生產中非常大的一個挑戰,超算架構模式能否在一定程度上解決這個問題?
甄亞楠:數據的清洗和處理是整個人工智能在發展過程中“三駕馬車”里面非常重要的一方面。整個大模型計算的過程中,北京超級云計算中心可以為用戶提供非常穩定的大規模算力資源,同時也可以給用戶去提供高效的數據處理空間。用戶在進行數據處理的過程中,一般是基于自有的算力環境來解決的,主要進行數據的標注和處理。但是一旦到了大量計算,就需要把用戶的數據遷移到北京超級云計算中心的算力資源上,來進行大規模的并行計算。所以綜合而言,超算架構模式能在一定程度上幫助用戶解決數據清洗的問題。
雷峰網:AI進入了產業周期,大家對于AI基礎設施的關注度越來越高,對于業界常說的“端、邊、云”全場景AI基礎設施,您如何看待?
甄亞楠:AI業務的上下游產業鏈相對來說比較長,算力其實有多元化的不同種類。北京超級云計算中心所提供的算力資源,主要是給用戶去解決離線業務的大規模并行計算,而對于相關軟件算法的初創期,如果有大量的模型求解任務需要進行現實環境下的大規模計算,這種場景更適合于放在超算中心來完成。
針對于部分用戶在實際投入生產的業務來講,這些業務的話可以通過“云、邊、端”聯動的方式,來得到有效的支撐。
雷峰網:在超算體系中,芯片操作系統以及各種應用等方面的國產化趨勢越來越明顯,您如何看待國產化趨勢?國產化過程中是否有存在一些困難與挑戰?是如何克服的?
甄亞楠:我們非常關注芯片、軟件以及服務生態國產化方面的相關進展。同時,在服務用戶的過程中也發現了相關需求,比如說相較于通用算力,用戶在使用國產算力上時,是不是會有性能上的差異,以及國產工業軟件的功能以及精度,是不是與國外軟件會有一定的差異性。用戶在使用過程中也非常關注這些軟件如何高速有效的移植到國產芯片上,以及移植完成以后是不是可以達到類似于通用芯片的計算性能與效果。所以在這一方面,北京超級云計算中心希望和國內的芯片廠商以及軟件的研發單位,共同打造我們的國產生態。
同時,我們也希望能夠通過北京超算的算力服務平臺,將更多優質的國產芯片和國產工業軟件提供給用戶來進行使用。
雷峰網:未來,北京超算還有哪些規劃與布局呢?
甄亞楠:算力資源方面,目前除了北京以外,我們已經在內蒙古、寧夏等地建設了大型的算力中心,同時也有規劃繼續去擴容算力中心地域以及算力中心的規模。
同時,在應用場景方面,我們采用了按需建設的算力資源建設模式,根據用戶的實際業務需求來去建設匹配用戶業務的算力資源。這樣可以使用戶業務得到有效的適應,來提升用戶業務的性能。
從整個產品規劃的角度而言,北京超算目前已經形成了4大產品線,基于超算云和智算云分別去提供 CPU以及GPU相關的算力資源,同時也衍生出了“行業云”的解決方案。可以在工業仿真、氣象海洋、生命科學等領域為用戶提供非常強的行業解決方案,保證用戶可以在特殊的行業場景里邊能夠將業務和算力進行有效的結合。
同時我們也提供「設計仿真云」,可以面向于CAD場景,給用戶去提供非常有效的設計環境。
基于北京超算十余載的服務經驗,如今,我們也逐漸在將強大的運營能力進行有效輸出,幫助相關的政府/企業建設算力中心,同時提供有效的運營服務,來幫助他們去提升整個平臺的運營效率和運營效果。