【無算力,不模型 】雷峰網(wǎng)對話北京平博pinnacle体育官网計算中心CTO甄亞楠
導(dǎo)語:國內(nèi)180 余家大模型企業(yè)的共同訴求
「現(xiàn)在是不是很多人打電話要卡?」
「這段時間確實是。」
2023 年 8 月,在青島 2023 年CCF全國高性能計算學(xué)術(shù)年會(CCF HPC China 2023)的現(xiàn)場,筆者見到了北京平博pinnacle体育官网計算中心CTO甄亞楠。
算力、算法、數(shù)據(jù)被稱為大模型時代的三駕馬車。業(yè)界多宣傳算法先進性,但算力其實是各家的大后方重要據(jù)點,很少有企業(yè)愿意將自己有多少張卡開誠布公地講出來。提及這個問題時,甄亞楠很淡定。毫不掩飾北京平博pinnacle体育官网計算中心的實力與資源。
「數(shù)據(jù)顯示中國現(xiàn)在有 79 家大模型公司,實際我們接觸過程中,這個數(shù)字高達 180+。」
2011年11月1日正式奠基的北京平博pinnacle体育官网計算中心(以下簡稱北京超算)一開始就贏在了起跑線上,背后超強的CPU及GPU資源,在大模型時代顯得尤為矚目。
ChatGPT的火爆使得各大廠商對于高端算力資源的需求愈發(fā)旺盛,形成了需求與供給間的巨大鴻溝。這對于北京超算而言,既是機遇,又意味著巨大的挑戰(zhàn)。在交流的過程中,甄亞楠也為展示了他對于這一浪潮的深度思考。
據(jù)OpenAI報告,訓(xùn)練一次 1746 億參數(shù)的 GPT-3模型需要的算力約為 3640 PFlop/s-day。即假如每秒計算一千萬億次, 也需要計算 3640 天,此外目前大模型訓(xùn)練所需算力的增速保持在3-4個月/倍速度增長,遠超摩爾定律 18-24個月/倍,如此大規(guī)模的算力需求,GPU一卡難求成為行業(yè)共識。
但與大眾所認知的不一樣,AI所需要的算力與傳統(tǒng)超算其實還存在著略微的差異。在傳統(tǒng)的超算領(lǐng)域里邊,算力主要依托于CPU,然后以及內(nèi)存來幫用戶去解決科學(xué)計算的問題。但是在人工智能領(lǐng)域里邊, 我們常常聽到的都是GPU。這其實與GPU的獨特性能有關(guān)。而人工智能和機器學(xué)習(xí)最流行的算法即為深度神經(jīng)網(wǎng)絡(luò)計算,其核心為超大規(guī)模矩陣計算,在這方面,GPU在矩陣計算方面十分出色,所以GPU之于AI可謂是相當(dāng)契合。
「我們也是關(guān)注到了這一點,并且業(yè)內(nèi)目前有非常多的科學(xué)計算的程序以及人工智能相關(guān)的一些框架,都可以支持GPU的計算加速,這樣的話也可以有效得到計算結(jié)果的產(chǎn)出?!拐鐏嗛硎尽?/span>
從甄亞楠的回答中,我們也能間接得出北京超算能獲得眾多用戶青睞的原因,一方面是北京超算對于模型算力底座的持續(xù)搭建,另一方面也來自于其不斷創(chuàng)新的商業(yè)模式,北京超算對算力進行租賃,用戶只需要支付實際使用所需的計算量與計算時間,大幅度降低運營成本,成為大模型時代絕佳的算力支持。
談到大模型的未來,甄亞楠表示,未來具有太多不確定性,但不管怎樣,百模大戰(zhàn)之下的算力需求已成肉眼可見的行業(yè)趨勢,北京超算對未來的規(guī)劃也十分清楚明晰。目前除了北京以外,北京超算已經(jīng)在內(nèi)蒙古、寧夏等地建設(shè)了大型算力中心,未來也有規(guī)劃繼續(xù)去擴容算力中心的地域以及規(guī)模。在面向于用戶應(yīng)用場景,采用了按需建設(shè)的一個算力資源建設(shè)模式,根據(jù)用戶的實際業(yè)務(wù)需求來去建設(shè)匹配用戶業(yè)務(wù)的算力資源。
1、大模型時代下的算力「饑渴」
雷峰網(wǎng):大模型熱潮對于算力資源帶來了哪樣的機遇與挑戰(zhàn)?北京超算在這方面有哪些布局?
甄亞楠:大模型訓(xùn)練對于今年的算力來講是一個非常大的機遇,同時也伴隨著相應(yīng)的挑戰(zhàn)。機遇主要體現(xiàn)在大模型算力需求量屬于爆發(fā)式增長。對于算力中心來講,需要有非常龐大的計算能力來去進行有效支撐。但是,現(xiàn)在從大模型算力的供給量而言,我們現(xiàn)在還是受到了一些瓶頸上的制約,所以我們一方面在積極尋找優(yōu)質(zhì)的加速卡資源,來保障用戶在大模型計算過程中有效的、短期的算力資源。另一方面我們擁有強大的算力服務(wù)能力,持續(xù)性輸出給大模型客戶,比如算力資源建設(shè)能力、后方保障能力等。
同時,面向于大規(guī)模計算的業(yè)務(wù)場景,未來是否有持續(xù)性的算力需求,我們也正在持續(xù)的觀察中。我們希望能夠和大模型的算力合作伙伴保持長期的穩(wěn)定的合作關(guān)系,為未來的算力發(fā)展以及算力規(guī)劃,去提供有效數(shù)據(jù),從而更有效地服務(wù)于業(yè)務(wù)場景。
雷峰網(wǎng)(公眾號:雷峰網(wǎng)):北京超算構(gòu)建超算架構(gòu)模式,最開始布局是起源于什么時候,是基于哪樣的初衷與考慮呢?
甄亞楠:北京平博pinnacle体育官网計算中心成立于2011年,自成立之初一直都在做超算相關(guān)的一些業(yè)務(wù),也就是采用通用算力來去解決科學(xué)計算和工程計算中所遇到的一些計算密集型的問題。
我們從2019年開始布局AI算力,也就是通過GPU以及其他的加速卡,來給客戶提供算力上的一些服務(wù)和支撐。通過算力服務(wù)來保證用戶在人工智能的場景里邊可以得到有效的支撐。
在服務(wù)的過程中,我們其實也看到了在傳統(tǒng)的深度學(xué)習(xí)以及大模型領(lǐng)域,用戶對于算力資源的需求量比較豐富,我們希望能夠在多場景的情況下,比如說在自然語言處理、聲音識別、自動駕駛等多個場景里邊給客戶去提供支撐服務(wù)。
到目前為止,從產(chǎn)品的角度來講,北京超算已經(jīng)形成了基于超算架構(gòu)的算力資源,以及基于云主機的算力資源,既可以滿足用戶在大規(guī)模并行計算上邊的算力需求,也可以滿足用戶在傳統(tǒng)科研、教育過程中所需的算力需求。在平臺上,我們會集成用戶所常用的一些深度學(xué)習(xí)框架或者是一些開源的數(shù)據(jù)集,可以保證用戶在使用過程中得到一個高效穩(wěn)定的環(huán)境。
雷峰網(wǎng):以超級計算機為代表的超算架構(gòu)能力能夠提升大模型訓(xùn)練的效果、收斂以及預(yù)測的精準度。北京超算是如何做到這一點的?
甄亞楠:目前在大模型的業(yè)務(wù)場景里邊,參數(shù)量的增長速度比較大,參數(shù)增長量和整個計算量基本上是成正比的關(guān)系。用戶對于計算量和精度的高要求,離不開算力的支撐。我們會通過增加GPU算力資源,同時通過對用戶場景的應(yīng)用性能分析,綜合判斷客戶在計算過程中究竟需要怎樣的算力資源。首先我們要保證給客戶去提供穩(wěn)定可靠的算力資源,保證這些算力在用戶環(huán)境上是可用的;同時,我們還需要針對用戶的業(yè)務(wù)場景去提供多種多樣的算力服務(wù),既包括了我們整個系統(tǒng)級服務(wù),平臺級服務(wù);針對于各種實際場景,我們也可以去提供深入針對代碼級的優(yōu)化服務(wù),從而提供非常好用的算力環(huán)境;我們也將持續(xù)去優(yōu)化算力成本,以及平臺的計算時長,保障用戶的降本增效。
2、行業(yè)變革下的應(yīng)對與思考
雷峰網(wǎng):超級計算機通常使用的是高性能的CPU和大量的RIM,而AI計算通常是更加依賴于GPU和其他的專門的硬件,對于傳統(tǒng)超算的與AI運算所需要的硬件之間的差異與融合,您是如何看待的?
甄亞楠:在傳統(tǒng)的超算領(lǐng)域里邊,我們主要依托于CPU以及內(nèi)存來幫用戶去解決科學(xué)計算的問題。但是在人工智能領(lǐng)域里邊,GPU在矩陣計算方面具有獨特優(yōu)勢,所以在GPU以及顯存方面,我們可以給用戶帶來非常高的性能上的提升。在人工智能以及部分的科學(xué)計算場景里邊,目前都已經(jīng)采用了GPU加速卡來作為計算加速的有效部件,那么我們也是關(guān)注到了這一點,目前業(yè)內(nèi)有非常多的科學(xué)計算的程序以及人工智能相關(guān)的框架,都可以支持GPU的計算加速,有效促進計算結(jié)果的產(chǎn)出。
雷峰網(wǎng):超算對應(yīng)的數(shù)據(jù)存儲量和存儲種類都在快速增加,北京超算的超算架構(gòu)模式整合了國內(nèi)各大中心的算力資源,在數(shù)據(jù)存儲方面是否有針對性的一個優(yōu)化計劃?
甄亞楠:在存儲方面,無論是科學(xué)計算還是人工智能計算都面臨著以下幾方面的需求與挑戰(zhàn):
一方面是存儲容量的增加,隨著大模型相關(guān)的業(yè)務(wù)的開展,用戶對于存儲容量的需求相對來說還是比較大的。
另一方面,大模型對于存儲IO性能的要求在逐漸提高,在計算過程中伴隨著大量的數(shù)據(jù)的讀取,我們?nèi)绾稳ヌ峁└咝У臄?shù)據(jù)存儲空間,能夠既可以滿足用戶容量的需求,又可以滿足用戶讀寫上的需求,這個是用戶非常關(guān)心的一個點。
此外,對于整個存儲服務(wù)領(lǐng)域,我們能不能提供有效的存儲解決方案,既可以保證用戶數(shù)據(jù)的安全性,又可以讓用戶輕松的在云端完成自己數(shù)據(jù)的管理。
北京超算提供了多種的存儲解決方案,一方面我們可以提供基于SSD的存儲空間,保障了用戶的數(shù)據(jù)存儲變得高效;同時我們也可以提供基于PB級的大容量的存儲空間,可以存儲用戶更多的數(shù)據(jù);針對于企業(yè)級客戶,或者是針對于私有數(shù)據(jù)的客戶群體,北京超算也可以提供獨立的存儲空間來保障用戶的數(shù)據(jù),使客戶得到有效安全的存儲;同時我們也提供分布式文件系統(tǒng),來保證用戶數(shù)據(jù)業(yè)務(wù)的安全性和穩(wěn)定性。
雷峰網(wǎng):在處理人工智能大規(guī)模訓(xùn)練的時候,與普通的計算方式相比,異構(gòu)計算和大規(guī)模并行計算有哪些顯著優(yōu)勢?
甄亞楠:異構(gòu)計算目前主要是指采用CPU+加速卡的模式來給用戶去提供對應(yīng)的算力服務(wù)。這塊主要是基于應(yīng)用場景來開展,我們一般去處理這種場景的話,都是從用戶的應(yīng)用程序來出發(fā),如果用戶的應(yīng)用程序只支持傳統(tǒng)的CPU計算,那么它的業(yè)務(wù)場景基本上都維持在CPU計算的場景里邊。但是現(xiàn)在我們很高興地看到不管是常用的計算軟件還是針對性的國產(chǎn)計算軟件,基本上都支持了CPU+加速卡的異構(gòu)計算模式。我們也相信未來會有更多的計算軟件加入到異構(gòu)計算的這個場景里面去。
北京平博pinnacle体育官网計算中心,現(xiàn)在也在積極地部署異構(gòu)算力資源,通過多種資源的多元化來保證用戶不同業(yè)務(wù)場景的有效服務(wù)。
3、暗礁之上,持續(xù)突圍
雷峰網(wǎng):收集、策劃和清洗數(shù)據(jù)是模型生產(chǎn)中非常大的一個挑戰(zhàn),超算架構(gòu)模式能否在一定程度上解決這個問題?
甄亞楠:數(shù)據(jù)的清洗和處理是整個人工智能在發(fā)展過程中“三駕馬車”里面非常重要的一方面。整個大模型計算的過程中,北京平博pinnacle体育官网計算中心可以為用戶提供非常穩(wěn)定的大規(guī)模算力資源,同時也可以給用戶去提供高效的數(shù)據(jù)處理空間。用戶在進行數(shù)據(jù)處理的過程中,一般是基于自有的算力環(huán)境來解決的,主要進行數(shù)據(jù)的標注和處理。但是一旦到了大量計算,就需要把用戶的數(shù)據(jù)遷移到北京平博pinnacle体育官网計算中心的算力資源上,來進行大規(guī)模的并行計算。所以綜合而言,超算架構(gòu)模式能在一定程度上幫助用戶解決數(shù)據(jù)清洗的問題。
雷峰網(wǎng):AI進入了產(chǎn)業(yè)周期,大家對于AI基礎(chǔ)設(shè)施的關(guān)注度越來越高,對于業(yè)界常說的“端、邊、云”全場景AI基礎(chǔ)設(shè)施,您如何看待?
甄亞楠:AI業(yè)務(wù)的上下游產(chǎn)業(yè)鏈相對來說比較長,算力其實有多元化的不同種類。北京平博pinnacle体育官网計算中心所提供的算力資源,主要是給用戶去解決離線業(yè)務(wù)的大規(guī)模并行計算,而對于相關(guān)軟件算法的初創(chuàng)期,如果有大量的模型求解任務(wù)需要進行現(xiàn)實環(huán)境下的大規(guī)模計算,這種場景更適合于放在超算中心來完成。
針對于部分用戶在實際投入生產(chǎn)的業(yè)務(wù)來講,這些業(yè)務(wù)的話可以通過“云、邊、端”聯(lián)動的方式,來得到有效的支撐。
雷峰網(wǎng):在超算體系中,芯片操作系統(tǒng)以及各種應(yīng)用等方面的國產(chǎn)化趨勢越來越明顯,您如何看待國產(chǎn)化趨勢?國產(chǎn)化過程中是否有存在一些困難與挑戰(zhàn)?是如何克服的?
甄亞楠:我們非常關(guān)注芯片、軟件以及服務(wù)生態(tài)國產(chǎn)化方面的相關(guān)進展。同時,在服務(wù)用戶的過程中也發(fā)現(xiàn)了相關(guān)需求,比如說相較于通用算力,用戶在使用國產(chǎn)算力上時,是不是會有性能上的差異,以及國產(chǎn)工業(yè)軟件的功能以及精度,是不是與國外軟件會有一定的差異性。用戶在使用過程中也非常關(guān)注這些軟件如何高速有效的移植到國產(chǎn)芯片上,以及移植完成以后是不是可以達到類似于通用芯片的計算性能與效果。所以在這一方面,北京平博pinnacle体育官网計算中心希望和國內(nèi)的芯片廠商以及軟件的研發(fā)單位,共同打造我們的國產(chǎn)生態(tài)。
同時,我們也希望能夠通過北京超算的算力服務(wù)平臺,將更多優(yōu)質(zhì)的國產(chǎn)芯片和國產(chǎn)工業(yè)軟件提供給用戶來進行使用。
雷峰網(wǎng):未來,北京超算還有哪些規(guī)劃與布局呢?
甄亞楠:算力資源方面,目前除了北京以外,我們已經(jīng)在內(nèi)蒙古、寧夏等地建設(shè)了大型的算力中心,同時也有規(guī)劃繼續(xù)去擴容算力中心地域以及算力中心的規(guī)模。
同時,在應(yīng)用場景方面,我們采用了按需建設(shè)的算力資源建設(shè)模式,根據(jù)用戶的實際業(yè)務(wù)需求來去建設(shè)匹配用戶業(yè)務(wù)的算力資源。這樣可以使用戶業(yè)務(wù)得到有效的適應(yīng),來提升用戶業(yè)務(wù)的性能。
從整個產(chǎn)品規(guī)劃的角度而言,北京超算目前已經(jīng)形成了4大產(chǎn)品線,基于超算云和智算云分別去提供 CPU以及GPU相關(guān)的算力資源,同時也衍生出了“行業(yè)云”的解決方案??梢栽诠I(yè)仿真、氣象海洋、生命科學(xué)等領(lǐng)域為用戶提供非常強的行業(yè)解決方案,保證用戶可以在特殊的行業(yè)場景里邊能夠?qū)I(yè)務(wù)和算力進行有效的結(jié)合。
同時我們也提供「設(shè)計仿真云」,可以面向于CAD場景,給用戶去提供非常有效的設(shè)計環(huán)境。
基于北京超算十余載的服務(wù)經(jīng)驗,如今,我們也逐漸在將強大的運營能力進行有效輸出,幫助相關(guān)的政府/企業(yè)建設(shè)算力中心,同時提供有效的運營服務(wù),來幫助他們?nèi)ヌ嵘麄€平臺的運營效率和運營效果。