北京超算參建北京算力互聯(lián)互通平臺,瞄準(zhǔn)算力資源利用最大化
“盡管 AI 算力資源需求增長迅猛,但算力利用率存在波峰波谷,算力資源的利用并非始終處于滿負(fù)荷狀態(tài)?!北本?#24179;博pinnacle体育官网計算中心運營實體北京平博pinnacle体育官网計算有限責(zé)任公司 CTO 甄亞楠一語道出了算力產(chǎn)業(yè)發(fā)展的關(guān)鍵痛點。
為解決算力“供不上、用不起”的困境,在工業(yè)和信息化部指導(dǎo)下,由北京市通信管理局與北京市經(jīng)濟(jì)和信息化局聯(lián)合部署,工業(yè)和信息化部北京互聯(lián)網(wǎng)交換中心和北方算網(wǎng)聯(lián)建全國首個互聯(lián)互通平臺。在2024全球數(shù)字經(jīng)濟(jì)大會期間,北京算力互聯(lián)互通和運行服務(wù)平臺戰(zhàn)略合作簽約儀式舉行,北京超算作為作為參建與接入服務(wù)商受邀參加儀式。這標(biāo)志著北京市在算力互聯(lián)互通和運行服務(wù)領(lǐng)域邁出了堅實的一步,也進(jìn)一步彰顯了北京超算在算力服務(wù)方面的實力。未來,北京超算將配合算力互聯(lián)互通和運行服務(wù)平臺完成對接聯(lián)調(diào)等平臺建設(shè)工作。
算力資源利用率如何最大化
大模型訓(xùn)練作為典型的大規(guī)模超算應(yīng)用,具有異構(gòu)計算、大規(guī)模并行計算等典型超算應(yīng)用特征,在當(dāng)下大模型訓(xùn)練算力需求爆發(fā)的時代,如何實現(xiàn)算力資源的最大化利用,成為關(guān)鍵問題。
從大模型算力供給來看,存在建設(shè)經(jīng)費投入大、高端算力資源供貨周期不可控、客戶業(yè)務(wù)規(guī)劃預(yù)期難以把握等制約因素。在甄亞楠看來,對于大模型而言,基座大模型企業(yè)對算力資源總量要求頗高,5000 卡規(guī)模的算力集群需求常見,國內(nèi)能滿足的算力中心較少;而行業(yè)或垂類大模型基于基座或開源模型微調(diào),算力需求相對較小,國內(nèi)許多算力服務(wù)單位能夠滿足。
為了讓算力資源利用率實現(xiàn)最大化,北京超算采用超算架構(gòu)模式構(gòu)建智算資源,將分布在國內(nèi)的各大算力中心的資源加以整合,并利用成熟的算力網(wǎng)絡(luò)進(jìn)行調(diào)度,以滿足大規(guī)模訓(xùn)練所需的海量算力需求。例如,在與某科研機(jī)構(gòu)的合作中,通過整合資源,成功將大模型訓(xùn)練時間從原本的數(shù)月縮短至數(shù)周,切實的幫助用戶降本增效。
甄亞楠介紹,北京超算推出了按需構(gòu)建算力資源的創(chuàng)新模式,通過算力租賃,讓用戶依據(jù)業(yè)務(wù)需求獲取彈性的計算資源,實現(xiàn)大規(guī)模的計算任務(wù)。用戶只需支付實際使用所需的計算量與計算時間,大幅降低運營成本,適用于各種大規(guī)模計算需求的場景。此外,還能夠在用戶業(yè)務(wù)運行中提升利用效率,比如某用戶優(yōu)化前利用率為 75%,優(yōu)化后可達(dá) 97%,在綜合成本不變的情況下充分發(fā)揮機(jī)器性能。
值得一提的是,在2024全球數(shù)字經(jīng)濟(jì)大會人工智能專題論壇上,“2024人工智能大模型場景應(yīng)用典型案例”正式發(fā)布,北京超算與中科聞歌合作推出的“雅意·智學(xué)大模型賦能教育領(lǐng)域應(yīng)用實踐”成功入選。
此外,北京超算已與北京智源人工智能研究院、智譜 AI、瀾舟科技、中科聞歌、深勢科技、智子引擎、中科紫東太初等單位形成了算力合作,為國產(chǎn)大模型如智譜 GLM-4、孟子大模型等提供了算力服務(wù)支撐,助力訓(xùn)練優(yōu)化以及數(shù)據(jù)分析,為大模型團(tuán)隊提升效率。
打造高質(zhì)量、高性價比 算力服務(wù)體系
成立于 2011 年的北京超算,起初正如其名,定位以超算為主,服務(wù)于氣象模擬、汽車流體力學(xué)模擬、材料模擬等科學(xué)計算領(lǐng)域,通過數(shù)值仿真解決應(yīng)用問題,并連續(xù)四年蟬聯(lián)中國 HPC TOP100 排行榜通用 CPU 算力性能(同構(gòu)眾核 CPU 性能)第一名。
在“東數(shù)西算”戰(zhàn)略的推動以及“人工智能+”時代對高質(zhì)量算力服務(wù)的需求下,北京超算從 2019 年開始布局 AI 算力,著力打造高質(zhì)量、高性價比的算力服務(wù)體系。北京超算積極推動“算力市場化”改革,已形成“智算云”“超算云”“行業(yè)云”和“設(shè)計仿真云”四大公共算力服務(wù)體系,實現(xiàn)了跨區(qū)域調(diào)度、多算力中心的商業(yè)化服務(wù)能力。
圖 超智融合全景算力服務(wù)
從“超算”到“智算” 北京超算是不是“降維打擊”?
甄亞楠表示,超算和智算有很強(qiáng)的相似性,都致力于解決計算密集型問題,且底層都是基于超算架構(gòu),在資源池、穩(wěn)定性和高效性方面有著共性需求。北京超算中心憑借自身的行業(yè)背景優(yōu)勢,通過超算架構(gòu)結(jié)合 GPU 卡服務(wù) AI 計算需求,能夠為用戶帶來顯著的性能提升。
北京超算通過算力預(yù)測判斷用戶真正所需的算力資源,基于應(yīng)用運行特征分析進(jìn)行算力選型,幫助用戶適配更高性價比的算力資源。那么,如何讓算力更好用?
“我們?yōu)橛脩籼峁┑牟⒎菃我患夹g(shù)、單一資源,而是一套滿足用戶綜合發(fā)展需求的行業(yè)解決方案。通過 7×24 小時技術(shù)專家服務(wù)團(tuán)隊、平臺預(yù)置 AI 主流框架、常用數(shù)據(jù)集等方式,滿足用戶在算力使用中的各種需求。”甄亞楠透露,北京超算具備萬卡集群工程化能力,同時擁有長達(dá)十三年的專業(yè)服務(wù)經(jīng)驗,有力保障大模型訓(xùn)練、推理業(yè)務(wù)的開展,實現(xiàn)算力資源從可用到好用再到降本。