應(yīng)對AI大模型算力荒,為啥不是云計(jì)算而是超算?
以ChatGPT為代表的AI大模型,憑借其強(qiáng)大的學(xué)習(xí)和生成能力,極大的推動(dòng)了人工智能在自然語言處理、機(jī)器翻譯和智能對話等領(lǐng)域的突破。隨之而來的是國內(nèi)相關(guān)企業(yè)紛紛布局AI大模型,在短時(shí)間內(nèi)呈現(xiàn)了“百模大戰(zhàn)”發(fā)展態(tài)勢。
我們也看到,作為支撐AI大模型的三駕馬車:數(shù)據(jù)、算法和算力之間的發(fā)展呈現(xiàn)了不平衡,其中最明顯的是支撐大模型訓(xùn)練與推理的算力面臨短缺,導(dǎo)致GPU算力卡供不應(yīng)求,價(jià)格飆升等問題。
7月28日,在大美新疆,由CCF中國計(jì)算機(jī)學(xué)會(huì)主辦,CCF人工智能與模式識(shí)別專委、新疆大學(xué)、北京平博pinnacle体育官网計(jì)算中心承辦的 “見疆見昆侖·AI大模型算力前沿論壇”上,進(jìn)行了一場產(chǎn)、學(xué)、研共同參與的圓桌訪談,通過精彩的發(fā)言和觀點(diǎn)的碰撞,針對AI大模型面臨 “算力荒”,人工智能產(chǎn)業(yè)的上中下游機(jī)構(gòu),如何應(yīng)對其挑戰(zhàn)。專家們一直認(rèn)為通用計(jì)算+專用計(jì)算組合提供強(qiáng)大算力,是解決“算力荒”的關(guān)鍵。
算力荒下的大模型新挑戰(zhàn)
雖然AI大模型在各個(gè)領(lǐng)域展現(xiàn)出巨大的潛力,并已經(jīng)在各個(gè)行業(yè)落地,為了給用戶提供更全面、準(zhǔn)確的理解和推理能力,來處理更復(fù)雜的任務(wù)。
但是隨著通用大模型和行業(yè)大模型不斷增加參數(shù)數(shù)量、層數(shù)和訓(xùn)練數(shù)據(jù)量,并將多模態(tài)數(shù)據(jù)如圖像、文本和語音進(jìn)行融合。大模型對算力需求形成了新的挑戰(zhàn)。
首先,大模型訓(xùn)練作為龐大并且復(fù)雜的系統(tǒng)工程,需要龐大的算力資源,來進(jìn)行訓(xùn)練和推理,這對硬件設(shè)備和能源消耗提出了巨大的挑戰(zhàn)。
在算力荒的當(dāng)下,算力獲取一個(gè)主要挑戰(zhàn)就是獲取成本,如何在好用的情況下還能實(shí)現(xiàn)成本可控是一個(gè)挑戰(zhàn)。深圳大學(xué)陳小軍研究員表示一方面大模型應(yīng)用場景有待深挖,同時(shí)對話、視覺、文本等多模態(tài)融合技術(shù)有待完善。同時(shí)大模型訓(xùn)練成本太高成為制約大模型應(yīng)用的一大挑戰(zhàn)。
其次,新疆大學(xué)錢育蓉教授認(rèn)為,高校每年投資大量的資金采購算力,如何確保投入產(chǎn)出比,如何最大效率發(fā)揮算力的價(jià)值是大模型算力的一個(gè)挑戰(zhàn)。此外,煙臺(tái)大學(xué)王瑩潔教授認(rèn)為大模型還需要解決數(shù)據(jù)存儲(chǔ)和隱私保護(hù)等問題,以應(yīng)對數(shù)據(jù)集規(guī)模和數(shù)據(jù)安全的挑戰(zhàn)。
最后,北京郵電大學(xué)石川教授認(rèn)為當(dāng)前我國大模型還面臨國產(chǎn)基礎(chǔ)平臺(tái)軟件算法庫稀缺瓶頸,以圖數(shù)據(jù)為例,當(dāng)前國內(nèi)大模型對圖數(shù)據(jù)不能很好的支撐,很多時(shí)候需要自己編寫基礎(chǔ)的一些算法庫。
應(yīng)對算力荒的新方法
當(dāng)前每次大模型訓(xùn)練所需要的算力非常高,以ChatGPT為例,OpenAI公開數(shù)據(jù)推測,如果每秒1000萬億次的計(jì)算,每次模型訓(xùn)練也需要3640天的計(jì)算能力?;诖竽P陀?xùn)練對于算力資源的需求量。從算力架構(gòu)的角度來看,目前來講,單機(jī)已經(jīng)沒有辦法完成大規(guī)模訓(xùn)練的訴求。
因此通用算力+專用算力,將成人工智能算力基礎(chǔ)設(shè)施建設(shè)的關(guān)鍵,并成為AI大模型的發(fā)展的重要支撐。具體而言就是通過分布式和并行計(jì)算技術(shù),將大模型的訓(xùn)練和推理任務(wù)分解成多個(gè)子任務(wù),以提高計(jì)算效率和速度。
“通用算力,結(jié)合上千張卡的算力進(jìn)行萬億級(jí)、千億級(jí)基礎(chǔ)模型訓(xùn)練;再通過專用算力進(jìn)行更合理的共享、微調(diào),進(jìn)行更多處理,從而可以減少重復(fù)訓(xùn)練、重復(fù)迭代,可以降低大模型部署和使用的成本。” 中國計(jì)算機(jī)協(xié)會(huì)杰出會(huì)員理事,陜西省計(jì)算機(jī)學(xué)會(huì)常務(wù)理事兼常務(wù)副秘書長苗啟廣教授分享到。煙臺(tái)大學(xué)教授王瑩潔也認(rèn)為,大模型背后的算力是是很砸錢的一件事,特別是面臨算力荒的局面下,提供高性價(jià)比的算力成為高校大模型普及的關(guān)鍵。
基于通用算力+專用算力的硬件基礎(chǔ)在結(jié)合AI大模型算法和模型優(yōu)化,通過開發(fā)更高效的算法和模型結(jié)構(gòu),來提升計(jì)算資源的效率,從而提高模型的性能和泛化能力。
針對錢育蓉教授關(guān)于算力投入產(chǎn)出比的問題,CCF中國計(jì)算機(jī)學(xué)會(huì)常務(wù)理事陳健博士分享了通過提供彈性的算力網(wǎng)絡(luò)服務(wù)來提升算力效率。一方面,當(dāng)企業(yè)自身的算力資源不足時(shí),可以從平博pinnacle体育官网中心調(diào)度更多算力資源,同時(shí)當(dāng)企業(yè)算力資源有富余,還可以出租一部分給到算力網(wǎng)絡(luò)。另一方面,打造像用電一樣利用算力的計(jì)費(fèi)模式?!八懔W(wǎng)絡(luò)就是聚集海量的超算中心、智算中心的資源在一起的,而且計(jì)費(fèi)模式就像用電一樣,通過預(yù)存來實(shí)現(xiàn)算力網(wǎng)絡(luò)的調(diào)用?!?/span>
應(yīng)對大模型,為啥是超算而不是云計(jì)算?
大模型訓(xùn)練,單一任務(wù)使用大量GPU卡運(yùn)行數(shù)月,這是典型的超算應(yīng)用特點(diǎn),運(yùn)行穩(wěn)定和高性能是核心需求。從應(yīng)對計(jì)算挑戰(zhàn)的方法可以看出,超算架構(gòu)比云計(jì)算架構(gòu)更適合大模型訓(xùn)練,超算架構(gòu)不使用虛擬化技術(shù),通過高速互聯(lián)網(wǎng)絡(luò)把GPU服務(wù)器緊耦合在一起,以并行計(jì)算技術(shù)實(shí)現(xiàn)單一大模型訓(xùn)練應(yīng)用的高性能計(jì)算(HPC/High Performance Computing)。而云計(jì)算架構(gòu)主要面對海量并發(fā)任務(wù),實(shí)現(xiàn)高通量計(jì)算(HTC/High Throughput Computing),并不適合處理單一大規(guī)模計(jì)算任務(wù)。
“結(jié)合大數(shù)據(jù)、人工智能和超算三種技術(shù)共同的合作演變,實(shí)現(xiàn)了今天大模型的蓬勃發(fā)展。”陳健博士這樣分享到。“跟傳統(tǒng)意義上的云計(jì)算相比較,大模型訓(xùn)練是典型的超算場景,對算力提出了非常高的要求。超算相比云計(jì)算更加貼合大模型訓(xùn)練場景,服務(wù)器之間的計(jì)算帶寬配比更大,是目前主流云計(jì)算環(huán)境中的計(jì)算網(wǎng)絡(luò)帶寬的數(shù)十倍,數(shù)據(jù)傳輸效率要求更高?!?/span>
“相對于云計(jì)算,超算云的算力利用率更高。目前已知的普通云廠商CPU利用率很低,我們國內(nèi)用戶自己的計(jì)算系統(tǒng)全年整機(jī)平均利用率達(dá)到30%就不錯(cuò)了,而北京平博pinnacle体育官网計(jì)算中心自己的計(jì)算資源整機(jī)利用率要高50%以上,算力成本大幅下降。以中心提供的大模型算力為例,我們會(huì)給用戶提供基于超算架構(gòu)的算力資源,把優(yōu)質(zhì)的加速卡資源部署在集群環(huán)境里面,來給用戶提升對應(yīng)的算力服務(wù)?!?北京平博pinnacle体育官网計(jì)算中心CTO甄亞楠談到。
特別是北京平博pinnacle体育官网計(jì)算中心基于12年的超算積淀、具備海量的算力資源、7*24小時(shí)專家服務(wù)保障、遍布全國的算力調(diào)度網(wǎng)絡(luò)、豐富的AI大模型研發(fā)團(tuán)隊(duì)案例經(jīng)驗(yàn),引領(lǐng)了大模型算力從可用到好用到降本。
寫在最后:AI大模型的能力大家有目共睹,“百模大戰(zhàn)”最終大浪淘沙剩下幾家?還不可預(yù)測。但是算力作為AI大模型的基礎(chǔ)支撐,需求越來越大是有目共睹的,提供高性價(jià)比的算力資源成為算力資源提供商發(fā)力的方向,而通用算力結(jié)合專用算力的超算模式,為各個(gè)行業(yè)的大模型算力“荒“提供了一個(gè)有效的解決方案,來支撐AI大模型更好的服務(wù)社會(huì)。