作為云服務(wù)國(guó)家隊(duì),中國(guó)電信天翼云始終堅(jiān)持科技創(chuàng)新,在技術(shù)方面不斷取得突破,推出多項(xiàng)研發(fā)成果。作為其中的重要代表,“息壤”入選“2022年度央企十大超級(jí)工程”,通過(guò)將復(fù)雜的算力資源智能、有序地調(diào)度到目的地,不斷刷新算力傳輸?shù)摹爸袊?guó)速度”。
《山海經(jīng)注》云:“息壤者,言土自長(zhǎng)息無(wú)限,故可以塞洪水也?!边M(jìn)入人工智能時(shí)代,“息壤”如同它的名字一般,持續(xù)向智能“生長(zhǎng)”,進(jìn)一步升級(jí)為一體化智算服務(wù)平臺(tái),為大模型的快速發(fā)展和落地持續(xù)提供多樣化的算力資源和一體化的智算服務(wù)。
統(tǒng)籌調(diào)度 全網(wǎng)算力“隨愿可得”
數(shù)字時(shí)代,以算力為核心的數(shù)字信息基礎(chǔ)設(shè)施成為國(guó)家戰(zhàn)略性布局的關(guān)鍵組成部分。但是當(dāng)前,我國(guó)算力分布呈現(xiàn)總量大但分布不均衡的特征,總體需求旺盛與局部算力閑置并存,供需匹配不暢。因此,在全國(guó)范圍內(nèi)實(shí)現(xiàn)高效的算力統(tǒng)籌和調(diào)度,滿足千行百業(yè)對(duì)算力的不同需求,提升全局算力的利用率,成為提升算力“中國(guó)速度”的一項(xiàng)重要工程。
為優(yōu)化數(shù)據(jù)中心建設(shè)布局,統(tǒng)籌調(diào)度、高效利用算力資源,2022年2月,國(guó)家發(fā)展改革委、中央網(wǎng)信辦等四部門(mén)聯(lián)合印發(fā)通知,同意在京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝,以及內(nèi)蒙古、貴州、甘肅、寧夏等8地啟動(dòng)建設(shè)國(guó)家算力樞紐節(jié)點(diǎn),并規(guī)劃了10個(gè)國(guó)家數(shù)據(jù)中心集群,“東數(shù)西算”工程正式全面啟動(dòng)。作為算力基礎(chǔ)設(shè)施建設(shè)的排頭兵,中國(guó)電信積極貫徹落實(shí)“東數(shù)西算”工程和加快構(gòu)建全國(guó)一體化算力網(wǎng)的要求,在上海青浦、浙江嘉善、江蘇吳江、廣東韶關(guān)、甘肅慶陽(yáng)等國(guó)家算力樞紐節(jié)點(diǎn)新建了大型數(shù)據(jù)中心,在算力建設(shè)上落實(shí)“東數(shù)西算”“東數(shù)西備”“東數(shù)西存”,助力提升資源利用率和算力算效。同時(shí)充分發(fā)揮電信運(yùn)營(yíng)商的網(wǎng)絡(luò)資源稟賦,推進(jìn)以DC為中心組網(wǎng),提升國(guó)家樞紐節(jié)點(diǎn)網(wǎng)絡(luò)互聯(lián)能力,構(gòu)建四區(qū)六軸八樞紐多通道的低時(shí)延光纜網(wǎng)底座,持續(xù)深化區(qū)域一體化組網(wǎng),同步加快新型云化城域網(wǎng)建設(shè),全面滿足一體化算力網(wǎng)1ms/5ms/20ms時(shí)延要求,全方位打造支撐“東數(shù)西算”戰(zhàn)略落地所需的大帶寬、低時(shí)延、智能敏捷、安全可靠的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。
作為國(guó)家云,天翼云在優(yōu)化算力資源配置、提升資源使用效率方面做出一系列努力,自主研發(fā)的“息壤”平臺(tái)應(yīng)運(yùn)而生,為算力的高效統(tǒng)籌和調(diào)度提供了解決方案。
通俗來(lái)講,“息壤”好比是一個(gè)算力傳輸?shù)臉屑~,能夠在全國(guó)范圍內(nèi)實(shí)現(xiàn)每分鐘數(shù)萬(wàn)次、每天上千萬(wàn)次的算力統(tǒng)籌調(diào)度,滿足千行百業(yè)對(duì)算力的需求,讓算力像水和電一樣即取即用、“隨愿可得”?!跋⑷馈蓖ㄟ^(guò)把多方算力匯集到一個(gè)平臺(tái),實(shí)現(xiàn)一體化供給,具備對(duì)多服務(wù)商異構(gòu)算力的跨區(qū)域調(diào)度能力,支持對(duì)通用計(jì)算、智算、超算和網(wǎng)絡(luò)進(jìn)行一體化調(diào)度,降低算力使用成本。
基于“息壤”強(qiáng)大的算力調(diào)度能力,智慧教育資源隨時(shí)共享,讓偏遠(yuǎn)地區(qū)的孩子也能像大城市的孩子一樣享受優(yōu)質(zhì)的教學(xué)資源;在汽車工業(yè)領(lǐng)域,300次的仿真碰撞試驗(yàn)在一分鐘內(nèi)便能成功模擬完成……從市民生活到工業(yè)生產(chǎn),從城市中心到偏遠(yuǎn)地區(qū),“隨愿可得”的算力賦能千行百業(yè),走入千家萬(wàn)戶,重塑著每個(gè)人的生活。
云智一體 大模型訓(xùn)推“一步到位”
科技不斷向前發(fā)展,我們迎來(lái)了人工智能時(shí)代。當(dāng)前,人工智能行業(yè)進(jìn)入以大模型為代表的快速發(fā)展階段,國(guó)產(chǎn)多模態(tài)大模型爆發(fā)式更新,AI應(yīng)用有望迎來(lái)更多功能和形態(tài)方面的突破升級(jí),未來(lái)發(fā)展空間廣闊。
但大模型的研發(fā)與推廣仍然面臨一定的壓力和挑戰(zhàn)。一方面,大模型的訓(xùn)練和應(yīng)用需要大量的高質(zhì)量數(shù)據(jù),當(dāng)前我國(guó)數(shù)據(jù)資源有限且分散,導(dǎo)致模型訓(xùn)練效果并不理想;另一方面,模型的參數(shù)量和計(jì)算復(fù)雜度持續(xù)增加,對(duì)算力的需求以幾何級(jí)數(shù)增長(zhǎng)。
作為云服務(wù)國(guó)家隊(duì)、數(shù)字中國(guó)建設(shè)主力軍,天翼云順勢(shì)而為,積極響應(yīng)國(guó)家政策號(hào)召,布局智算基礎(chǔ)設(shè)施建設(shè),為人工智能產(chǎn)業(yè)發(fā)展筑牢算力基石。為滿足大模型的市場(chǎng)需求和變化,天翼云能力全面升級(jí),構(gòu)建“息壤”一體化智算服務(wù)體系和能力,提供極致的算力調(diào)度、高效的計(jì)算加速、普惠的一站式智算服務(wù)。
在算網(wǎng)調(diào)度能力方面,“息壤”在三方面取得顯著技術(shù)突破。通過(guò)算力插件和算力網(wǎng)關(guān),實(shí)現(xiàn)了算力的統(tǒng)一、高效和云化接入;通過(guò)算數(shù)協(xié)同和多級(jí)算力互聯(lián)調(diào)度,實(shí)現(xiàn)了算數(shù)網(wǎng)的一體化調(diào)度,數(shù)隨算走、算隨數(shù)動(dòng),調(diào)度區(qū)域更廣,算力更泛在;借助大模型認(rèn)知能力和業(yè)務(wù)調(diào)度,實(shí)現(xiàn)算力選擇和應(yīng)用部署簡(jiǎn)單化,故障自動(dòng)恢復(fù)與負(fù)載均衡,使算力簡(jiǎn)便易用。
基于技術(shù)突破和產(chǎn)品化應(yīng)用,“息壤”可服務(wù)于三大算力場(chǎng)景。一是天翼云自營(yíng)公共算力服務(wù)平臺(tái),目前已接入超40家算力伙伴,實(shí)現(xiàn)三方各類算力可調(diào)度22EFlops,顯著擴(kuò)大了算力規(guī)模和品類,滿足公有云客戶的多元算力需求。二是幫助客戶構(gòu)建行業(yè)算力互聯(lián)網(wǎng),例如高校算力聯(lián)盟等,實(shí)現(xiàn)行業(yè)內(nèi)算力利用率的有效提升。三是助力建設(shè)城市算力互聯(lián)網(wǎng),實(shí)現(xiàn)區(qū)域內(nèi)多方算力的一體化統(tǒng)籌調(diào)度,助力地方經(jīng)濟(jì)和產(chǎn)業(yè)發(fā)展。
在異構(gòu)計(jì)算能力方面,“息壤”具備高效的異構(gòu)計(jì)算能力,能夠破解大模型訓(xùn)練推理中面臨的大算力、高性能、高穩(wěn)定需求等挑戰(zhàn)。在大算力需求方面,天翼云建立PB級(jí)并行文件存儲(chǔ),并組建低延時(shí)超大規(guī)模RDMA網(wǎng)絡(luò),通過(guò)計(jì)算、內(nèi)存和通信的多維優(yōu)化,提升綜合算效。在性能方面,自研AI框架、算子加速庫(kù)、集合通信庫(kù)、網(wǎng)絡(luò)拓?fù)涓兄?、存?chǔ)加速等關(guān)鍵技術(shù),將國(guó)產(chǎn)算力的綜合算效提升到行業(yè)領(lǐng)先水平。在穩(wěn)定性方面,通過(guò)多項(xiàng)指標(biāo)的監(jiān)控分析,實(shí)現(xiàn)故障訓(xùn)前發(fā)現(xiàn),有效控制大模型訓(xùn)練中斷恢復(fù)時(shí)長(zhǎng),實(shí)現(xiàn)訓(xùn)練任務(wù)長(zhǎng)期穩(wěn)定、高可用運(yùn)行。此外,天翼云基于國(guó)產(chǎn)萬(wàn)卡智算集群和自研智算平臺(tái),已具備支撐萬(wàn)億參數(shù)基礎(chǔ)大模型訓(xùn)練的能力。
在訓(xùn)推服務(wù)能力方面,“息壤”一站式的訓(xùn)推服務(wù)能力,可降低大模型應(yīng)用創(chuàng)新開(kāi)發(fā)門(mén)檻,實(shí)現(xiàn)了業(yè)界首個(gè)國(guó)產(chǎn)芯片萬(wàn)卡并行訓(xùn)練。平臺(tái)預(yù)置行業(yè)數(shù)據(jù)集、主流開(kāi)閉源基礎(chǔ)大模型,并提供模型訓(xùn)練全棧工具鏈,將大模型精調(diào)場(chǎng)景簡(jiǎn)化操作至選數(shù)據(jù)、選硬件和選模型三個(gè)步驟,簡(jiǎn)化部署、提升效率;通過(guò)自研AI框架、3D并行加速、自研訓(xùn)練加速庫(kù)、容器調(diào)度優(yōu)化等核心技術(shù),大幅提升訓(xùn)練效率;通過(guò)模型量化壓縮、自研推理加速算子庫(kù)、自研AI推理加速框架等核心技術(shù),顯著提高推理效率;通過(guò)全鏈路故障檢測(cè)、定位、告警,全鏈路日志監(jiān)控與可視化、斷點(diǎn)續(xù)訓(xùn)快速恢復(fù)等核心技術(shù),提升大規(guī)模集群訓(xùn)推穩(wěn)定性。其中,斷點(diǎn)續(xù)訓(xùn)實(shí)現(xiàn)分鐘級(jí)發(fā)現(xiàn)、定位、恢復(fù),覆蓋75%的故障場(chǎng)景,支持優(yōu)雅容錯(cuò)無(wú)感恢復(fù),MFU(算力利用率)達(dá)業(yè)界領(lǐng)先水平。
在近期公布的2024IOMM數(shù)智化轉(zhuǎn)型最新評(píng)估結(jié)果中,天翼云息壤·一站式智算服務(wù)平臺(tái)在模型管理、模型開(kāi)發(fā)、模型訓(xùn)練、模型推理、資源調(diào)度、性能等11個(gè)能力領(lǐng)域35個(gè)測(cè)試項(xiàng)中全部通過(guò),以“卓越級(jí)”能力通過(guò)評(píng)估。
人工智能已經(jīng)成為數(shù)字經(jīng)濟(jì)發(fā)展的新引擎。作為云計(jì)算原創(chuàng)技術(shù)策源地、數(shù)字中國(guó)建設(shè)主力軍,天翼云將持續(xù)攻關(guān)云計(jì)算領(lǐng)域核心技術(shù),不斷迭代升級(jí)“息壤”一體化智算服務(wù)體系和能力,賦能企業(yè)跑出“AI加速度”,攜手行業(yè)共同推動(dòng)經(jīng)濟(jì)社會(huì)智能化水平邁向新高度。