了解最新公司動態(tài)及行業(yè)資訊
本文選自中國工程院院刊《中國工程科學》2025年第1期
作者:劉韻潔,汪碩,黃韜,王佳森
來源:數(shù)算融合網(wǎng)絡技術發(fā)展研究. 中國工程科學. 2025, 27(1): 1-13.
編者按
數(shù)算融合網(wǎng)絡是為數(shù)據(jù)空間應用定制網(wǎng)絡服務的智能通信網(wǎng)絡基礎設施,對推動數(shù)據(jù)空間構建、數(shù)據(jù)要素流通、算力和數(shù)據(jù)融合具有促進作用,可為數(shù)據(jù)確權、流通和交易等新的經(jīng)濟增長點提供技術支撐。
中國工程院劉韻潔院士研究團隊在中國工程院院刊《中國工程科學》2025年第1期發(fā)表《數(shù)算融合網(wǎng)絡技術發(fā)展研究》一文。文章在介紹數(shù)算融合網(wǎng)絡內(nèi)涵的基礎上,概述了其數(shù)據(jù)平面、控制平面、編排層具備的關鍵功能,梳理了我國發(fā)展數(shù)算融合網(wǎng)絡的宏觀發(fā)展需求,詳細討論了數(shù)算融合網(wǎng)絡技術的發(fā)展現(xiàn)狀和國際態(tài)勢。進一步研判了數(shù)算融合網(wǎng)絡端側(cè)、數(shù)據(jù)中心內(nèi)、數(shù)據(jù)中心出口、數(shù)據(jù)中心間、算力中心間、數(shù)據(jù)和算力中心間、控制層、編排層、安全體系等方面的關鍵技術,列舉了數(shù)算融合網(wǎng)絡的應用場景和具體案例,包括“東數(shù)西算”樞紐互聯(lián)、城市算力網(wǎng)、工業(yè)外網(wǎng)互聯(lián)、能源設施互聯(lián)、行業(yè)大模型。在分析我國數(shù)算融合網(wǎng)絡技術發(fā)展面臨的挑戰(zhàn)后,研究建議:構建支撐行業(yè)大模型高質(zhì)量發(fā)展的公用專網(wǎng);推動數(shù)算融合網(wǎng)絡科學裝置建設,服務國家科學發(fā)展;依托數(shù)算融合網(wǎng)絡,推動數(shù)據(jù)空間成果落地;開展大規(guī)模算力協(xié)作,突破單點算力不足瓶頸,為數(shù)據(jù)空間網(wǎng)絡基礎設施發(fā)展提供參考。
一、前言
數(shù)據(jù)空間是面向人 ? 機 ? 物應用和系統(tǒng)運作數(shù)據(jù),基于網(wǎng)絡互聯(lián)產(chǎn)生的虛實結合的空間。數(shù)算融合網(wǎng)絡是實現(xiàn)數(shù)據(jù)空間人 ? 機 ? 物應用高速互聯(lián)、確定性數(shù)據(jù)傳輸、泛在算力接入,并根據(jù)數(shù)據(jù)空間應用定制網(wǎng)絡服務的智能通信網(wǎng)絡基礎設施。數(shù)算融合網(wǎng)絡有助于推動實現(xiàn)“東數(shù)西算”樞紐互聯(lián)和算力并網(wǎng),支撐新型工業(yè)互聯(lián)、能源互聯(lián),服務制造強國和“雙碳”等戰(zhàn)略。數(shù)算融合網(wǎng)絡具有很高的應用價值。一方面,數(shù)算融合網(wǎng)絡可以支撐數(shù)據(jù)空間新型系統(tǒng)和應用。數(shù)算融合網(wǎng)絡作為數(shù)據(jù)空間新網(wǎng)絡范式,具有維護成本低、服務自動化程度高、適應能力強等優(yōu)勢,能夠滿足數(shù)據(jù)空間快速發(fā)展的需求。在萬物智能化的時代,消費型與產(chǎn)業(yè)型互聯(lián)網(wǎng)融合,成為重要發(fā)展趨勢。數(shù)算融合網(wǎng)絡基礎設施可以提供海量的消費級、工業(yè)級人 ? 機 ? 物算力和數(shù)據(jù)互聯(lián)服務,如工業(yè)制造、健康醫(yī)療等數(shù)據(jù)空間應用的確定性互聯(lián)服務。另一方面,數(shù)算融合網(wǎng)絡可促進未來網(wǎng)絡、人工智能(AI)等產(chǎn)業(yè)的加速發(fā)展。AI模型正在與網(wǎng)絡服務深度綁定,賦予網(wǎng)絡設備處理復雜任務的能力,進而提升了數(shù)算融合網(wǎng)絡的服務價值,推動如具身智能等網(wǎng)絡服務新功能和新產(chǎn)業(yè)的發(fā)展。
目前,數(shù)算融合網(wǎng)絡處于快速發(fā)展階段,通過實現(xiàn)數(shù)據(jù)和算力的融合,進一步釋放數(shù)據(jù)和算力價值,推動“數(shù)據(jù)要素×”新產(chǎn)業(yè)的發(fā)展。數(shù)據(jù)空間基礎設施和工作平臺的互操作性、開放性至關重要,這也要求數(shù)算融合網(wǎng)絡需要具備可編程能力、確定性、“網(wǎng)算存一體化”等技術要求,不斷提升聯(lián)合數(shù)據(jù)空間的互操作質(zhì)量和開放程度,構建完備的數(shù)據(jù)存儲、處理和傳輸體系架構。已有工作著重于從算力組網(wǎng)和數(shù)據(jù)傳輸?shù)确矫嫜芯繑?shù)據(jù)空間網(wǎng)絡技術?,F(xiàn)有算力網(wǎng)絡架構可以為數(shù)據(jù)空間應用提供網(wǎng)絡化的算力服務,面向數(shù)據(jù)空間的聯(lián)合基礎設施可以通過云網(wǎng)絡基礎設施為多個數(shù)據(jù)生態(tài)系統(tǒng)應用服務,工業(yè)數(shù)據(jù)空間架構能夠為工業(yè)數(shù)據(jù)提供方、存證方、中間服務方、數(shù)據(jù)使用方提供可信的網(wǎng)絡服務,科學數(shù)據(jù)空間網(wǎng)絡系統(tǒng)可以用來快速傳輸科學數(shù)據(jù)(如傳輸PB級的脫氧核糖核酸序列數(shù)據(jù)),確定性聯(lián)網(wǎng)能夠為工業(yè)數(shù)據(jù)和消費數(shù)據(jù)提供共網(wǎng)傳輸功能。面向智能化時代,可編程網(wǎng)絡、在網(wǎng)計算、在網(wǎng)存儲是網(wǎng)絡發(fā)展的重要技術方向:構建大規(guī)模在網(wǎng)計算和存儲系統(tǒng),為數(shù)據(jù)空間大數(shù)據(jù)分析、大模型訓練、大規(guī)模存儲應用提供分布式算力和儲存環(huán)境,以實現(xiàn)低時延通信和高速計算。
本文探討數(shù)算融合網(wǎng)絡的定義和功能架構,為數(shù)據(jù)空間應用提供網(wǎng)絡基礎設施支撐,總結數(shù)算融合網(wǎng)絡相關國際發(fā)展態(tài)勢,分析我國數(shù)算融合網(wǎng)絡的發(fā)展現(xiàn)狀和需求,提出數(shù)算融合網(wǎng)絡關鍵技術等,列舉數(shù)算融合網(wǎng)絡的應用場景和案例,提出數(shù)算融合網(wǎng)絡的發(fā)展建議,以期為數(shù)據(jù)空間網(wǎng)絡基礎設施發(fā)展提供參考。
二、數(shù)算融合網(wǎng)絡的國際發(fā)展態(tài)勢
(一) 制定推動數(shù)算融合網(wǎng)絡發(fā)展的戰(zhàn)略和政策規(guī)劃
1. 歐洲數(shù)據(jù)戰(zhàn)略(EDS)
EDS旨在推動歐盟成為數(shù)據(jù)驅(qū)動型社會的領導者,指出提高獲取和使用數(shù)據(jù)的能力可以驅(qū)動創(chuàng)新,并帶來個性化醫(yī)療、更好的政策、升級的公共服務等優(yōu)勢。該戰(zhàn)略期望構建單一數(shù)據(jù)市場,使數(shù)據(jù)能夠在歐盟內(nèi)部自由流動,降低企業(yè)、研究人員和公共管理部門獲取數(shù)據(jù)的難度。EDS的單一數(shù)據(jù)市場構建目標包括數(shù)據(jù)在歐盟內(nèi)部跨部門流動,隱私和數(shù)據(jù)保護以及競爭法得到尊重,數(shù)據(jù)訪問和使用的規(guī)則公平、實用和明確等。EDS要求投資下一代工具鏈和基礎設施來存儲和處理數(shù)據(jù),從而將歐盟打造成為一個安全和充滿活力的數(shù)據(jù)經(jīng)濟體。EDS計劃推動數(shù)算融合網(wǎng)絡基礎設施發(fā)展,構建新一代數(shù)據(jù)存儲、處理、轉(zhuǎn)發(fā)的硬件和軟件平臺,推動數(shù)算融合網(wǎng)絡在歐洲的創(chuàng)新和產(chǎn)業(yè)化,支撐歐洲共同戰(zhàn)略數(shù)據(jù)空間,包括制造、農(nóng)業(yè)、交通、醫(yī)療、金融、能源和公共管理等數(shù)據(jù)空間。
2. 美國數(shù)據(jù)戰(zhàn)略(FDS)
FDS旨在構建清晰的數(shù)據(jù)問責制,提升數(shù)據(jù)使用透明度,創(chuàng)建面向未來的數(shù)據(jù)戰(zhàn)略和基礎設施。FDS期望美國政府加速使用數(shù)據(jù)來執(zhí)行任務、服務公眾和管理資源,同時保護數(shù)據(jù)安全、隱私和機密性。FDS提出,美國政府應通過對數(shù)據(jù)基礎設施和人力資源的持續(xù)投資,驅(qū)動商業(yè)和文化發(fā)展;注重數(shù)據(jù)需求變化并系統(tǒng)利用私營部門在數(shù)據(jù)資產(chǎn)、服務和基礎設施等方面的購買力,降低成本和提高效率。FDS計劃促成政府和私營部門就發(fā)展數(shù)算融合網(wǎng)絡達成合作,通過私營部門的資金和政府部門的政策來推動數(shù)算融合網(wǎng)絡設施、設備的商業(yè)化發(fā)展,構建新一代數(shù)據(jù)處理、存儲和轉(zhuǎn)發(fā)基礎設施,維持美國在AI等行業(yè)的優(yōu)勢。
3. 國際數(shù)據(jù)空間協(xié)會(IDSA)
數(shù)據(jù)作為一種戰(zhàn)略資產(chǎn),越來越多地成為創(chuàng)造新產(chǎn)品和服務的基礎,因此,數(shù)據(jù)在流通過程中需尊重數(shù)據(jù)主權。IDSA是一個集企業(yè)、科研人員、立法人員等的開放式非營利組織。IDSA旨在通過政策、規(guī)則和標準,創(chuàng)建安全且值得信賴的數(shù)據(jù)空間,維護參與方的數(shù)據(jù)主權。目前,IDSA已有來自20多個國家的130多名成員,所有成員可以自行確定其數(shù)據(jù)的使用規(guī)則,并在安全、可信、平等的伙伴關系中實現(xiàn)數(shù)據(jù)價值最大化。2023年7月,IDSA在我國的代表機構“IDSA中國能力中心”正式成立,由下一代互聯(lián)網(wǎng)國家工程中心運營,以成為國際數(shù)據(jù)流通的“連接器”為使命。
(二) 積極推動數(shù)據(jù)網(wǎng)絡基礎設施建設
1. 國際數(shù)據(jù)空間(IDS)
在IDS中,數(shù)據(jù)提供方將數(shù)據(jù)所有者的數(shù)據(jù)通過IDS連接器傳入數(shù)據(jù)空間設備,允許其他人使用這些數(shù)據(jù),同時保留對使用人、使用方式、使用時間、使用目的和使用價格的控制,遵守數(shù)據(jù)主權。在目標方面,IDS作為跨國界、標準化的云系統(tǒng)之一,正成為數(shù)據(jù)基礎設施的關鍵組成部分,著力解決數(shù)據(jù)流通的安全、確權、價值保護3個問題,推動數(shù)據(jù)空間技術和應用的發(fā)展。在技術方面,IDS連接器是一個開源項目,由多個研究機構和公司合作開發(fā),可以部署在Docker容器和Kubernetes集群中,其架構允許根據(jù)特定領域的要求調(diào)整現(xiàn)有的應用程序。
2. 歐洲的聯(lián)邦云基礎設施Gaia-X
近年來,歐盟陸續(xù)出臺了《通用數(shù)據(jù)保護條例》《數(shù)字市場法》《數(shù)字服務法》等一系列政策文件和法律框架,以建構數(shù)據(jù)主權,增強歐洲數(shù)據(jù)創(chuàng)新能力。歐洲的云計劃Gaia-X旨在建立歐洲的數(shù)據(jù)基礎設施,成為歐盟的“母云端”,并創(chuàng)立通用云標準、參考云架構和互操作性要求等。Gaia-X項目是歐盟推動歐洲“數(shù)據(jù)主權”政策的一部分,目的是要讓歐洲企業(yè)將數(shù)據(jù)儲存在歐洲,并在歐洲釋放數(shù)據(jù)價值,推進工業(yè)、農(nóng)業(yè)、教育、醫(yī)療等全行業(yè)發(fā)展。
3. 美國的“科研數(shù)據(jù)+算力網(wǎng)絡”
2022年,美國能源科學網(wǎng)絡(ESnet)正式升級到第六代ESnet6,擁有主干鏈路達400 Gbps的專用光纜,網(wǎng)絡節(jié)點交換容量達46 Tbps。網(wǎng)絡承載數(shù)據(jù)快速增長,2021年的傳輸數(shù)據(jù)量約為1000 PB。ESnet6互聯(lián)了美國國家實驗室等40個研究站點、140個科研和商業(yè)網(wǎng)絡。例如,ESnet6連接了超算設施、X射線設施、中子散射設施、基礎能源設施、聚變能源設施、高能物理設施、核物理設施等,支撐美國開展基礎能源、生物、聚變能源科學、高能物理、核物理等研究。同時,ESnet6已服務于阿貢、橡樹嶺等國家實驗室的PB級數(shù)據(jù)傳輸與AI模型計算,并且實現(xiàn)了計算、存儲、網(wǎng)絡資源的一體化調(diào)度,支撐國家實驗室海量數(shù)據(jù)低時延、高通量、安全傳輸。未來,ESnet6的發(fā)展規(guī)劃包括:提供端到端的確定性網(wǎng)絡能力,實現(xiàn)高通量帶寬,支持應用和網(wǎng)絡間互操作,集成邊緣計算、在網(wǎng)計算、在網(wǎng)存儲,實現(xiàn)可編程編排和自動化,構建通用接入架構,注重多模態(tài)網(wǎng)絡連接和資源一體化調(diào)度等。
(三) 開展數(shù)算融合網(wǎng)絡的技術研發(fā)與推廣
1. 算力聚合
國際機構針對數(shù)算融合網(wǎng)絡的算力聚合,主要推動單點算力、算力協(xié)同和廣域遠程直接內(nèi)存訪問(RDMA)等技術進行快速迭代發(fā)展。① 在單點算力方面,2024年,英偉達公司發(fā)布了可以運行AI模型的新一代Blackwell圖形處理單元(GPU)架構及B200芯片,可達到20 PetaFLOPS計算能力,是H100芯片的5倍,能夠訓練更強大、更復雜的語言模型。集成兩塊B200芯片而形成的GB200芯片,在大語言模型推理中的性能與H100芯片相比提升了30倍。相對于Hopper架構,新型Blackwell架構在同樣的訓練時間內(nèi)消耗更少的GPU數(shù)量和更低的能量。值得注意的是,GB200 NVL72單機架計算系統(tǒng)能夠通過NVLink交換機提供130 TB/s GPU間高速互聯(lián)帶寬。② 在算力協(xié)同方面,基于英偉達公司的GPU協(xié)同計算平臺,OpenAI公司研發(fā)了對話生成式預訓練變換器(ChatGPT)產(chǎn)品。ChatGPT是一個人機問答平臺,其模型通過大算力和算法創(chuàng)新孵化催生,其編程功能能夠通過谷歌L3工程師編程考試。此外,OpenAI公司還發(fā)布了首個高質(zhì)量文生視頻模型Sora,正在引領一場數(shù)字內(nèi)容(影視、數(shù)字素材等)創(chuàng)作的技術革新。在技術上,OpenAI公司使用多GPU協(xié)同,構建超大規(guī)模算力集群支撐大模型快速訓練、測試和推理。③ 在廣域RDMA方面,廣域算力資源互聯(lián)共享需要通過并行協(xié)同計算來提升算能,然而傳統(tǒng)的傳輸控制協(xié)議(TCP)、超融合以太網(wǎng)協(xié)議在長距離網(wǎng)絡場景中,網(wǎng)絡吞吐可能較低。美國微軟公司的Azure云約有70%以上的流量使用RDMA協(xié)議,2023年初步實現(xiàn)80 km廣域RDMA互聯(lián)。
2. 確定性數(shù)據(jù)傳輸
數(shù)算融合網(wǎng)絡能夠提供確定性網(wǎng)絡服務,可以靈活切換確定性和非確定性服務,自主控制確定性服務質(zhì)量的服務等級協(xié)議(SLA),滿足大規(guī)模機器通信、機器視覺、遠程控制、AI、工業(yè)互聯(lián)網(wǎng)的需求。愛立信公司持續(xù)研發(fā)時間敏感聯(lián)網(wǎng)(TSN)技術和第五代移動通信時間敏感聯(lián)網(wǎng)(5G-TSN)技術,英特爾公司研發(fā)確定性邊緣網(wǎng)絡和確定性無線網(wǎng)絡,英偉達公司研發(fā)具備確定性能力的以太網(wǎng)。此外,電氣電子工程師學會(IEEE)、互聯(lián)網(wǎng)工程任務組(IETF)、第三代合作伙伴計劃(3GPP)等電子、互聯(lián)網(wǎng)和通信組織正在積極推動時間敏感聯(lián)網(wǎng)、確定性組網(wǎng)、5G或第六代移動通信(6G)確定性網(wǎng)絡等的標準化。
3. 網(wǎng)絡智能控制
數(shù)算融合網(wǎng)絡整合了多種智能網(wǎng)絡控制技術,包括生成式AI、意圖驅(qū)動技術、數(shù)字孿生技術等,旨在根據(jù)用戶的請求自動生成網(wǎng)絡服務。數(shù)算融合網(wǎng)絡的愿景包括訓練網(wǎng)絡大語言模型、網(wǎng)絡設計大模型和網(wǎng)絡決策大模型等。歐洲、美國等國家和地區(qū)正在積極布局網(wǎng)絡智能控制領域,積極構建基于海量數(shù)據(jù)訓練的網(wǎng)絡智能控制大模型。例如,愛立信公司重視生成式AI在網(wǎng)絡服務領域中的潛力,并正在進行相應的研發(fā)工作。英偉達公司正在參與基于AI的網(wǎng)絡研發(fā),憑借其在AI算法和設備方面的技術積累,研發(fā)和構建網(wǎng)絡智能控制系統(tǒng)。
三、我國數(shù)算融合網(wǎng)絡的發(fā)展現(xiàn)狀和需求
(一) 我國數(shù)算融合網(wǎng)絡的發(fā)展現(xiàn)狀
1. 重視發(fā)揮政策的引領作用,支持數(shù)算融合網(wǎng)絡的發(fā)展
為推動網(wǎng)絡的發(fā)展,我國先后發(fā)布了一系列政策,如《深入實施“東數(shù)西算”工程 加快構建全國一體化算力網(wǎng)的實施意見》(2023年)、《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》(2024年)、《關于推動未來產(chǎn)業(yè)創(chuàng)新發(fā)展的實施意見》(2024年),支持新型網(wǎng)絡架構、GPU芯片集群互聯(lián)網(wǎng)絡、超大規(guī)模新型智算中心的創(chuàng)新發(fā)展,為大模型訓練提供支撐,并作為未來產(chǎn)業(yè)來培育。這也表明,數(shù)據(jù)和算力融合發(fā)展已經(jīng)成為重要趨勢,因而有發(fā)展數(shù)算融合網(wǎng)絡的必要性;數(shù)據(jù)要素價值釋放進入快速發(fā)展階段,而數(shù)算融合網(wǎng)絡可以為價值釋放過程提供網(wǎng)絡服務;支撐大模型訓練推理是數(shù)算融合網(wǎng)絡的重要發(fā)展目標之一。
2. 面向智能化方向,推動數(shù)算融合網(wǎng)絡技術演進
網(wǎng)絡發(fā)展大致可以劃分為3個階段(見圖1):第1階段(1980—1999年)是傳統(tǒng)互聯(lián)網(wǎng)時代,以分組交換網(wǎng)絡(X.25)、異步傳輸模式(ATM)協(xié)議為代表,主要強調(diào)網(wǎng)絡的確定性,但網(wǎng)絡連接數(shù)量受限;第2階段(2000—2019年)是移動互聯(lián)網(wǎng)時代,以TCP/IP協(xié)議為代表,主要面向多樣消費型業(yè)務,但是網(wǎng)絡確定性傳輸能力受限;第3階段是自2020年開始的大模型(智能萬物)互聯(lián)網(wǎng)時代,以正在涌現(xiàn)的新型網(wǎng)絡協(xié)議(如IPv6+)為代表,主要面向多元應用,強調(diào)確定性互聯(lián)和海量網(wǎng)絡連接數(shù)量,并要求服務可定制。
圖1 網(wǎng)絡技術概略演進圖
數(shù)算融合網(wǎng)絡屬于互聯(lián)網(wǎng)發(fā)展第3階段的新型網(wǎng)絡架構。如圖2所示,數(shù)算融合網(wǎng)絡的數(shù)據(jù)平面包括可編程網(wǎng)絡交換設備、路由設備、卸載設備、接入設備、計算設備、存儲設備,并將可編程網(wǎng)元組成的底層物理網(wǎng)絡數(shù)據(jù)分組處理邏輯與網(wǎng)絡控制邏輯開放給控制平面,以進行系統(tǒng)自動化配置、編排、控制,實現(xiàn)數(shù)據(jù)空間的數(shù)據(jù)流確定性傳輸、設備泛在接入、傳輸層和網(wǎng)絡層IPv6+/TCP/UDP/QUIC等功能、協(xié)議使用,支撐數(shù)據(jù)空間機器對機器、人對人、人對機器應用數(shù)據(jù)的高質(zhì)量傳輸,高效完成計算任務。
圖2 數(shù)算融合網(wǎng)絡概要架構圖
注:CPU表示中央處理器;ASIC表示專用集成電路;FPGA表示現(xiàn)場可編程門陣列。
數(shù)據(jù)平面通過IPv6+技術(如APN6、SRv6)對數(shù)據(jù)進行封裝傳輸,應用數(shù)據(jù)由數(shù)據(jù)標簽進行標識和統(tǒng)一管理。數(shù)據(jù)在數(shù)據(jù)平面被封裝進IPv6+報文中,在數(shù)據(jù)空間的(邊緣)算力中心、數(shù)據(jù)中心、(用戶)連接設備之間轉(zhuǎn)發(fā)傳輸。數(shù)據(jù)標簽可根據(jù)需求進行設計,如設計為結構化的屬性值。數(shù)據(jù)平面通過結構化的數(shù)據(jù)表示來感知用戶的應用需求,按照需求通過IPv6+技術對網(wǎng)絡進行編程來控制各個節(jié)點/服務功能應用策略,進而響應數(shù)據(jù)空間的應用需求。
數(shù)算融合網(wǎng)絡的控制平面包括數(shù)字孿生網(wǎng)絡、數(shù)字孿生體管理模塊和網(wǎng)絡大模型。通過深度可編程網(wǎng)絡技術,控制平面可對網(wǎng)絡數(shù)據(jù)平面和控制平面功能進行實時更新,對物理網(wǎng)絡進行高效的操作和配置;基于數(shù)字孿生體,實現(xiàn)對物理網(wǎng)絡的低成本、高保真試錯驗證,并通過南向接口配置網(wǎng)元和計算設備??刂破矫嬷С滞ㄟ^數(shù)據(jù)標簽標識來對數(shù)據(jù)進行訪問控制和檢索,在數(shù)據(jù)規(guī)模適中時可以采用1對1精確檢索,在數(shù)據(jù)規(guī)模較大時為簡化標簽長度可以進行適當?shù)慕Y構化編碼來約簡標簽。此外,標簽不僅可以標識應用,還可以標識網(wǎng)絡、算力時隙,進行細粒度的應用 ? 算力 ? 網(wǎng)絡控制。為了驅(qū)動數(shù)據(jù)進行與應用需求相適配的傳輸,可以通過控制平面修改數(shù)據(jù)平面的數(shù)據(jù)轉(zhuǎn)發(fā)邏輯,進而修改封裝報文頭(如SRv6、APN6報文頭)對數(shù)據(jù)轉(zhuǎn)發(fā)進行傳輸控制。此外,控制平面可在數(shù)字孿生網(wǎng)絡中對數(shù)據(jù)轉(zhuǎn)發(fā)效果進行先行驗證,在驗證通過后再對物理網(wǎng)絡數(shù)據(jù)平面轉(zhuǎn)發(fā)邏輯進行配置。
數(shù)算融合網(wǎng)絡的編排層包含從用戶網(wǎng)絡業(yè)務到網(wǎng)絡解決方案編排的流程。編排層支持多樣化的數(shù)據(jù)空間網(wǎng)絡業(yè)務模型,尤其是可以適配算力調(diào)度相關的功能,實現(xiàn)算力建模和編排控制,保障算力順暢分發(fā)至數(shù)據(jù)空間的算力需求方。編排層的編排目標是網(wǎng)絡和算力的使用方匹配到相應的提供方,并提供數(shù)算融合網(wǎng)絡解決方案(如算力提供方案、運維管控方案等)。編排模型的約束可能包括現(xiàn)有數(shù)據(jù)的大小、數(shù)據(jù)產(chǎn)生的快慢、數(shù)據(jù)傳輸?shù)拇鷥r、數(shù)據(jù)分析的算力工作量預估、網(wǎng)絡擁塞程度、網(wǎng)絡資源可達性、網(wǎng)絡和算力剩余量、應用的最大時延抖動等。具體編排算法應具備一定的實時性能,在實踐中采用AI網(wǎng)絡大模型是一種推薦的方案。
傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡一般由接入層、匯聚層和核心層構建,主要包括數(shù)據(jù)中心內(nèi)部的網(wǎng)絡。數(shù)算融合網(wǎng)絡不僅包括數(shù)據(jù)中心網(wǎng)絡,還包括廣域網(wǎng)、算力中心等。云計算網(wǎng)絡和數(shù)算融合網(wǎng)絡都包括數(shù)據(jù)中心內(nèi)網(wǎng)絡、數(shù)據(jù)中心間網(wǎng)絡和接入網(wǎng)絡,但數(shù)算融合網(wǎng)絡還包括數(shù)據(jù)中心到算力中心的網(wǎng)絡,相應的技術也有不同。例如,云計算網(wǎng)絡一般不涉及算力路由的概念;數(shù)算融合網(wǎng)絡擁有數(shù)據(jù)控制的標簽,便于數(shù)據(jù)模型在網(wǎng)絡設施和計算設施間使用和更新。
(二) 我國數(shù)算融合網(wǎng)絡的發(fā)展需求
1. 產(chǎn)業(yè)升級需求
數(shù)算融合網(wǎng)絡技術的大規(guī)模落地有助于提升消費者體驗、促進產(chǎn)業(yè)升級。數(shù)算融合網(wǎng)絡技術可以實現(xiàn)農(nóng)業(yè)、工業(yè)、服務業(yè)朝網(wǎng)絡化和智能化方向轉(zhuǎn)型升級,推動工業(yè)數(shù)據(jù)空間(智能工廠)、物流數(shù)據(jù)空間(智慧倉庫、無人包裹投遞系統(tǒng))、交通數(shù)據(jù)空間(智慧港口、機場)、醫(yī)療數(shù)據(jù)空間(遠程診療)、農(nóng)業(yè)數(shù)據(jù)空間(智慧農(nóng)場)等的升級,形成“數(shù)算融合網(wǎng)絡+”的產(chǎn)業(yè)格局,推動各行業(yè)產(chǎn)品質(zhì)量、產(chǎn)品良率、服務質(zhì)量大幅提升,實現(xiàn)產(chǎn)品質(zhì)量升級和服務定制化轉(zhuǎn)型。
2. 經(jīng)濟發(fā)展需求
數(shù)算融合網(wǎng)絡通過新型確定性轉(zhuǎn)發(fā)、廣域無損傳輸?shù)燃夹g,可以解決網(wǎng)絡利用效率低、高丟包率等問題,推動互聯(lián)網(wǎng)從“盡力而為”向“確保所需”技術體系變革,滿足數(shù)據(jù)傳輸、算力互聯(lián)等典型的網(wǎng)絡需求,尤其是在大模型領域。當前,以ChatGPT為代表的對話機器人達到接近或超越人類水平,可以完成撰寫郵件、報告、代碼、生成圖像、視頻等工作,如在AlphaCode程序競賽中擊敗了45.7%的程序員。通用AI有望重塑或取代當前80%的人類工作,以微軟公司為代表的優(yōu)勢企業(yè)搶占人工智能生成內(nèi)容(AIGC)技術制高點。以文字生成、圖像生成為起點,AI生成范圍拓展至音頻、視頻等領域,將改變?nèi)藗冊诂F(xiàn)實世界中與技術互動和決策的方式,已在制造、交通、醫(yī)療、教育、營銷和娛樂等一系列行業(yè)中進行應用。AI大模型技術快速突破,具有超大規(guī)模、超多參數(shù)量的多模態(tài)大型神經(jīng)網(wǎng)絡將持續(xù)引領AIGC技術升級與演進。
數(shù)據(jù)和算力是大模型的核心要素。基于大模型的數(shù)字經(jīng)濟看似是虛擬經(jīng)濟,但已經(jīng)呈現(xiàn)虛實結合的態(tài)勢,并在具身智能領域?qū)崿F(xiàn)數(shù)據(jù)和實體協(xié)同發(fā)展,成為新的增長引擎。與實體經(jīng)濟的數(shù)據(jù)要素相結合,行業(yè)大模型對未來的經(jīng)濟發(fā)展至關重要。集成數(shù)據(jù)轉(zhuǎn)發(fā)和算力傳輸?shù)臄?shù)算融合網(wǎng)絡是面向AI大模型發(fā)展的重大機遇,可以解決數(shù)據(jù)安全、確權、價值保護等問題,亟需充分利用新型網(wǎng)絡核心技術,構建數(shù)據(jù)要素流通基礎設施,推動數(shù)字和實體經(jīng)濟的高質(zhì)量發(fā)展。
3. 基礎設施和技術需求
數(shù)算融合網(wǎng)絡屬于新型網(wǎng)絡通信基礎設施,為數(shù)據(jù)空間應用提供網(wǎng)絡服務智能生成能力,為占領信息基礎設施發(fā)展的制高點提供新的機遇。數(shù)算融合網(wǎng)絡是通信廠商進行技術更新迭代的重要方向。數(shù)算融合網(wǎng)絡設備是先進設備的代表,涉及5.5代移動通信(5.5G)網(wǎng)絡、6G網(wǎng)絡、算力網(wǎng)、邊緣計算等新興技術。通信設備廠商通過發(fā)展這些設備,可以緊跟技術潮流,提供更先進的網(wǎng)絡服務,滿足用戶對低延遲、高通量傳輸?shù)确矫娴男枨?。在快速發(fā)展的信息通信行業(yè)中,通信設備廠商若能夠提供數(shù)算融合網(wǎng)絡設備,將增強其在技術上的競爭力;通過提供更全面、先進的技術解決方案,可以吸引更多客戶,取得更大的市場份額。
四、數(shù)算融合網(wǎng)絡的關鍵技術
為推動算力與AI大模型的快速發(fā)展,數(shù)算融合網(wǎng)絡需要構建面向數(shù)據(jù)高效傳輸?shù)木W(wǎng)絡技術體系,形成無損、高性能的數(shù)據(jù)與算力互聯(lián)底座,建立網(wǎng)絡智能控制編排與安全保護機制,支撐算力、數(shù)據(jù)和模型的加速演進。
(一) 端側(cè):面向高速互聯(lián)的RDMA網(wǎng)卡
RDMA通過網(wǎng)絡可以實現(xiàn)高速、低延遲的數(shù)據(jù)傳輸,允許數(shù)據(jù)在遠程系統(tǒng)的內(nèi)存、GPU和存儲之間直接傳輸,而不涉及這些系統(tǒng)的CPU。在傳統(tǒng)網(wǎng)絡中,數(shù)據(jù)傳輸?shù)倪^程為:將數(shù)據(jù)從源系統(tǒng)的內(nèi)存復制到網(wǎng)絡堆棧,通過網(wǎng)絡發(fā)送,在接收端經(jīng)過多個步驟后將其復制到目標系統(tǒng)的內(nèi)存中。然而,RDMA將繞過這些中間步驟,實現(xiàn)更高效的數(shù)據(jù)傳輸。隨著AI智算中心的應用以及對高吞吐和低延遲的不斷追求,將協(xié)議棧卸載到網(wǎng)卡硬件中的RDMA技術發(fā)展迅速,支撐著各種AI和大數(shù)據(jù)的應用。需要指出的是,目前部分商用RDMA網(wǎng)卡將部分連接信息存儲在網(wǎng)卡緩存中,當網(wǎng)卡需要讀取的信息不在緩存中時就會觸發(fā)緩存丟失,然后需要讀取內(nèi)存,導致額外外圍組件快速互連(PCIe)延遲,進而導致網(wǎng)卡性能下降。隨著分布式集群規(guī)模的擴大,普通RDMA網(wǎng)卡中需要存儲的連接狀態(tài)增加,導致網(wǎng)卡擴展性問題加劇。
為此,數(shù)算融合網(wǎng)絡需要適配400 G RDMA網(wǎng)卡,突破256 AI流量連接限制,在不降低吞吐量的情況下,支持10 K量級的活躍流量連接。同時,400 G RDMA網(wǎng)卡應支持InfiniBand、以太網(wǎng)等協(xié)議以及高達400 Gbps的連接速度,支持各種先進、可擴展的網(wǎng)絡解決方案,支撐AI、科學計算和超大規(guī)模云數(shù)據(jù)中心工作負載。
(二) 數(shù)據(jù)中心內(nèi):逐包負載均衡機制
數(shù)算融合網(wǎng)絡針對智算中心網(wǎng)絡超大帶寬、超低延遲的需求,需要配備數(shù)據(jù)中心無損網(wǎng)絡交換設備(交換機和網(wǎng)卡),支持新型RDMA協(xié)議、整體轉(zhuǎn)發(fā)容量不低于51.2 T,單端口速率支持超高速端口(400 G/800 G),特別需要支持逐包負載均衡協(xié)議。
智算中心最重要的工作負載是AI應用的流量。AI工作負載可能生成少量大數(shù)據(jù)流(大象流),占用大量鏈路帶寬。如果多個大象流匯聚到同一條鏈路,會出現(xiàn)擁塞和高延遲,導致傳統(tǒng)的等價多路(ECMP)負載均衡機制性能降低;如果負載均衡是逐流完成的,則仍然有很大的統(tǒng)計概率會發(fā)生擁塞,而在逐包路由均衡時,數(shù)據(jù)包到達目的地時可能會亂序。對于數(shù)據(jù)包粒度的自適應路由,需采用靈活的重新排序機制,以使路由對應用程序不可見。
數(shù)算融合網(wǎng)絡采用自適應路由算法來動態(tài)負載平衡穿過網(wǎng)絡的數(shù)據(jù),并且支持數(shù)據(jù)包級別精細路由以避免大象流沖突。數(shù)算融合網(wǎng)絡逐包的細粒度負載均衡工作流程為:入向流量基于自適應路由選路;基于選路結果,進行逐包負載分擔,擁塞鏈路不承載新轉(zhuǎn)發(fā)流量;端側(cè)網(wǎng)卡實現(xiàn)亂序重排(如可采用直接數(shù)據(jù)放置技術進行重排)??傊?,數(shù)算融合網(wǎng)絡采用逐包的細粒度負載分擔與端側(cè)亂序報文恢復機制,通過交換機和網(wǎng)卡配合完成負載均衡工作過程,解決了智算中心流量不均衡導致的網(wǎng)絡性能降低問題。
(三) 數(shù)據(jù)中心出口:廣域無損傳輸協(xié)議及網(wǎng)關
無損網(wǎng)絡數(shù)據(jù)傳輸確保所有數(shù)據(jù)包準確到達目的地,并且在傳輸過程中不會丟失,這對大規(guī)模AI系統(tǒng)部署至關重要。數(shù)算融合網(wǎng)絡通過RDMA和優(yōu)先級流量控制(PFC)實現(xiàn)無損傳輸。
數(shù)據(jù)中心間多為長距離互聯(lián),面對長距RDMA傳輸控制環(huán)路長的挑戰(zhàn),數(shù)算融合網(wǎng)絡使用在數(shù)據(jù)中心互聯(lián)(DCI)交換機(網(wǎng)關)處通過報文分別控制發(fā)生在兩端數(shù)據(jù)中心擁塞的分段傳輸控制方法(可視作一種PFC方法),從而將控制回路縮短至單數(shù)據(jù)中心規(guī)模,并可適配不同端側(cè)網(wǎng)卡,實現(xiàn)廣域無損傳輸。為測試數(shù)算融合網(wǎng)絡的廣域無損傳輸功能,我國在南京—北京構建了跨1000 km的長距無損RDMA測試環(huán)境,使用硬件原型交換機(網(wǎng)關),網(wǎng)絡吞吐量從25 G提升到96 G,驗證了數(shù)算融合網(wǎng)絡廣域無損傳輸協(xié)議及網(wǎng)關的可行性。
(四) 數(shù)據(jù)中心間:新型確定性承載網(wǎng)絡
數(shù)據(jù)中心間的AI數(shù)據(jù)傳輸要求確定性大帶寬和低時延抖動等服務質(zhì)量(QoS)保障。確定性承載網(wǎng)絡可以在廣域?qū)崿F(xiàn)端到端的確定性QoS保障,為業(yè)務提供高可靠、高帶寬的網(wǎng)絡服務。QoS保障可以通過SRv6網(wǎng)絡編程和擁塞調(diào)度實現(xiàn)。數(shù)算融合網(wǎng)絡面向復雜的行業(yè)大模型業(yè)務隔離需求,通過SRv6協(xié)議承載、靈活以太網(wǎng)(FlexE)、確定性組網(wǎng)(DetNet)構建“子切片”,提供業(yè)務級差分服務和細顆粒度的確定性“片中片”網(wǎng)絡,提供用戶層次化SLA保障機制。數(shù)算融合網(wǎng)絡能夠?qū)崿F(xiàn)業(yè)務QoS到確定性網(wǎng)絡功能的靈活定制與在線重配,解決行業(yè)數(shù)據(jù)傳輸?shù)母綦x問題。具體地,為實現(xiàn)SLA和業(yè)務對應機制,數(shù)算融合網(wǎng)絡通過FlexE物理切片區(qū)分行業(yè)(如面向企業(yè)、家庭和消費者的垂直行業(yè)),通過DetNet“子切片”區(qū)分企業(yè),通過QoS區(qū)分業(yè)務。
(五) 算力中心間:算力路由、在網(wǎng)計算和廣域RDMA
在數(shù)算融合網(wǎng)絡中,算力中心通過網(wǎng)絡互聯(lián),關鍵技術包括算力路由、在網(wǎng)計算和廣域RDMA。算力中心提供異構算力如CPU、GPU、ASIC等,以及(超級)計算設備和軟件。算力路由可以實現(xiàn)算力節(jié)點和算力服務的路由尋址,為動態(tài)選擇計算路徑提供依據(jù)。在網(wǎng)計算將計算任務卸載至網(wǎng)絡,實現(xiàn)計算加速,提升數(shù)算融合網(wǎng)絡的資源利用率。同時,在網(wǎng)計算可以搭配算力中心的算力,補充其在邊和端的計算能力,增強算力可達性。廣域RDMA構建在確定性聯(lián)網(wǎng)之上,可以突破長距、高通量傳輸瓶頸,實現(xiàn)算力中心在廣域的高性能互聯(lián)。
(六) 數(shù)據(jù)與算力中心間:“數(shù)算網(wǎng)”協(xié)同優(yōu)化技術
數(shù)算融合網(wǎng)絡通過結構化數(shù)據(jù)標簽描述應用數(shù)據(jù),通過算力尋址找到合適的算力,將數(shù)據(jù)、算力信息封裝進IPv6(APN6、SRv6)報文頭,分批、分階段完成計算;通過優(yōu)化計算路徑和網(wǎng)絡轉(zhuǎn)發(fā)路徑,形成“數(shù)算網(wǎng)”協(xié)同橫向優(yōu)化,從而滿足數(shù)據(jù)空間應用的計算和轉(zhuǎn)發(fā)需求。同時,數(shù)算融合網(wǎng)絡還將縱向優(yōu)化網(wǎng)絡協(xié)議棧(L1.5、L2、L3等開放式系統(tǒng)互聯(lián)模型層級),降低數(shù)據(jù)的轉(zhuǎn)發(fā)時延;縱向優(yōu)化計算的軟件和硬件協(xié)同能力可以進一步降低計算延遲。通過橫向和縱向協(xié)同,數(shù)算融合網(wǎng)絡可在數(shù)據(jù)空間大規(guī)模數(shù)據(jù)轉(zhuǎn)發(fā)和計算任務上取得優(yōu)越的性能提升。
(七) 控制層:基于大模型的數(shù)字孿生網(wǎng)絡系統(tǒng)
數(shù)算融合網(wǎng)絡控制層包括數(shù)字孿生網(wǎng)絡及其管理模塊,用來構建網(wǎng)絡服務生成功能。服務生成功能包括分析器、規(guī)劃器、計算器、執(zhí)行器4個模塊,每個模塊由微調(diào)的大語言模型賦能,模塊間提示詞自動或人工傳遞。以網(wǎng)絡規(guī)劃為例,輸入任務、網(wǎng)絡狀態(tài)、約束,輸出可視化的網(wǎng)絡擁塞情況拓撲。每個模塊可通過大語言模型調(diào)用傳統(tǒng)網(wǎng)絡工具并結合工具輸出、生成最終網(wǎng)絡規(guī)劃內(nèi)容。
技術上,大語言模型需要在公用數(shù)據(jù)上訓練,以獲取通用認知,同時需要在網(wǎng)絡文件(如IETF RFC文件、IEEE網(wǎng)絡標準、3GPP標準)上進行微調(diào),以保障模型對網(wǎng)絡語言的認知和理解。此外,數(shù)字孿生網(wǎng)絡需要構建在加速的硬件上以保障仿真和模擬的速度,因應實時網(wǎng)絡服務生成需求。
從數(shù)據(jù)空間業(yè)務需求的角度,基于大模型的服務能力,可以將數(shù)算融合網(wǎng)絡的控制層分成5種級別。① Level1:數(shù)算融合網(wǎng)絡能理解用戶自然語言或多模態(tài)表達的需求,但常常理解錯誤,經(jīng)常需要網(wǎng)絡管理員介入網(wǎng)絡服務生成過程。② Level2:數(shù)算融合網(wǎng)絡能理解用戶自然語言或多模態(tài)表達的需求,理解準確度、覆蓋度、可靠性指標較好,大部分情況不需要網(wǎng)絡管理員介入服務生成過程。③ Level3:數(shù)算融合網(wǎng)絡能理解用戶自然語言或多模態(tài)表達的需求,理解準確度、覆蓋度、可靠性指標非常高,很少需要網(wǎng)絡管理員介入服務生成過程。④ Level4:網(wǎng)絡服務生成過程基本自動化,在遇到特殊情況時,數(shù)算融合網(wǎng)絡會放棄自動化過程由網(wǎng)絡管理員接管網(wǎng)絡。⑤ Level5:完全自動化網(wǎng)絡服務生成過程,僅依賴用戶需求輸入。數(shù)算融合網(wǎng)絡理解網(wǎng)絡意圖的能力將超過專業(yè)網(wǎng)絡管理員,全過程無網(wǎng)絡管理員介入,具備自糾錯能力。數(shù)算融合網(wǎng)絡將從數(shù)據(jù)驅(qū)動網(wǎng)絡、意圖驅(qū)動網(wǎng)絡,走向智能生成網(wǎng)絡,基于大模型和數(shù)字孿生系統(tǒng),實現(xiàn)“網(wǎng)絡具身智能”。
(八) 編排層:綠色低碳算力網(wǎng)絡調(diào)度關鍵技術
ChatGPT每天要響應大約2×108個請求,消耗的電力超過5×105 kW·h。因此,研究和發(fā)展綠色低碳算力網(wǎng)絡,對于減少數(shù)據(jù)中心的碳排放、提高計算效率、降低運營成本以及推動可持續(xù)發(fā)展至關重要。2023年,谷歌公司提出了可持續(xù)數(shù)據(jù)中心的設想,通過優(yōu)化服務器的能效,提高處理器、內(nèi)存等的能源利用率,并采用可變速風扇和智能電源管理等技術來降低功耗。數(shù)算融合網(wǎng)絡聚焦“比特(通信網(wǎng)絡)”和“瓦特(能源)”融合機制,突破“算網(wǎng)能”核心關鍵技術,構建能源可持續(xù)的算網(wǎng)能協(xié)同創(chuàng)新技術體系。為實現(xiàn)數(shù)算融合網(wǎng)絡綠色低碳發(fā)展,紫金山實驗室聯(lián)合中國能源建設集團有限公司,設計了“算網(wǎng)能”一體化功能架構,實現(xiàn)了全面的算網(wǎng)能資源管理和優(yōu)化,降低了能耗和碳排放。
(九) 安全體系:TB級分布式智驅(qū)安全技術
數(shù)算融合網(wǎng)絡的TB級分布式智驅(qū)安全關鍵技術包括:全分布式架構,通過高效配置、業(yè)務無間斷升級、極簡運維,實現(xiàn)全局準確定位和協(xié)同防御;可編程數(shù)據(jù)面,可以實現(xiàn)高性能、微結構、功能靈活編排;實時智能AI算法,如多級決策、實時數(shù)據(jù)在線訓練、持續(xù)演進。數(shù)算融合網(wǎng)絡將防御分布部署在智驅(qū)安全架構的多個數(shù)據(jù)平面上,實現(xiàn)高性能10 TB級分布式拒絕服務(DDoS)安全防護、中心節(jié)點對全網(wǎng)安全狀態(tài)統(tǒng)一研判部署、本地節(jié)點獨立即時響應決策。目前,我國數(shù)算融合網(wǎng)絡安全系統(tǒng)在北京、南京、上海、廣州、武漢、成都、西安等7個城市率先部署,依托未來網(wǎng)絡試驗設施(CENI)開展DDoS安全防護、流量清洗等創(chuàng)新試驗,驗證了分布式安全關鍵技術的可行性。
五、數(shù)算融合網(wǎng)絡應用場景
(一) “東數(shù)西算”八大樞紐互聯(lián)
數(shù)算融合網(wǎng)絡可以構建抗攻擊能力強、傳輸效率高、可定制成本低的算力網(wǎng)絡新總線,為“東數(shù)西算”重大工程的整體安全、可靠、高效運行提供有力支撐。如圖3所示,通過構建數(shù)算融合網(wǎng)絡,互聯(lián)“東數(shù)西算”八大算力樞紐,支持平滑演進至256 T,具備多路徑保護;結合長距RDMA技術,數(shù)算融合網(wǎng)絡從數(shù)據(jù)傳輸源頭提供確定性傳輸保障,并大幅度提升同等帶寬下的吞吐能力;推動國家大科學裝置CENI的性能大幅提升;在八大樞紐之間開展市場化服務,為各類市場主體實現(xiàn)“東數(shù)西算”提供進一步網(wǎng)絡支撐。
圖3 “東數(shù)西算”八大樞紐的互聯(lián)情況
(二) 慶陽城市算力網(wǎng)應用
城市算力網(wǎng)可以豐富算力的供給、應用和服務方式,顯著提升算網(wǎng)服務的靈活性和高效性。甘肅省慶陽市依托數(shù)算融合網(wǎng)絡技術,構建了確定性算力網(wǎng)絡。① 東輸:基于CENI的資源,建設了慶陽市到東部10個算力需求城市的100 G通道,并輻射周邊城市,重點服務京津冀、長江三角洲(長三角)、粵港澳大灣區(qū)等區(qū)域的算力需求。② 西聯(lián):連接蘭州市,覆蓋甘肅省,服務西部產(chǎn)業(yè)集聚和“一帶一路”沿線地區(qū)。通過城市算力網(wǎng),打造跨區(qū)域算力市場運營新模式,以慶陽市為“算力供給站”、南京市為“算力使用站”共同發(fā)展算力網(wǎng)產(chǎn)業(yè);以南京市為中心輻射長三角地區(qū),構建“能源 ? 算力 ? 市場”產(chǎn)業(yè)體系。城市算力網(wǎng)可以促進算力的統(tǒng)一供給、智能匹配、按需接入,是推動城市數(shù)字化轉(zhuǎn)型的“新底座”。
(三) 服務工業(yè)互聯(lián)網(wǎng)(工業(yè)外網(wǎng))
數(shù)算融合網(wǎng)絡的一個重要應用場景是服務工業(yè)外網(wǎng)(見圖4)。我國依托數(shù)算融合網(wǎng)絡(基于CENI構建)技術,建設了智能、柔性、安全、可定制的長三角一體化網(wǎng)絡,滿足江蘇省、國家工業(yè)互聯(lián)網(wǎng)、能源互聯(lián)網(wǎng)、專用場景、車聯(lián)網(wǎng)等重大科研試驗與產(chǎn)業(yè)示范應用需求,實現(xiàn)了核心技術創(chuàng)新引領與實體經(jīng)濟深度融合,并賦能垂直行業(yè)。除此之外,依托數(shù)算融合網(wǎng)絡技術,構建了山東臨工工程機械有限公司(簡稱山東臨工) ? 產(chǎn)業(yè)鏈協(xié)同云平臺。以確定性一體化算網(wǎng)為底座,以山東臨工為鏈主、打通工程機械行業(yè)上下游企業(yè)數(shù)據(jù)鏈條,實現(xiàn)了跨企業(yè)數(shù)據(jù)協(xié)同,帶動了包括供需、生產(chǎn)、庫存、物流、財務等全產(chǎn)業(yè)協(xié)同發(fā)展。該云平臺已經(jīng)支持了1279家工程機械產(chǎn)業(yè)鏈上下游企業(yè)生產(chǎn)、業(yè)務、設備接入;推動工程機械產(chǎn)品的商業(yè)化周期縮短了15%,核心產(chǎn)品質(zhì)量提升超15%。
圖4 數(shù)算融合網(wǎng)絡服務工業(yè)外網(wǎng)框圖
(四) 能源互聯(lián)網(wǎng)——服務國家“雙碳”戰(zhàn)略
我國依托數(shù)算融合網(wǎng)絡,構建能源互聯(lián)網(wǎng),在山東省濟南市建設省、市、縣、園區(qū)、用能單位的5級管理綜合能源服務平臺和能源大數(shù)據(jù)中心。基于確定性網(wǎng)絡的能源大數(shù)據(jù)中心實現(xiàn)了電力系統(tǒng)能源數(shù)據(jù)秒級監(jiān)測,通過優(yōu)化基本電費申報方式,參與實施的7家企業(yè)降低基本電費支出10%以上。運用能源大數(shù)據(jù)中心的數(shù)據(jù)分析功能,可以發(fā)現(xiàn)用能環(huán)節(jié)存在的問題,幫助企業(yè)提高用能效能,降低用能成本,協(xié)助政府和企業(yè)實現(xiàn)低碳發(fā)展目標。目前,能源互聯(lián)網(wǎng)服務的政府和企業(yè)客戶超過700家,業(yè)務覆蓋23個省份,積極推進國家碳達峰與碳中和戰(zhàn)略。
(五) 數(shù)算融合網(wǎng)絡行業(yè)大模型應用
行業(yè)大模型的重要性日益突出,可以更好地滿足特定行業(yè)對精度、專業(yè)性、合規(guī)性等方面的要求,在提升行業(yè)效率的同時,還能創(chuàng)造更多的商業(yè)價值。例如,教育行業(yè)大模型能夠根據(jù)學生的學習進度、興趣和弱點,生成個性化的學習內(nèi)容,并調(diào)整教學策略;健康管理行業(yè)大模型能夠分析患者的醫(yī)療數(shù)據(jù),評估潛在健康風險,給出醫(yī)療參考建議;智能制造行業(yè)大模型能夠預測設備的故障風險、優(yōu)化生產(chǎn)線調(diào)度等。行業(yè)大模型訓練和推理是數(shù)算融合網(wǎng)絡的重要應用場景,通過構建跨廣域算網(wǎng)、集成云和邊緣算力,數(shù)算融合網(wǎng)絡能夠支持超大規(guī)模智算集群高可靠、確定性通信,實現(xiàn)大模型并行訓練和推理,推進行業(yè)大模型高質(zhì)量發(fā)展。數(shù)算融合網(wǎng)絡支撐的行業(yè)大模型技術能夠顯著提升生產(chǎn)效率。例如,依托數(shù)算融合網(wǎng)絡構建的制造業(yè)行業(yè)大模型能夠?qū)崿F(xiàn)某家電企業(yè)產(chǎn)線檢測平均精度提升10%,產(chǎn)線投產(chǎn)時間降低30%。
六、我國數(shù)算融合網(wǎng)絡發(fā)展面臨的問題和挑戰(zhàn)
(一) 數(shù)算融合網(wǎng)絡技術待強化
目前,我國數(shù)算融合網(wǎng)絡的技術體系尚未完全形成。AI、隱私保護等關鍵技術創(chuàng)新應用有待加強;數(shù)據(jù)流通、識別在數(shù)算融合網(wǎng)絡的整合與集成仍顯不足,數(shù)算融合網(wǎng)絡的可擴展性有待加強。大模型在數(shù)算融合網(wǎng)絡中的深度集成,如智能化運維、配置、服務等方面,尚有發(fā)展空間。特別地,隱私保護技術是數(shù)據(jù)在數(shù)據(jù)空間流動的基礎。我國相關行業(yè)數(shù)據(jù)全面,但出于數(shù)據(jù)隱私的顧慮,大量有價值的數(shù)據(jù)未能在數(shù)據(jù)空間中發(fā)揮作用。例如,直接使用公開的網(wǎng)絡,可能會將設備或軟件解決方案傳送至服務提供方,造成重要數(shù)據(jù)泄露,侵害數(shù)據(jù)隱私權,因而亟需解決行業(yè)發(fā)展中的數(shù)據(jù)隱私問題。
(二) 數(shù)算融合網(wǎng)絡標準體系待制定
數(shù)算融合網(wǎng)絡標準化工作對數(shù)據(jù)空間發(fā)展尤為關鍵,仍需進一步優(yōu)化以應對數(shù)據(jù)空間應用多樣化的網(wǎng)絡需求。數(shù)算融合網(wǎng)絡引入了網(wǎng)絡大模型、確定性轉(zhuǎn)發(fā)技術、數(shù)字孿生技術等,但現(xiàn)有的網(wǎng)絡標準對相應技術的適應性不足,不能充分滿足需求。新技術帶來了更高的智能水平、更低的延遲要求、端到端的人、機、物設備連接,亟需制定新的標準來確保網(wǎng)絡的可靠性和效率。
(三) 數(shù)算融合網(wǎng)絡產(chǎn)業(yè)機制待發(fā)展
我國已初步形成全周期的數(shù)據(jù)產(chǎn)業(yè)鏈,但跨行業(yè)、跨區(qū)域的數(shù)據(jù)空間流通仍存在阻礙;數(shù)算融合網(wǎng)絡作為數(shù)據(jù)空間的網(wǎng)絡支撐,與數(shù)據(jù)空間的產(chǎn)業(yè)協(xié)同發(fā)展機制有待加強,需要構建符合國情的數(shù)算融合網(wǎng)絡和數(shù)據(jù)空間交易市場,以促進數(shù)據(jù)要素價值釋放。例如,在智慧城市和跨城市數(shù)據(jù)空間中通過數(shù)算融合網(wǎng)絡,可以智能實時分析交通流量、空氣質(zhì)量、能源消耗等數(shù)據(jù),進行動態(tài)決策,優(yōu)化城市運營效率,但目前相關產(chǎn)業(yè)的發(fā)展有待進一步加強。
(四) 單點算力差距待彌補
受制于先進芯片制程成熟程度不足等因素,我國的單點算力發(fā)展程度尚不能達到國際先進水平。單點算力不足體現(xiàn)在單一芯片的計算能力和多顆芯片高速互聯(lián)后形成的新的單一芯片的計算能力等方面。此外,單點算力不足還將導致(邊緣)算力中心、接入設備、在網(wǎng)計算能力不足,不能滿足高質(zhì)量應用的需求。例如,自動駕駛、虛擬(增強)現(xiàn)實和人形機器人等應用,都對網(wǎng)絡計算資源有較高要求。如果算力不足,網(wǎng)絡切片無法及時響應各應用的動態(tài)需求,可能導致服務出現(xiàn)性能瓶頸甚至服務中斷。
七、我國數(shù)算融合網(wǎng)絡發(fā)展建議
(一) 構建支撐行業(yè)大模型高質(zhì)量發(fā)展的公用專網(wǎng)
大模型是一種生產(chǎn)力變革新范式,能夠為產(chǎn)業(yè)生態(tài)帶來新布局,也是社會發(fā)展的新拐點。由于發(fā)展訴求、政策環(huán)境、發(fā)展階段、區(qū)域文化、區(qū)域人口、產(chǎn)業(yè)結構、地理資源不同,我國發(fā)展區(qū)域定制化大模型需要跨廣域算網(wǎng)融合。建議進一步發(fā)展制造、交通、能源、應急、國防等智能化的公用專網(wǎng)。智能化的公用專網(wǎng)是我國“東數(shù)西算”的重要基礎設施,能提供成千上萬個不同專網(wǎng)服務的網(wǎng)絡,行業(yè)、企業(yè)、用戶可獲得快捷、經(jīng)濟安全的上網(wǎng)服務,同時為定制化大模型提供專網(wǎng)服務。特別地,在數(shù)算融合網(wǎng)絡的數(shù)據(jù)專網(wǎng)中,應采用數(shù)據(jù)加密訪問控制、身份驗證、數(shù)據(jù)匿名化脫敏、審計監(jiān)控、網(wǎng)絡隧道和切片控制、路由策略等方法,實現(xiàn)安全可靠的傳輸數(shù)據(jù),解決數(shù)據(jù)隱私問題,提升數(shù)據(jù)空間中流通的行業(yè)數(shù)據(jù)集質(zhì)量。
(二) 推動數(shù)算融合網(wǎng)絡科學裝置建設,服務國家科學發(fā)展
面對國家數(shù)字經(jīng)濟的發(fā)展要求,數(shù)算融合網(wǎng)絡重點解決顛覆式應用發(fā)展與未來產(chǎn)業(yè)發(fā)展的賦能問題,在核心技術、設施規(guī)模、服務能力等方面實現(xiàn)全面提升。數(shù)算融合網(wǎng)絡先期基于CENI科學裝置構建,CENI一期工程(2018—2024年)覆蓋40個城市,包含133個邊緣網(wǎng)絡;具備分鐘級按需定制網(wǎng)絡服務、微秒級確定性保障服務、千萬級大規(guī)模多云交換服務、TB級智驅(qū)網(wǎng)絡安全防護四大能力。CENI一期工程已經(jīng)具備部分數(shù)算融合網(wǎng)絡的功能,如算力樞紐互聯(lián)、確定性承載、基于網(wǎng)絡大模型的網(wǎng)絡方案設計等。但是尚有較多內(nèi)容需要探索和補充,如需要更多融合算力路由、在網(wǎng)計算、確定性聯(lián)網(wǎng)等的工具;需要進行更加一體化的技術突破、實驗驗證和工程實現(xiàn)。
建議持續(xù)推進數(shù)算融合網(wǎng)絡科學裝置的建設,提高空天域、信息域、物理域等的覆蓋能力,如EB級超高通量吞吐能力、TB級深度可編程轉(zhuǎn)發(fā)能力、零丟包確定性無損傳輸能力、毫秒級網(wǎng)絡自動駕駛能力、千億級算網(wǎng)一體調(diào)度能力。進一步推動數(shù)算融合網(wǎng)絡科學裝置建設,一方面驗證網(wǎng)絡技術的可行性和效率;另一方面服務于垂直科學領域的發(fā)展,如服務核聚變系統(tǒng)的研發(fā)、新能源設備的互聯(lián)測試、先進數(shù)據(jù)交易系統(tǒng)的驗證等。
(三) 依托數(shù)算融合網(wǎng)絡,推動數(shù)據(jù)空間成果落地
數(shù)算融合網(wǎng)絡發(fā)展的基礎能力包括超核800 G光網(wǎng)絡、全可編程確定性基礎設施、智能邊緣算力節(jié)點、高精度測量系統(tǒng)、輕量安全控制系統(tǒng)、網(wǎng)絡大模型、全域科學計算服務。建議基于數(shù)算融合網(wǎng)絡,實現(xiàn)國家實驗室、國家大科學裝置、超算中心互聯(lián),集成科研環(huán)境,實現(xiàn)無縫互操作,支撐AI模型跨廣域訓練、天文數(shù)據(jù)協(xié)同計算、風力發(fā)電、地震預測等科研與應用,服務國家重大戰(zhàn)略。依托數(shù)算融合網(wǎng)絡,構建高質(zhì)量產(chǎn)業(yè)生態(tài)和開源軟件體系,制定相關基礎設施、技術和應用標準,統(tǒng)籌遠期規(guī)劃和近期發(fā)展;在切合國家重大政策的同時,推動數(shù)據(jù)空間成果轉(zhuǎn)化和落地,形成數(shù)算融合網(wǎng)絡和數(shù)據(jù)空間應用互促共榮的產(chǎn)業(yè)發(fā)展機制,服務目標為滿足千億級AI大模型、EB級數(shù)據(jù)傳輸和實時計算需求。
(四) 開展大規(guī)模算力協(xié)作,突破單點算力不足瓶頸
先進AI模型的發(fā)展依賴大規(guī)模數(shù)據(jù)在計算設施中的重復迭代訓練,而高算力可以極大加速這一訓練過程,提高模型部署效率。我國數(shù)算融合網(wǎng)絡的單點算力性能與世界最先進水平相比仍有差距,亟需突破先進制程不足的技術瓶頸和通過算力協(xié)同應對高端芯片與制程產(chǎn)能不足的問題。建議通過算力組網(wǎng),協(xié)同計算、網(wǎng)絡、存儲和系統(tǒng),構建高性能算力底座,實現(xiàn)超大規(guī)模集群萬卡協(xié)作,突破單點算力瓶頸,加速AI大模型訓練和部署。同時,依托數(shù)算融合網(wǎng)絡構建廣域無損確定性傳輸系統(tǒng),實現(xiàn)算力和數(shù)據(jù)在局域和廣域環(huán)境高效互聯(lián),進一步強化數(shù)算融合網(wǎng)絡的算力協(xié)作能力。
注:本文內(nèi)容呈現(xiàn)略有調(diào)整,若需可查看原文。
作者簡介
劉韻潔
通信與信息系統(tǒng)專家,中國工程院院士。
主要從事未來網(wǎng)絡架構與技術體系研究。
注:論文反映的是研究成果進展,不代表《中國工程科學》雜志社