12月23日上午,以“打造超彈性無損智算IP廣域網(wǎng),加速邁向智能時代”為主題的智算IP廣域網(wǎng)產(chǎn)業(yè)交流會在北京成功舉辦。會上,中國信息通信研究院技術與標準研究所互聯(lián)網(wǎng)中心主任高巍進行了《智算廣域網(wǎng)發(fā)展思考》的分享。
高巍介紹到,人工智能是全球關注的產(chǎn)業(yè)熱點,在政策和市場的驅動下,國內(nèi)建設了很多智算資源池,尤其運營商在全國各地布局多級算力資源池體系,如何充分發(fā)揮這些智算資源的作用,使其成為各個行業(yè)能夠使用的智算服務,成為了當務之急,在這里網(wǎng)絡需要發(fā)揮重要作用,“網(wǎng)效”與“算效”需要提升互促。
智算業(yè)務對網(wǎng)絡的要求相比傳統(tǒng)網(wǎng)絡有很大差別。首先,業(yè)務特征不同決定了對網(wǎng)絡質(zhì)量要求不同,例如,傳統(tǒng)互聯(lián)網(wǎng)業(yè)務對丟包的容忍度在10-2級別,而以RDMA協(xié)議承載的智算業(yè)務對網(wǎng)絡丟包的容忍度在10-7級別,差了5個數(shù)量級。其次是流量模型不同,傳統(tǒng)業(yè)務以海量小流量(“螞蟻流”)為主,現(xiàn)有網(wǎng)絡的負載均衡也是以此前提來設計的,而智算業(yè)務是GB級的大流量(“大象流”),將對網(wǎng)絡帶寬利用率造成很大的挑戰(zhàn)。再次,網(wǎng)絡服務模式需求不同,當前企業(yè)更多是使用固定帶寬的網(wǎng)絡連接服務,而智算業(yè)務的數(shù)據(jù)傳送往往是需要短時大帶寬,對網(wǎng)絡彈性服務的要求更高。如何通過提高網(wǎng)效,充分發(fā)揮算效是現(xiàn)在非常重要的命題。
智算廣域網(wǎng)是支撐人工智能計算業(yè)務全生命周期的廣域網(wǎng)絡,是對運營商城域網(wǎng)和骨干網(wǎng)的全面升級,包括支撐企業(yè)/行業(yè)大量樣本傳送的入算網(wǎng)絡,以及支撐智算中心之間協(xié)同訓練(參數(shù)面互聯(lián))的算間網(wǎng)絡,將支撐全社會智算資源的高效利用與服務。
當前國內(nèi)外運營商和互聯(lián)網(wǎng)紛紛啟動智算廣域網(wǎng)相關的研究和實踐,相關技術也成為IETF、ITU-T等國際標準組織的熱點,國內(nèi)通信標準化協(xié)會網(wǎng)絡和業(yè)務技術委員會也開展了相關的標準研制,智算廣域網(wǎng)絡標準行標立項5項,國標《智算廣域網(wǎng)絡總體技術要求》已通過立項預討論。
高巍介紹了智算廣域網(wǎng)的主要場景,包括:1、大樣本的快速入算,通過網(wǎng)絡帶寬動態(tài)調(diào)度和對大象流的有效負載均衡,實現(xiàn)海量樣本數(shù)據(jù)的快速入算,充分利用高帶寬的網(wǎng)絡資源。2、敏感樣本的邊傳邊訓,一些行業(yè)樣本數(shù)據(jù)對數(shù)據(jù)安全要求很高,不希望第三方算力資源進行數(shù)據(jù)的存儲,需要網(wǎng)絡實現(xiàn)長距離廣域無損傳輸,直接通過RDMA協(xié)議進入算力資源的內(nèi)存進行訓練計算。3、跨DC協(xié)同訓練,隨著大模型參數(shù)快速增長,單體DC難以滿足算力或能源的需求,需要廣域網(wǎng)絡連接不同的數(shù)據(jù)中心進行協(xié)同訓練,對網(wǎng)絡帶寬需求很大,且需要保證嚴格無損,目前業(yè)界正在開展相關實驗。4、業(yè)務推理及模型分發(fā),需要網(wǎng)絡帶寬靈活調(diào)整,并具備安全隔離能力。
未來智算廣域網(wǎng)的重點技術研究方向包括廣域無損調(diào)度算法、跨DC網(wǎng)絡的精準流控、廣域擁塞控制、智能流量識別與拆分、智算業(yè)務可視運維等等。
最后,面向智算廣域網(wǎng)未來的發(fā)展,高巍建議產(chǎn)業(yè)界共同開展技術創(chuàng)新,凝聚產(chǎn)業(yè)共識,加快相關規(guī)范標準的研究,并通過向業(yè)界廣泛征集典型案例,不斷積累經(jīng)驗,相互借鑒,加快智算廣域網(wǎng)產(chǎn)業(yè)和業(yè)務的成熟。