[中國(guó),上海,2023年9月20日] 華為全聯(lián)接大會(huì)2023期間,在數(shù)通的星河AI網(wǎng)絡(luò)主題峰會(huì)上,華為聯(lián)合中國(guó)信息通信研究院、科大訊飛研究院向全球共同發(fā)布《星河AI網(wǎng)絡(luò)白皮書》(以下簡(jiǎn)稱“白皮書”),白皮書從AI業(yè)務(wù)的發(fā)展趨勢(shì)、網(wǎng)絡(luò)架構(gòu)和關(guān)鍵技術(shù)創(chuàng)新等三個(gè)方面展示星河AI網(wǎng)絡(luò)在業(yè)界人工智能產(chǎn)業(yè)的技術(shù)領(lǐng)導(dǎo)力。旨在促進(jìn)行業(yè)數(shù)智化轉(zhuǎn)型、推動(dòng)產(chǎn)業(yè)升級(jí)及合作,為構(gòu)建面向AI大模型的高性能訓(xùn)練網(wǎng)絡(luò)提供參考。
中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所總工程師 郭亮(左)
華為數(shù)據(jù)通信產(chǎn)品線副總裁 趙志鵬(中)
科大訊飛AI工程院副院長(zhǎng) 王金钖(右)
白皮書指出,近年來(lái)AI算法已邁入萬(wàn)億參數(shù)大模型時(shí)代,算力需求增長(zhǎng)近十萬(wàn)倍, AI大規(guī)模計(jì)算需要高效協(xié)同數(shù)萬(wàn)張AI處理器,需要持續(xù)優(yōu)化網(wǎng)絡(luò),提高并行計(jì)算效率;且由于AI處理器成本高昂,亟需搭建零丟包高吞吐的高性能網(wǎng)絡(luò),充分釋放AI處理器效率;同時(shí),AI大模型訓(xùn)練周期長(zhǎng),萬(wàn)卡集群流量規(guī)模達(dá)到數(shù)10萬(wàn)條,需要有效的運(yùn)維手段,降低平均故障間隔時(shí)間
基于以上挑戰(zhàn),星河AI網(wǎng)絡(luò)解決方案提出了以下幾個(gè)創(chuàng)新點(diǎn):
高性能:采用NSLB(AI加速器)技術(shù),將網(wǎng)絡(luò)吞吐提升至98%,AI訓(xùn)練效率提高20%;
高可靠:應(yīng)用DPFR(業(yè)務(wù)無(wú)感自愈)技術(shù)實(shí)現(xiàn)故障鏈路亞毫秒級(jí)切換,確保故障應(yīng)用無(wú)感知;
可運(yùn)維:提供可視化運(yùn)維方案,高精度采集數(shù)據(jù),實(shí)現(xiàn)網(wǎng)絡(luò)一鍵式故障診斷,訓(xùn)中排障效率提升90%;
大規(guī)模:支持萬(wàn)卡集群訓(xùn)練,算力規(guī)模是業(yè)界的4倍;
開放性:提供超融合以太方案,可完全復(fù)用以太生態(tài),相比業(yè)界性能基本持平,運(yùn)維成本降低30%。
當(dāng)前,AI模型發(fā)展已從萬(wàn)千小模型走向了百模千態(tài)的大模型時(shí)代,星河AI網(wǎng)絡(luò)解決方案針對(duì)網(wǎng)絡(luò)新需求,持續(xù)優(yōu)化網(wǎng)絡(luò)架構(gòu),革新網(wǎng)絡(luò)技術(shù),為構(gòu)建面向AI大模型的高性能訓(xùn)練網(wǎng)絡(luò)提供參考,推動(dòng)人工智能技術(shù)的發(fā)展和進(jìn)步。
目前,星河AI網(wǎng)絡(luò)已在全球100+企業(yè)部署商用。面向未來(lái),華為希望與眾多合作伙伴一起,推動(dòng)技術(shù)的發(fā)展和應(yīng)用場(chǎng)景的拓展,實(shí)現(xiàn)人工智能技術(shù)的可持續(xù)發(fā)展和社會(huì)的共同繁榮。
了解更多《星河AI網(wǎng)絡(luò)白皮書》,請(qǐng)參閱:
https://e.huawei.com/cn/material/enterprise/8ac74df519ff4fc4ae9aeabe0215adb0