久久这里只精品国产99re66 ,a在线免费观看

AI這“破天的富貴”，誰都不想錯過。盡管摩爾定律逼近極限，芯片性能的提升變得更加困難。但各大廠商依然以令人矚目的速度推出新一代產(chǎn)品，在近日召開的臺北國際電腦展上，英偉達、AMD和英特爾三大芯片巨頭齊聚一堂，紛紛秀出自家肌肉，推出了下一代AI芯片。

英偉達的Hopper GPU/Blackwell/Rubin、AMD的Instinct 系列、英特爾的Gaudi芯片，這場AI芯片爭霸戰(zhàn)拼什么？這是速度之爭，以英偉達為首，幾家巨頭將芯片推出速度提升到了一年一代，展現(xiàn)了AI領(lǐng)域競爭的“芯”速度；是技術(shù)的角逐，如何讓芯片的計算速度更快、功耗更低更節(jié)能、更易用上手，將是各家的本事。

盡管各家廠商在AI芯片方面各有側(cè)重，但細看之下，其實存在著不少的共同點。

一年一代，展現(xiàn)AI領(lǐng)域“芯”速度

雖然摩爾定律已經(jīng)開始有些吃力，但是AI芯片“狂歡者們”的創(chuàng)新步伐以及芯片推出的速度卻越來越快。英偉達Blackwell還在勢頭之上，然而在不到3個月后的Computex大會上，英偉達就又祭出了下一代AI平臺——Rubin。英偉達首席執(zhí)行官黃仁勛表示，以后每年都會發(fā)布新的AI芯片。一年一代芯片，再次刷新了AI芯片的更迭速度。

英偉達的每一代GPU都會以科學家名字來命名。Rubin也是一位美國女天文學家Vera Rubin的名字命名。Rubin將配備新的GPU、名為Vera的新CPU和先進的X1600 IB網(wǎng)絡芯片，將于2026年上市。

目前，Blackwell和Rubin都處于全面開發(fā)階段，其一年前在2023年在Computex上發(fā)布的GH200 Grace Hopper“超級芯片”才剛?cè)嫱度肷a(chǎn)。Blackwell將于今年晚些時候上市，Blackwell Ultra將于2025年上市，Rubin Ultra將于2027年上市。

緊跟英偉達，AMD也公布了“按年節(jié)奏”的AMD Instinct加速器路線圖，每年推出一代AI加速器。Lisa Su在會上表示：“人工智能是我們的首要任務，我們正處于這個行業(yè)令人難以置信的激動人心的時代的開始�！�

繼去年推出了MI300X，AMD的下一代MI325X加速器將于今年第四季度上市，Instinct MI325X AI加速器可以看作是MI300X系列的強化版，Lisa Su稱其速度更快，內(nèi)存更大。隨后，MI350系列將于2025年首次亮相，采用新一代AMD CDNA 4架構(gòu)，預計與采用AMD CDNA 3的AMD Instinct MI300系列相比，AI推理性能將提高35倍。MI350對標的是英偉達的Blackwell GPU，按照AMD的數(shù)據(jù)，MI350系列預計將比英偉達B200產(chǎn)品多提供50%的內(nèi)存和20%的計算TFLOP�；贏MD CDNA“Next”架構(gòu)的AMD Instinct MI400系列預計將于2026年上市。

英特爾雖然策略相對保守，但是卻正在通過價格來取勝，英特爾推出了Gaudi人工智能加速器的積極定價策略。英特爾表示，一套包含八個英特爾Gaudi 2加速器和一個通用基板的標準數(shù)據(jù)中心AI套件將以65，000美元的價格提供給系統(tǒng)提供商，這大約是同類競爭平臺價格的三分之一。英特爾表示，一套包含八個英特爾Gaudi 3加速器的套件將以125，000美元的價格出售，這大約是同類競爭平臺價格的三分之二。AMD和Nvidia雖然不公開討論其芯片的定價，但根據(jù)定制服務器供應商Thinkmate的說法，配備八個Nvidia H100 AI芯片的同類HGX服務器系統(tǒng)的成本可能超過30萬美元。

一路高歌猛進的芯片巨頭們，新產(chǎn)品發(fā)布速度和定價凸顯了AI芯片市場的競爭激烈程度，也讓眾多AI初創(chuàng)芯片玩家望其項背�？梢灶A見，三大芯片巨頭將分食大部分的AI市場，大量的AI初創(chuàng)公司分得一點點羹湯。

工藝奔向3納米

AI芯片走向3納米是大勢所趨，這包括數(shù)據(jù)中心乃至邊緣AI、終端。3納米是目前最先進工藝節(jié)點，3納米工藝帶來的性能提升、功耗降低和晶體管密度增加是AI芯片發(fā)展的重要驅(qū)動力。對于高能耗的數(shù)據(jù)中心來說，3納米工藝的低功耗特性至關(guān)重要，它能夠有效降低數(shù)據(jù)中心的運營成本，緩解數(shù)據(jù)中心的能源壓力，并為綠色數(shù)據(jù)中心的建設(shè)提供重要支撐。

英偉達的B200 GPU功耗高達1000W，而由兩個B200 GPU和一個Grace CPU組成的GB200解決方案消耗高達2700W的功率。這樣的功耗使得數(shù)據(jù)中心難以為這些計算GPU的大型集群提供電力和冷卻，因此英偉達必須采取措施。

Rubin GPU的設(shè)計目標之一是控制功耗，天風國際證券分析師郭明錤在X上寫道，Rubin GPU很可能采用臺積電3納米工藝技術(shù)制造。另據(jù)外媒介紹，Rubin GPU將采用4x光罩設(shè)計，并將使用臺積電CoWoS-L封裝技術(shù)。與基于Blackwell的產(chǎn)品相比，Rubin GPU是否真的能夠降低功耗，同時明顯提高性能，或者它是否會專注于性能效率，還有待觀察。

AMD Instinct系列此前一直采用5納米/6納米雙節(jié)點的Chiplet模式，而到了MI350系列，也升級為了3納米。半導體知名分析師陸行之表示，如果英偉達在加速需求下對臺積電下單需求量大，可能會讓AMD得不到足夠產(chǎn)能，轉(zhuǎn)而向三星下訂單。

來源：videocardz

英特爾用于生成式AI的主打芯片Gaudi 3采用的是臺積電的5納米，對于 Gaudi 3，這部分競爭正在略微縮小。不過，英特爾的重心似乎更側(cè)重于AI PC，從英特爾最新發(fā)布的PC端Lunar Lake SoC來看，也已經(jīng)使用了3納米。Lunar Lake包含代號為Lion Cove的新 Lion Cove P核設(shè)計和新一波Skymont E 核，它取代了 Meteor Lake 的 Low Power Island Cresmont E 核。英特爾已披露其采用 4P+4E（8 核）設(shè)計，禁用超線程/SMT。整個計算塊，包括P核和E核，都建立在臺積電的N3B節(jié)點上，而SoC塊則使用臺積電N6節(jié)點制造。

英特爾歷代PC CPU架構(gòu)

（來源：anandtech）

在邊緣和終端AI芯片領(lǐng)域，IP大廠Arm也在今年5月發(fā)布了用于智能手機的第五代 Cortex-X 內(nèi)核以及帶有最新高性能圖形單元的計算子系統(tǒng) （CSS）。Arm Cortex-X925 CPU就利用了3納米工藝節(jié)點，得益于此，該CPU單線程性能提高了36%，AI性能提升了41%，可以顯著提高如大語言模型（LLM）等設(shè)備端生成式AI的響應能力。

高帶寬內(nèi)存（HBM）是必需品

HBM（High Bandwidth Memory，高帶寬存儲器）已經(jīng)成為AI芯片不可或缺的關(guān)鍵組件。HBM技術(shù)經(jīng)歷了幾代發(fā)展：第一代（HBM）、第二代（HBM2）、第三代（HBM2E）、第四代（HBM3）和第五代（HBM3E），目前正在積極發(fā)展第六代HBM。HBM不斷突破性能極限，滿足AI芯片日益增長的帶寬需求。

在目前一代的AI芯片當中，各家基本已經(jīng)都相繼采用了第五代HBM-HBM3E。例如英偉達Blackwell Ultra中的HBM3E增加到了12顆，AMD MI325X擁有288GB的HBM3e內(nèi)存，比MI300X多96GB。英特爾的 Gaudi 3封裝了八塊HBM芯片，Gaudi 3能夠如此拼性價比，可能很重要的一點也是它使用了較便宜的HBM2e。

英特爾Gaudi 3的HBM比H100多，但比H200、B200或AMD的MI300都少

（來源：IEEE Spectrum）

至于下一代的AI芯片，幾乎都已經(jīng)擁抱了第六代HBM-HBM4。英偉達Rubin平臺將升級為HBM4，Rubin GPU內(nèi)置8顆HBM4，而將于2027年推出的Rubin Ultra則更多，使用了12顆HBM4。AMD的MI400也奔向了HBM4。

從HBM供應商來看，此前AMD、英偉達等主要采用的是SK海力士。但現(xiàn)在三星也正在積極打入這些廠商內(nèi)部，AMD和三星目前都在測試三星的HBM。6月4日，在臺北南港展覽館舉行的新聞發(fā)布會上，黃仁勛回答了有關(guān)三星何時能成為 Nvidia 合作伙伴的問題。他表示：“我們需要的 HBM 數(shù)量非常大，因此供應速度至關(guān)重要。我們正在與三星、SK 海力士和美光合作，我們將收到這三家公司的產(chǎn)品。”

HBM的競爭也很白熱化。SK海力士最初計劃在2026年量產(chǎn)HBM4，但已將其時間表調(diào)整為更早。三星電子也宣布計劃明年開發(fā)HBM4。三星與SK海力士圍繞著HBM的競爭也很激烈，兩家在今年將20%的DRAM產(chǎn)能轉(zhuǎn)向HBM。美光也已加入到了HBM大戰(zhàn)行列。

炙手可熱的HBM也成為了AI芯片大規(guī)模量產(chǎn)的掣肘。目前，存儲大廠SK Hynix到2025年之前的HBM4產(chǎn)能已基本售罄，供需矛盾日益凸顯。根據(jù)SK海力士預測，AI芯片的繁榮帶動HBM市場到2027年將出現(xiàn)82%的復合年增長率。分析師也認為，預計明年HBM市場將比今年增長一倍以上。

三星電子DRAM產(chǎn)品與技術(shù)執(zhí)行副總裁Hwang Sang-joon在KIW 2023上表示：“我們客戶當前的（HBM）訂單決定比去年增加了一倍多�！比切酒撠煒I(yè)務的設(shè)備解決方案部門總裁兼負責人 Kyung Kye-hyun 在公司會議上更表示，三星將努力拿下一半以上的HBM市場。三星內(nèi)存業(yè)務執(zhí)行副總裁Jaejune Kim對分析師表示，該公司將在2023年至2024年間將其HBM產(chǎn)能增加一倍。

互聯(lián)：重要的拼圖

AI芯片之間互聯(lián)一直是個難題，隨著近年來越來越多的加速器被集成到一起，如何高效傳輸數(shù)據(jù)成為了瓶頸。由于PCIe技術(shù)的發(fā)展速度跟不上時代需求，目前主流的AI芯片廠商都已經(jīng)自研了互聯(lián)技術(shù)，其中較為代表的就是英偉達的NVLink和AMD的Infinity Fabric。

NVIDIA的下一代Rubin平臺，將采用NVLink 6交換機芯片，運行速度為3600GB/s，上一代的Blackwell采用的是NVLink 5.0。NVLink設(shè)計之初，就是為了解決傳統(tǒng)的PCI Express （PCIe）總線在處理高性能計算任務時帶寬不足的問題。下圖顯示了英偉達各代NVLink的參數(shù)情況。

各代NVLink的性能參數(shù)

與英偉達的NVLink相似，AMD則推出了其Infinity Fabric技術(shù)，AMD Infinity 架構(gòu)與第二代 AMD EPYC處理器一同推出，使系統(tǒng)構(gòu)建者和云架構(gòu)師能夠釋放最新的服務器性能，同時又不犧牲功能、可管理性或幫助保護組織最重要資產(chǎn)（數(shù)據(jù)）的能力。Infinity Fabric支持芯片間、芯片對芯片，以及即將推出的節(jié)點對節(jié)點的數(shù)據(jù)傳輸。

英特爾則是以太網(wǎng)的堅實擁護者，英特爾的用于生成式AI的Gaudi AI芯片則一直沿用傳統(tǒng)的以太網(wǎng)互聯(lián)技術(shù)。Gaudi 2每個芯片使用了24個100Gb以太網(wǎng)鏈路；Gaudi 3也使用了24個200Gbps以太網(wǎng)RDMA NIC，但是他們將這些鏈路的帶寬增加了一倍，達到200Gb/秒，使芯片的外部以太網(wǎng)I/O總帶寬達到8.4TB/秒。

拼服務

諸如ChatGPT這樣的生成式AI開發(fā)任務極其復雜，大模型需要在多臺計算機上運行數(shù)十億到數(shù)萬億個參數(shù)，它需要在多個GPU上并行執(zhí)行工作，采用張量并行、流水線并行、數(shù)據(jù)并行等多種并行處理方式，以盡可能快地處理任務。

因此，如何能夠幫助用戶更快的開發(fā)，提供良好的服務也是關(guān)鍵一役。

在這方面，英偉達推出了一種新型的軟件NIMS，即NVIDIA Inference Microservices（推理微服務）。黃仁勛稱之為“盒子里的人工智能”，NIMS中包含了英偉達的CUDA、cuDNN、TensorRT、Triton。NIMS 不僅使部署 AI 變得更容易，只需幾分鐘而不是幾個月，它們還構(gòu)成了客戶可以創(chuàng)建新應用程序和解決新問題的構(gòu)建塊。如果采用，NIMS 將有助于加速創(chuàng)新并縮短價值實現(xiàn)時間。Nvidia 還宣布，NIMS 現(xiàn)在可供開發(fā)人員和研究人員免費使用。在生產(chǎn)中部署NIMS需要AI Enterprise許可證，每個GPU的價格為4500美元。

結(jié)語

下一場AI之戰(zhàn)已然打響，綜合來看，當前AI芯片市場上，英偉達、AMD和英特爾等主要芯片巨頭正在展開激烈的競爭。他們不僅在速度、技術(shù)和工藝方面競相創(chuàng)新，還在互聯(lián)和服務等領(lǐng)域積極拓展，致力于為用戶提供更快、更強、更智能的AI解決方案。AI芯片爭霸戰(zhàn)仍在繼續(xù)，誰能最終勝出？讓我們拭目以待。

下一代AI芯片，拼什么？

下一代AI芯片，拼什么？