首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網|量子|低空經濟|智能汽車|特約記者
手機|互聯(lián)網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網|會展
首頁 >> 移動互聯(lián)網 >> 正文

阿里云發(fā)布全棧AI負載高可用 與用戶共建AI時代云上IT新治理

2024年12月27日 11:55  CCTIME飛象網  

12月17日上午,在中國信息通信研究院主辦的2024第五屆“GOLF+IT新治理領導力論壇”主論壇上,阿里云重磅發(fā)布了全棧AI負載高可用架構,以滿足AI大模型企業(yè)級應用在大規(guī)模參數(shù)量、復雜結構和高性能算力背景下,對云服務處理能力可擴展性、服務連續(xù)性、服務質量和故障快速恢復的需求。

以為生成式 AI 打造持續(xù)的卓越用戶體驗為目的,阿里云全棧AI負載高可用架構可達到GPU故障預測準確率92%,千卡規(guī)模集群連續(xù)訓練有效時長大于99%,秒級模型自動保存、分鐘級故障恢復;每分鐘10000個pod擴展,分鐘級自動擴容;核心模型服務99.99%的API SLA,模型應用服務全鏈路可觀測等重要的AI業(yè)務高可用目標,在大規(guī)模數(shù)據(jù)處理和訓推場景下,實現(xiàn)了對Gen AI應用業(yè)務連續(xù)性、響應速度、穩(wěn)定性和安全性的全面保障。

在論壇上,2025年中國數(shù)字化治理領域最新評估結果揭曉,阿里云成為首批通過信通院“企業(yè)用云治理能力成熟度評估”評測的兩家企業(yè)之一,同時獲得該項能力評估最高等級。

阿里云全棧AI負載高可用架構正式發(fā)布

在AI算力需求逐漸超越通用需求的今天,以GenAI為代表的應用場景和技術倍增,云上企業(yè)需要處理和存儲的數(shù)據(jù)量呈指數(shù)增長,AI驅動的應用在高負載情況下,對保障業(yè)務的連續(xù)性、響應速度、穩(wěn)定性和安全性均提出了更高要求。

為此,阿里云在升級云平臺自身的技術服務能力的同時,將GPU、異構算力集群、容器集群、存儲、向量數(shù)據(jù)庫、機器學習平臺等AI負載高可用全面融入云平臺架構設計,圍繞大模型訓練微調、推理、多模態(tài)數(shù)據(jù)處理等環(huán)節(jié),構建具備“高可用模型訓練、靈活彈性的推理資源、數(shù)據(jù)高可靠”特性的全棧AI負載高可用架構,實現(xiàn)了從通用負載向AI負載的可用性演進,為客戶AI業(yè)務構建提供穩(wěn)定的業(yè)務服務和出色的用戶體驗。

在高可用模型訓練方面,阿里云AI基礎設施高可用能力融入云服務整體架構設計,基于AI算法的故障預測,實現(xiàn)訓推環(huán)節(jié)的性能瓶頸分析和潛在故障分析,GPU故障預測準確率達92%,同時將異常預測接入自愈鏈路,訓練恢復自愈率超90%、千卡規(guī)模集群連續(xù)訓練有效時長大于99%,實現(xiàn)秒級模型自動保存、分鐘級故障恢復;同時,CPFS 高性能存儲集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加頻繁的 Checkpoint 讀寫,能夠更好地防止數(shù)據(jù)丟失,并提升訓練的穩(wěn)定性和可靠性。在網絡層面,阿里云自研的高性能網絡,業(yè)界首創(chuàng)雙平面的高可用網絡架構,網絡Link和設備中斷,訓練任務不中斷。

在推理資源方面,阿里云容器計算服務ACS的彈性能力實現(xiàn)每分鐘可以進行10000個pod擴展,分鐘級自動擴容;PAI-EAS模型在線服務,適用于實時推理、近實時異步推理等多種AI推理場景,能感知每個請求的執(zhí)行進度,做到更公平的任務調度,提高擴縮容效率。同時,阿里云將跨區(qū)域的主動式重路由技術運用到數(shù)據(jù)中心間的通信,從而在跨數(shù)據(jù)中心推理網絡上,達到跨域帶寬業(yè)界最高的 99.995% SLA,實現(xiàn)秒級內重新路由,提供一個更加穩(wěn)定的網絡通信延遲。

對于在實時語音交互、實時AI搜索等高性能場景有推理需求的客戶,阿里云百煉模型服務平臺,基于預訓練模型為用戶提供模型推理與應用構建托管服務,核心模型服務API達到 99.99% SLA,高性能場景核心用戶用例中的首包延時小于300毫秒,能夠有效解決應用開發(fā)、模型調用等過程中的跨區(qū)域TPM限制、高并發(fā)需求下API響應變慢等問題,提升Gen AI應用推理與構建時的用戶體驗。

在數(shù)據(jù)高可靠方面,阿里云數(shù)據(jù)存儲與數(shù)據(jù)庫服務面向不同計算引擎、多種 AI 框架進行了深度集成,形成承載PB級甚至EB級大規(guī)模數(shù)據(jù)統(tǒng)一的存儲底座,同城冗余容災,高達99.995% SLA,數(shù)據(jù)多副本冗余、大文件斷點續(xù)傳、批量和多線程數(shù)據(jù)操作保障數(shù)據(jù)服務高可靠,向上支撐面向單AZ, 雙AZ, 三AZ及跨Region的高可用服務,跨Region AI數(shù)據(jù)的就近讀寫和負載均衡,滿足AI數(shù)據(jù)多活的強一致性,AI數(shù)據(jù)冷備、熱備、故障自動切換,解決AI數(shù)據(jù)故障風險。

AI時代與用戶共建云上的IT新治理

AI時代的浪潮中,企業(yè)對于高可用架構的需求不僅僅停留在節(jié)點的穩(wěn)定性上,而是在更高的層面追求智能化運營。阿里云全棧AI負載的高可用架構已為企業(yè)奠定了堅實的技術基礎,而進一步的挑戰(zhàn)則在于如何提升云上系統(tǒng)的運維管理與治理能力。通過與用戶攜手,阿里云致力于在云環(huán)境中構建一個AI-Native的智能化、自動化和可持續(xù)的IT治理體系,為企業(yè)的創(chuàng)新之路保駕護航。

阿里云根據(jù)多年服務客戶的經驗總結為一系列的方法論和架構設計原則,推出了阿里云卓越架構 Well-Architeched Framework,意在幫助企業(yè)在云上構建一個安全、穩(wěn)定、高效的應用環(huán)境。面向AI技術融入帶來的更復雜更大規(guī)模的,根據(jù)云計算的彈性、實時交付、自助化等特點,阿里云卓越架構進一步升級了用云企業(yè)運維管理和治理規(guī)則基線的最佳實踐,依靠Well-Architeched云卓越架構來學習-度量-優(yōu)化,落地治理潛在的風險隱患,從安全、穩(wěn)定、效率、成本、性能五大支柱全面提升系統(tǒng)整體韌性和運營效率。

阿里云開放平臺負責人何登成表示,“在云上構建可靠的系統(tǒng)是云廠商與用戶共同的責任。云廠商負責提供云平臺的可靠性,確保提供的云服務可用性符合或超過阿里云服務等級協(xié)議;用戶需要根據(jù)業(yè)務需求,選擇合適的產品服務,并根據(jù)云相關文檔的指導搭建高可用架構,來確保云上應用的可靠性!

尤其在AI迅猛發(fā)展的今天,企業(yè)更應讓業(yè)務系統(tǒng)利用現(xiàn)代云平臺的基礎設施達到高可用,總結成三個"面向":面向失敗的設計架構,面向精細的運維管控,面向風險的應急快恢。同時,用戶可以在建設持續(xù)穩(wěn)定的云環(huán)境過程中,面向AI并結合AI,通過良好的AI模型訓推架構設計、AI數(shù)據(jù)資產處理與存儲、智能診斷與風險預測等手段,進一步提升系統(tǒng)可用性、可靠性、可持續(xù)性。

阿里云獲信通院企業(yè)用云治理能力成熟度評估最高等級 

據(jù)信通院發(fā)布的《企業(yè)用云治理能力成熟度分級要求》,企業(yè)用云治理能力成熟度評估共分為L1-L5共5個等級,分別為L1基礎級、L2應用級、L3優(yōu)秀級、L4先進級、L5卓越級。該分級要求不僅適用于對云服務使用方用云治理能力成熟度進行評估,也適用于對云服務提供商云服務治理產品、技術能力成熟度進行評估。阿里云測評結果為L4+,是目前階段云服務提供商實際獲得的最高等級。

此前,阿里云企業(yè)用云治理能力曾兩度獲得信通院評測認可,包括2022年“企業(yè)云治理能力成熟度模型”獲信通院科技治理領域年度明星解決方案及產品;2023年“云治理中心”獲信通院科技治理領域年度明星解決方案。

今年,針對企業(yè)用云發(fā)展路徑、企業(yè)云治理發(fā)展趨勢分析與洞察,阿里云聯(lián)合埃森哲發(fā)布《云治理企業(yè)成熟度發(fā)展2024年度報告》(https://developer.aliyun.com/ebook/8419),報告調研取樣來自400多家企業(yè)客戶,橫跨互聯(lián)網、金融、新零售、交通等多個行業(yè),旨在幫助用戶理解云治理概念、企業(yè)用云實踐的現(xiàn)狀及變遷趨勢,并基于云治理框架的五大分類(即穩(wěn)定性、安全合規(guī)、成本效益、高效性能、卓越運營),報告作為企業(yè)云上旅程的實踐樣本,為面向AI時代做好IT新治理和云上架構優(yōu)化提供更多的參考與決策依據(jù)。

(完)

編 輯:T01
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
中國移動副總經理張冬:5G揚帆開新篇,數(shù)智遠航啟新程
精彩專題
2024通信業(yè)年終盤點
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質供應商評選活動
2024全球6G發(fā)展大會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像