【環(huán)球時報記者 劉揚 環(huán)球時報特約記者 任重】近日,一個名為DeepSeek(深度求索)的中國AI初創(chuàng)公司成為國內(nèi)外人工智能(AI)大模型領(lǐng)域熱議話題。在不到30天的時間里,DeepSeek先后發(fā)布了DeepSeek-V3和DeepSeek-R1兩款大模型,其成本與動輒數(shù)億甚至上百億美元的國外大模型項目相比堪稱低廉,而性能與國外頂尖大模型相當(dāng)。同時,DeepSeek與外國大模型巨頭閉源的路徑不同,采用開源模式。中國這家公司的發(fā)展模式與成果讓硅谷高度關(guān)注,多家西方主流媒體紛紛發(fā)文感嘆“中國AI模型震驚硅谷”,甚至引發(fā)了國內(nèi)外多家知名廠商與機構(gòu)連夜嘗試復(fù)現(xiàn)DeepSeek成果的“熱潮”。DeepSeek的發(fā)展具有哪些特點?是否對國產(chǎn)大模型的發(fā)展路徑以及創(chuàng)新思路帶來一些啟示?《環(huán)球時報》記者26日采訪了多位人工智能領(lǐng)域的專家。
“OpenAI o1經(jīng)濟實惠且開放的競爭對手”
DeepSeek公司本月20日發(fā)布大模型R1,并表示“在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版”,引發(fā)外媒特別是美國媒體高度關(guān)注這家中國公司及其最新大模型成果。
“中國便宜、開放的人工智能模型 DeepSeek讓科學(xué)家興奮不已!薄蹲匀弧冯s志24日以此為題稱,中國研制的大語言模型DeepSeek-R1令科學(xué)家們興奮不已,它被認(rèn)為是OpenAI o1等“推理”模型的經(jīng)濟實惠且開放的競爭對手。
《紐約時報》24日以“中國人工智能初創(chuàng)企業(yè)DeepSeek如何與硅谷巨頭競爭”為題報道稱,能做到上述成績本已是一個里程碑,但DeepSeek-V3大模型背后的團隊描述了一個更大的進(jìn)步。他們在訓(xùn)練該系統(tǒng)時只用了先進(jìn)人工智能公司所用的高度專業(yè)化計算機芯片的一小部分。中國工程師稱,他們只花了約600萬美元以及約2000個英偉達(dá)專用芯片就完成了新模型的訓(xùn)練,無論資金以及芯片使用規(guī)模都遠(yuǎn)低于世界領(lǐng)先的人工智能公司。
“這不是中國追趕美國的問題,而是開源追趕閉源的問題”
DeepSeek備受關(guān)注,除了性價比超高,還有另一個原因:開源。連日來,網(wǎng)絡(luò)上已經(jīng)出現(xiàn)了一波復(fù)現(xiàn)DeepSeek的熱潮。加州大學(xué)伯克利分校、香港科技大學(xué)、知名人工智能公司HuggingFace等紛紛成功復(fù)現(xiàn),只用強化學(xué)習(xí),沒有監(jiān)督微調(diào),甚至只用幾十美元的成本就能完成復(fù)現(xiàn)。
美國紅迪網(wǎng)25日稱,中國DeepSeek的模型是開源的,這是令人興奮的真正原因;旧希麄儗⒅圃爝@些東西的知識免費提供給全世界,確保沒有人能夠真正壟斷它。中國公司基本上與美國公司的做法完全相反。你能看到OpenAI、Anthropic或谷歌開源任何強大的模型嗎?到目前為止,我們從他們那里得到的只是皮毛。Meta是唯一一家對開源大模型做出重大貢獻(xiàn)的西方大公司,但他們將來可能不會開源其最好的模型。被譽為“深度學(xué)習(xí)三巨頭”之一的Yann LeCun(楊立昆)在社交平臺X上表示,這不是中國追趕美國的問題,而是開源追趕閉源的問題。
北京郵電大學(xué)人機交互與認(rèn)知工程實驗室主任劉偉在接受《環(huán)球時報》記者采訪時表示,大模型三大核心要素是數(shù)據(jù)、算法、算力,Deepseek使用較少的數(shù)據(jù)、較少的算力,通過算法的優(yōu)化實現(xiàn)了與國外知名大模型等效甚至更優(yōu)的效果,這是非常值得肯定的。同時還要看到它是開源的,可以供全球希望使用這一大模型的用戶來使用和復(fù)現(xiàn)。
清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽26日對《環(huán)球時報》記者表示,DeepSeek的大模型是全球開源大模型當(dāng)中相當(dāng)優(yōu)秀的一款,是混合使用多種先進(jìn)技術(shù)實現(xiàn)超越傳統(tǒng)預(yù)訓(xùn)練技術(shù)的創(chuàng)新突破。他結(jié)合自身使用的感受談了這款大模型的幾個優(yōu)點。一是它把目前提升AI大模型能力的方法進(jìn)行了工程上的微創(chuàng)新組合。二是DeepSeek公布了相關(guān)論文,整個過程可以讓大家去復(fù)現(xiàn),這就是開源的力量。三是DeepSeek的推理過程,有自身的創(chuàng)新。沈陽作為AI領(lǐng)域的研究者,使用AI超過3萬次,他認(rèn)為,DeepSeek跟美國的AI相比,還有很多中國元素在里面,如中國網(wǎng)絡(luò)當(dāng)中的一些熱詞。
提升推理能力
對于Deepseek的發(fā)展模式為國內(nèi)大模型發(fā)展以及創(chuàng)新提供了怎樣的重要啟示,劉偉認(rèn)為,“創(chuàng)新不是規(guī)劃出來的,需要市場、專業(yè)機構(gòu)通過長時間的研究來另辟蹊徑,尤其是一些長期關(guān)注垂直領(lǐng)域的商業(yè)公司可以通過對技術(shù)路徑的反思、對市場發(fā)展的嗅覺,來找到更好的創(chuàng)新點。OpenAI最初的發(fā)展過程也是這樣,并不是美國官方與科技巨頭砸重金規(guī)劃出來的!
日前,OpenAI、軟銀等公司公布了“星際之門”計劃,要在4年中砸5000億美元來加速美國人工智能的發(fā)展。劉偉強調(diào),這種集中人力、財力、物力,再給予政策傾斜的發(fā)展路徑,在未來研究方向與研究結(jié)果方面都存在一定的不確定性。“還是要鼓勵國內(nèi)更多商業(yè)公司、科研院所聚焦自身的研究領(lǐng)域,找到適合自己的創(chuàng)新與發(fā)展路徑!
沈陽表示,在AI發(fā)展歷史中,新的突破往往是由不顯眼的工程創(chuàng)新與科學(xué)探索共同驅(qū)動的。這種趨勢在DeepSeek的成果中得到了深刻體現(xiàn),它不僅突破了傳統(tǒng)的訓(xùn)練方式,也為推理能力的提升帶來了全新的視角。“盡管它的成就尚處于一個階段性水平,但其工程貢獻(xiàn)和理論創(chuàng)新已經(jīng)為未來的AI發(fā)展奠定了重要基礎(chǔ)!鄙蜿栒J(rèn)為,DeepSeek團隊在基礎(chǔ)模型預(yù)訓(xùn)練方面的貢獻(xiàn),不僅是在技術(shù)層面上的突破,更在于其工程方法的精細(xì)與高效。DeepSeek的這種工程創(chuàng)新,標(biāo)志著AI模型訓(xùn)練的一個全新階段,這不僅降低了開發(fā)成本,也為其他公司提供了可借鑒的路徑。同時,DeepSeek的核心創(chuàng)新還體現(xiàn)在推理能力的提升上,尤其是通過相關(guān)算法創(chuàng)新來推動模型的自然推理能力,證明了AI領(lǐng)域的一種潛力——無須大量昂貴的思維鏈標(biāo)注,模型依然能夠涌現(xiàn)出推理能力。
沈陽認(rèn)為,DeepSeek的成功也讓我們看到了未來AI產(chǎn)業(yè)的發(fā)展方向:更多的開源創(chuàng)新、硬件與軟件的深度協(xié)同,以及對模型開發(fā)成本與推理能力的不斷優(yōu)化。同時,我們也必須看到,DeepSeek雖然取得了顯著的階段性成果,要想在未來發(fā)展道路上實現(xiàn)進(jìn)一步突破,仍然需要面對許多深層次的挑戰(zhàn),例如需要更多的原創(chuàng)性訓(xùn)練數(shù)據(jù)和算法創(chuàng)新。