12 月 28 日消息,根據(jù)風(fēng)險(xiǎn)投資家、谷歌中國(guó)前總裁李開(kāi)復(fù)的預(yù)測(cè),中國(guó)的生成式人工智能創(chuàng)業(yè)公司正在經(jīng)歷一場(chǎng)“預(yù)選賽”。他今年早些時(shí)候創(chuàng)立了零一萬(wàn)物(01.AI),這是一家總部位于北京的初創(chuàng)公司,專(zhuān)注于開(kāi)發(fā)大語(yǔ)言模型(LLM)。上個(gè)月,該公司完成了一輪融資,估值高達(dá) 10 億美元。
中國(guó)最大的互聯(lián)網(wǎng)公司,如阿里巴巴、騰訊、百度和字節(jié)跳動(dòng)等,以及眾多初創(chuàng)公司,都在競(jìng)相開(kāi)發(fā)自己的大語(yǔ)言模型。有媒體稱(chēng)之為“百模大戰(zhàn)”,這些科技公司正為在人工智能領(lǐng)域占據(jù)主導(dǎo)地位而展開(kāi)激烈競(jìng)爭(zhēng)。李開(kāi)復(fù)在接受采訪時(shí)表示,這些公司正處于證明其擁有開(kāi)發(fā)高質(zhì)量模型技術(shù)的階段。而那些通過(guò)考驗(yàn)的公司將邁向下一階段,即如何增加收入并實(shí)現(xiàn)盈利。
李開(kāi)復(fù)預(yù)測(cè):“在中國(guó),最終將有幾家大贏家嶄露頭角,部分公司可能會(huì)體面地退出市場(chǎng)。但大多數(shù)企業(yè)要么半途而廢,要么轉(zhuǎn)向更為實(shí)際的目標(biāo),如為特定行業(yè)構(gòu)建應(yīng)用和解決方案”
零一萬(wàn)物成立于今年 3 月份,目前擁有 100 多名員工,其中大部分在北京工作。上個(gè)月,該公司發(fā)布了其首個(gè)開(kāi)源大語(yǔ)言模型 Yi-34B,但它未來(lái)的收入并不僅依賴(lài)于此模型。相反,其商業(yè)計(jì)劃是出售專(zhuān)有的大語(yǔ)言模型,主要面向中國(guó)市場(chǎng)。據(jù)李開(kāi)復(fù)透露,該公司目前正在開(kāi)發(fā)一種新的、擁有超過(guò) 1000 億個(gè)參數(shù)的專(zhuān)有模型。
然而,在 Yi-34B 迅速登上 Hugging Face 的開(kāi)源大語(yǔ)言模型排行榜榜首后,零一萬(wàn)物引發(fā)了一些爭(zhēng)議。有開(kāi)發(fā)者發(fā)現(xiàn)該模型似乎使用了 Meta 的開(kāi)源人工智能模型 Llama,但并未在相關(guān)資料中提及此事。為此,零一萬(wàn)物后來(lái)重新命名了 Yi-34B 的一部分,并公開(kāi)承認(rèn)了 Llama 的貢獻(xiàn)。李開(kāi)復(fù)也為他們之前的疏忽公開(kāi)道歉。
在接受科技媒體 The Information 的采訪時(shí),李開(kāi)復(fù)談到了零一萬(wàn)物的未來(lái)以及中國(guó)人工智能產(chǎn)業(yè)的趨勢(shì)。他還談到了如何應(yīng)對(duì)美國(guó)的芯片出口限制,以及中國(guó)公司如何在全球范圍內(nèi)尋找商機(jī)。
以下為采訪全文:
問(wèn):中國(guó)目前有幾十家公司都在競(jìng)相開(kāi)發(fā)大語(yǔ)言模型,接下來(lái)會(huì)發(fā)生什么?
李開(kāi)復(fù):在我看來(lái),這種情況在中國(guó)早已屢見(jiàn)不鮮。例如團(tuán)購(gòu)風(fēng)潮、共享單車(chē)應(yīng)用的興起,甚至在深度科技領(lǐng)域,比如計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別技術(shù)。當(dāng)計(jì)算機(jī)視覺(jué)證明其價(jià)值時(shí),無(wú)數(shù)中國(guó)企業(yè)爭(zhēng)先恐后地涌入,試圖在各種可能的應(yīng)用中分一杯羹。然而,大多數(shù)企業(yè)并未能幸存下來(lái)。
如今,中國(guó)的人工智能領(lǐng)域仍處于預(yù)選賽階段,競(jìng)爭(zhēng)異常激烈,甚至可能超過(guò)美國(guó)。首先,我們需要面對(duì)的考驗(yàn)是:在百家爭(zhēng)鳴的競(jìng)爭(zhēng)中,哪家企業(yè)能開(kāi)發(fā)出真正具有高質(zhì)量和高價(jià)值的模型?只有技術(shù)過(guò)硬,模型表現(xiàn)出色,才能在實(shí)際應(yīng)用中脫穎而出。否則,技術(shù)只能淪為“玩具”,而不能真正解決問(wèn)題。
通過(guò)預(yù)選賽的技術(shù)考驗(yàn)后,企業(yè)將進(jìn)入下一階段:如何增加商業(yè)價(jià)值?你的商業(yè)模式是什么?如何盈利?很快,投資者將提出與云提供商、企業(yè)軟件公司和消費(fèi)者應(yīng)用程序相同的問(wèn)題。如果企業(yè)不能給出明確的答案,那么它們的增長(zhǎng)將面臨終結(jié)。
以美國(guó)為例,OpenAI 已經(jīng)證明了其在技術(shù)上的領(lǐng)先地位,同時(shí)也能夠創(chuàng)造收入。這種價(jià)值創(chuàng)造使得其他公司愿意為其投入資源,并在此基礎(chǔ)上構(gòu)建應(yīng)用。
而在中國(guó),最終將有幾家大贏家嶄露頭角,部分公司可能會(huì)體面地退出市場(chǎng)。但大多數(shù)企業(yè)要么半途而廢,要么轉(zhuǎn)向更為實(shí)際的目標(biāo),如為特定行業(yè)構(gòu)建應(yīng)用和解決方案,而不是單純地追求大模型的研發(fā)。隨著時(shí)間的推移,研發(fā)大模型的成本將會(huì)不斷攀升。
問(wèn):中國(guó)人工智能初創(chuàng)公司及其投資者表示,中國(guó)將為生成式人工智能模型和應(yīng)用開(kāi)發(fā)自己的生態(tài)系統(tǒng)。你認(rèn)為呢?
李開(kāi)復(fù):我們都明白,平行宇宙并不是我們想要看到的。我們更傾向于在全球范圍內(nèi)展開(kāi)競(jìng)爭(zhēng),讓真正出色的公司脫穎而出,這樣效率才更高。但現(xiàn)實(shí)卻是,我們無(wú)法完全掌控自己的命運(yùn)。
特別是地緣政治問(wèn)題。如果我們想進(jìn)入美國(guó)市場(chǎng),雖然沒(méi)有規(guī)定說(shuō)我們不能進(jìn)入,但我不認(rèn)為我們會(huì)得到很多業(yè)務(wù)。因?yàn)樵谖铱磥?lái),當(dāng)前美國(guó)市場(chǎng)對(duì)中國(guó)軟件存在一種不公平的偏見(jiàn)。這是我們不得不面對(duì)的現(xiàn)實(shí)。
當(dāng)然,我們對(duì)全球其他地區(qū)的商機(jī)持開(kāi)放態(tài)度,但我們深知,有些事情是行不通的。比如,想把我們的專(zhuān)有模型賣(mài)給美國(guó)公司,這幾乎不可能。他們不會(huì)買(mǎi)賬的,我們也不會(huì)做無(wú)用功。
中國(guó)顯然代表著一個(gè)巨大的機(jī)遇,但我不會(huì)將中國(guó)公司可能進(jìn)入的世界其他地區(qū)排除在外?傮w而言,硅谷的做法是“一刀切”,這種模式在諸如 Facebook 和谷歌等公司的崛起中起到了關(guān)鍵作用,并幫助美國(guó)獲得了主導(dǎo)地位。但這次不同了,因?yàn)榇笳Z(yǔ)言模型是在數(shù)據(jù)基礎(chǔ)上進(jìn)行訓(xùn)練的。數(shù)據(jù)涉及到偏見(jiàn)、意識(shí)形態(tài)和價(jià)值觀等問(wèn)題。美國(guó)的價(jià)值觀并非在所有國(guó)家都受歡迎,不僅是在中國(guó),甚至有些國(guó)家根本無(wú)法接受。
我認(rèn)為中東可能是另一個(gè)想要以不同方式思考問(wèn)題的地區(qū)。這促使各國(guó)想要更多地對(duì)模型進(jìn)行控制。
我堅(jiān)信,為不同國(guó)家構(gòu)建具有特殊性的模型是有可能的。硅谷的公司不會(huì)這么做,因?yàn)樗麄冋J(rèn)為自己的價(jià)值觀是正確的,并希望更多的人能夠接受并融入其中。而且,為不同市場(chǎng)構(gòu)建不同的大模型需要大量的工程工作,所以硅谷的公司自然不愿意投入這些模型的開(kāi)發(fā)。而來(lái)自世界其他地區(qū)(包括中國(guó))的公司,可能有機(jī)會(huì)深入研究這種模型。但顯然,他們必須贏得用戶(hù)和各國(guó)政府的信任。
問(wèn):有媒體報(bào)道稱(chēng),貴公司成功降低了 Yi-34B 的人工智能培訓(xùn)成本。你們是如何做到的?
李開(kāi)復(fù):我們有一支超級(jí)強(qiáng)大的基礎(chǔ)設(shè)施團(tuán)隊(duì),他們可是我們公司最大的隊(duì)伍。我以前就跟員工們說(shuō)過(guò),每加一個(gè)建模人員,圖形處理單元的負(fù)擔(dān)就重一分;但是每加一個(gè)基礎(chǔ)設(shè)施人員,圖形處理單元的效率就能提升一些。當(dāng)然,建模團(tuán)隊(duì)也很重要,不過(guò)從一開(kāi)始,我們就特別重視基礎(chǔ)設(shè)施團(tuán)隊(duì)的建設(shè)。
這些基礎(chǔ)設(shè)施團(tuán)隊(duì)的成員就像是無(wú)名英雄一樣。他們得負(fù)責(zé)硬件、軟件還有海量的數(shù)據(jù)傳輸,得同時(shí)處理圖形處理單元、內(nèi)存和網(wǎng)絡(luò),這三者中的任何一個(gè)都可能成為瓶頸。要知道,圖形處理單元擴(kuò)展到幾千以上會(huì)很難。從 2000 個(gè)增加到 8000 個(gè)的時(shí)候,可不是簡(jiǎn)單地用軟件就能搞定的,因?yàn)槟P秃蛿?shù)據(jù)量一大,網(wǎng)絡(luò)需求就會(huì)有天翻地覆的變化。
我們的基礎(chǔ)設(shè)施團(tuán)隊(duì)里有好幾十名工程師,是目前零一萬(wàn)物最大的團(tuán)隊(duì)。他們得研究怎么用 FP8(英偉達(dá) H100 芯片的數(shù)據(jù)格式)來(lái)大幅減少計(jì)算量,這可不是一件容易的事。他們得弄清楚在哪里用 FP8,在哪里用其他格式,還得保證它們之間的轉(zhuǎn)換天衣無(wú)縫。除了這些,他們還得解決一系列頭疼問(wèn)題,比如應(yīng)該使用什么網(wǎng)絡(luò)協(xié)議、怎么優(yōu)化編譯器、怎么處理圖形處理單元故障等等。實(shí)際上,圖形處理單元出故障的頻率高得嚇人。要是一個(gè)圖形處理單元出現(xiàn)故障,能不能熱插拔呢?我們還在努力解決這個(gè)問(wèn)題。想想看:要是在一個(gè)擁有上千個(gè)圖形處理單元的集群里,就因?yàn)橐粋(gè)圖形處理單元壞了而讓你的訓(xùn)練停了一個(gè)小時(shí),那要是能熱插拔,你每天就能省下一個(gè)小時(shí)!這些時(shí)間可以積少成多。
還有一個(gè)相關(guān)的話(huà)題就是彈性訓(xùn)練。假設(shè)你有一個(gè)由 2000 個(gè) H100 芯片組成的集群,而你只需要 500 個(gè)來(lái)執(zhí)行某個(gè)任務(wù),那你能不能在檢查點(diǎn)之間把它們移走,然后再加回來(lái)呢?這些任務(wù)可不是人工智能研究人員該干的,他們更多屬于網(wǎng)絡(luò)工程師的工作。
如果把大語(yǔ)言模型的開(kāi)發(fā)比作火箭科學(xué)的話(huà),那就像沒(méi)有工程師,火箭就永遠(yuǎn)飛不起來(lái)一樣。SpaceX 的成功可不僅僅是因?yàn)樗写罅垦芯咳藛T,還因?yàn)樗隽舜罅砍?jí)復(fù)雜的工程工作。同樣地,我們的基礎(chǔ)設(shè)施團(tuán)隊(duì)就是我們的“工程師”,他們的工作讓我們的大語(yǔ)言模型能夠順利起飛!
問(wèn):美國(guó)限制向中國(guó)出口先進(jìn)的半導(dǎo)體技術(shù),包括英偉達(dá)的先進(jìn)芯片。零一萬(wàn)物是如何應(yīng)對(duì)的?
李開(kāi)復(fù):我曾公開(kāi)說(shuō)過(guò),我們的芯片庫(kù)存足夠維持 18 個(gè)月。這些基本上是在限制措施出臺(tái)前我們獲得的芯片。我們肯定在努力研究如何使用中國(guó)芯片。但這并不容易,絕不好玩。對(duì)它們進(jìn)行編程不是我們所熟悉的領(lǐng)域。但如果我們必須要這么做,我們也不會(huì)退縮。
英偉達(dá)有著非常出色的芯片,但有人可能會(huì)說(shuō),更簡(jiǎn)單的芯片可以以更低的成本完成這項(xiàng)工作。但英偉達(dá)實(shí)力背后的一個(gè)主要因素是圍繞其 CUDA 軟件庫(kù)的整個(gè)生態(tài)系統(tǒng),它使得編程變得更簡(jiǎn)單。如果你強(qiáng)迫工程師們使用非英偉達(dá)的芯片,他們可能會(huì)反對(duì),因?yàn)檫@類(lèi)芯片的效率要低得多。但我們目前面臨的困境要到 18 個(gè)月后才會(huì)顯現(xiàn),而我們必須更早開(kāi)始行動(dòng)。如果我們無(wú)法獲得英偉達(dá)的芯片,我們將尋找更簡(jiǎn)單的芯片,更專(zhuān)注于轉(zhuǎn)換器,但它們將是一個(gè)痛苦的編程過(guò)程。可是,如果我們別無(wú)選擇,那就只能這么做。
但大家都知道,中國(guó)工程師有能力、有意愿,而且在處理這種被認(rèn)為是艱苦的工程挑戰(zhàn)方面表現(xiàn)出色。這與我之前所說(shuō)的基礎(chǔ)設(shè)施團(tuán)隊(duì)的工作類(lèi)似。學(xué)習(xí)用非常少的庫(kù)來(lái)編寫(xiě)新的非標(biāo)準(zhǔn) GPU 也是一項(xiàng)繁重的工作。
中國(guó)企業(yè)家是頑強(qiáng)的。中國(guó)工程師很勤勞。他們不怕繁重的工作。這正是美團(tuán)提供卓越服務(wù)的原因,也是微信成為卓越產(chǎn)品的原因。的確,我們前面有許多困難的挑戰(zhàn),你可以說(shuō)它們是浪費(fèi)時(shí)間和很多人的精力。但這是我們手中的牌,所以我們會(huì)盡我們最大的努力打好這些牌。