蘋果公司于 2023 年 10 月與哥倫比亞大學(xué)的研究人員合作發(fā)布了名為 Ferret(雪貂)的開源多模態(tài) LLM,但當(dāng)時并沒有引起太多關(guān)注。
許多人工智能社區(qū)的人士都錯過了 Ferret 的發(fā)布,他們對蘋果意想不到地進(jìn)入開源 LLM 領(lǐng)域表示歡迎,尤其是因?yàn)樘O果傳統(tǒng)上被認(rèn)為是一個“封閉花園”。
今天早上,經(jīng)營著一個專注于醫(yī)學(xué)領(lǐng)域開源人工智能的歐洲非營利組織的 Bart de Witte 在 X 上發(fā)帖:“我不知何故錯過了這一點(diǎn),蘋果于 10 月加入了開源人工智能社區(qū)。Ferret 的推出證明了蘋果致力于影響深遠(yuǎn)的人工智能研究,鞏固了其在多模態(tài)人工智能領(lǐng)域領(lǐng)導(dǎo)者的地位……ps:我期待著有一天,本地大型語言模型(LLLMs)作為重新設(shè)計的 iOS 的集成服務(wù)運(yùn)行在我的 iPhone上。”
科技博客作者和 VentureBeat 撰稿人 Ben Dickson 在 LinkedIn 上寫道:“2023 年你最意想不到的人工智能發(fā)展是什么?對我來說,這是蘋果發(fā)布開源 LLM(盡管是非商業(yè)許可)。”
Ferret 以非商業(yè)許可證開源,這意味著它目前的版本不能用于商業(yè)目的。然而,它未來有可能被用于蘋果未來的產(chǎn)品或服務(wù)中。蘋果 AI / ML 研究科學(xué)家 Zhe Gan 在今年 10 月的一條推文中解釋了 Ferret 的用途,稱它可以“在一個圖像中的任何地方、任何粒度上引用和定位任何事物”,它還可以使用圖像中任何形狀的區(qū)域來實(shí)現(xiàn)這一點(diǎn)。
簡單來說,F(xiàn)erret 可以檢查圖像上繪制的區(qū)域,識別其中的元素,并將其框選起來。然后,它可以將識別出的元素作為查詢的一部分,并以典型的方式進(jìn)行響應(yīng)。例如,用戶可以在圖像中突出顯示一只動物,并詢問其種類,F(xiàn)erret 可以識別出該動物的物種,并知道用戶指的是圖片中的一只特定動物。它還可以利用圖像中其他元素的上下文提供進(jìn)一步的響應(yīng)。
Ferret 的發(fā)布對研究人員來說意義重大,表明蘋果正在逐步開放其 AI 研究,這與其以往神秘封閉的形象形成了鮮明的對比。此外,蘋果也面臨著基礎(chǔ)設(shè)施方面的挑戰(zhàn)。雖然蘋果正在努力增加其擁有的 AI 服務(wù)器數(shù)量,但與 ChatGPT 等模型相比,其規(guī)模可能仍然不足。除了與其他公司合作擴(kuò)展其能力之外,開源模型也是蘋果正在探索的另一條路徑。
一個有趣細(xì)節(jié)是,Reddit 的 r / Apple 版塊發(fā)現(xiàn) Ferret“使用了 8 個帶有 80GB 顯存的 A100 GPU 進(jìn)行訓(xùn)練”。鑒于蘋果過去與英偉達(dá) GPU 的支持關(guān)系,這被視為蘋果對英偉達(dá)的罕見認(rèn)可。