首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展

首頁 >> 人工智能 >> 正文

谷歌全新大模型突然發(fā)布！百萬上下文，僅靠提示學會新語言

2024年2月16日 11:06 量子位

夢晨西風發(fā)自凹非寺量子位 | 公眾號 QbitAI

谷歌下一代大模型，無預(yù)警降臨。

Gemini 1.5，除了性能顯著增強，還在長上下文理解方面取得突破，甚至能僅靠提示詞學會一門訓(xùn)練數(shù)據(jù)中沒有的新語言。

此時距離去年12月Gemini 1.0發(fā)布，還不到3個月。

現(xiàn)在僅僅中杯1.5 Pro版就能越級打平上一代大杯1.0 Ultra版，更是在27項測試中超越平級的1.0 Pro。

支持100萬token上下文窗口，迄今為止大模型中最長，直接甩開對手一個量級。

這還只是對外發(fā)布的版本，谷歌更是透露了內(nèi)部研究版本已經(jīng)能直沖1000萬。

現(xiàn)在Gemini能處理的內(nèi)容，可換算成超過70萬單詞，或1小時視頻、11小時音頻、超過3萬行代碼。

沒錯，這些數(shù)據(jù)模態(tài)Gemini 1.5都已經(jīng)內(nèi)建支持。

從今天起，開發(fā)者和客戶就可以在Vertex API或AI Studio申請試用。

剛剛收到消息還在震驚中的網(wǎng)友們 be like：

還有人直接@了OpenAI的奧特曼，這你們不跟進一波？

上下文理解能力拉滿

目前谷歌已放出三個不同任務(wù)的演示視頻，只能說Gemini 1.5是個抽象派（doge）。

在第一段演示視頻中，展示的是Gemini 1.5處理長視頻的能力。

使用的視頻是巴斯特·基頓（Buster Keaton）的44分鐘電影，共696161 token。

演示中直接上傳了電影，并給了模型這樣的提示詞：

找到從人的口袋中取出一張紙的那一刻，并告訴我一些關(guān)于它的關(guān)鍵信息以及時間碼。

隨后，模型立刻處理，輸入框旁邊帶有一個“計時器”實時記錄所耗時間：

不到一分鐘，模型做出了回應(yīng)，指出12:01的時候有個人從兜里掏出了一張紙，內(nèi)容是高盛典當經(jīng)紀公司的一張當票，并且還給出了當票上的時間、成本等詳細信息。

隨后經(jīng)查證，確認模型給出的12:01這個時間點準確無誤：

除了純文字prompt，還有更多玩法。直接給模型一張抽象“場景圖”，詢問“發(fā)生這種情況時的時間碼是多少？”。

同樣不到一分鐘，模型準確給出了的電影對應(yīng)的時間點15:34。

在第二段演示視頻中，谷歌展示了Gemini 1.5分析和理解復(fù)雜代碼庫的能力。用到的是Three.js，這是一個3D Javascript庫，包含約100000行代碼、示例、文檔等。

演示中他們將所有內(nèi)容放到了一個txt文件中，共816767 token，輸入給模型并要求它“找到三個示例來學習角色動畫”。

結(jié)果模型查看了數(shù)百個示例后篩選出了三個關(guān)于混合骨骼動畫、姿勢、面部動畫的示例。

這只是開胃小菜。接下來只用文字詢問模型“動畫Little Tokyo的demo是由什么控制？”

模型不僅找到了這個demo，并且解釋了動畫嵌入在gLTF模型中。

并且還能實現(xiàn)“定制代碼”。讓模型“給一些代碼，添加一個滑塊來控制動畫的速度。使用其它演示所具有的那種GUI”。

Gemini 1.5分分鐘給出了可以成功運行的代碼，動畫右上角出現(xiàn)了一個可控速的滑塊：

當然也可以做“代碼定位”。僅靠一張demo的圖片，Gemini 1.5就能在代碼庫中從數(shù)百個demo中，找到該圖對應(yīng)動畫的代碼：

還能修改代碼，讓地形變得平坦，并解釋其中的工作原理：

修改代碼這一塊，對文本幾何體的修改也不在話下：

第三個演示視頻展示的是Gemini 1.5的文檔處理能力。

選用的是阿波羅11號登月任務(wù)的402頁PDF記錄，共326658 token。

要求Gemini 1.5“找到三個搞笑時刻，并列出文字記錄以及表情符號引述”：

30秒，模型給出了回應(yīng)，其一是邁克爾·柯林斯的這句話“我敢打賭你一定要喝一杯咖啡”，經(jīng)查詢文檔中的確有記錄：

更抽象一點，繪制一個靴子的圖片，詢問模型“這是什么時刻”。

模型正確地將其識別為這是Neil在月球上的第一步：

最后同樣可以詢問模型快速定位這一時刻在文檔中對應(yīng)的時間位置：

差不多的抽象風同樣適用于1382頁、732000 token的《悲慘世界》，一張圖定位小說位置。

僅從提示詞中學會一門新語言

對于Gemini 1.5的技術(shù)細節(jié)，谷歌遵循了OpenAI開的好頭，只發(fā)布技術(shù)報告而非論文。

其中透露Gemini 1.5使用了MoE架構(gòu)，但沒有更多細節(jié)。

與上代1.0 Pro相比，1.5 Pro在數(shù)學、科學、推理、多語言、視頻理解上進步最大，并達到1.0 Ultra層次。

為驗證長上下文窗口的性能，使用了開源社區(qū)通行的大海撈針測試，也就是在長文本中準確找到可以藏起來的一處關(guān)鍵事實。

結(jié)果50萬token之前的表現(xiàn)非常完美，一直到千萬token，Gemini 1.5也只失誤了5次。

此外還將測試擴展到多模態(tài)版本，如在視頻畫面的某一幀中藏一句話，給的例子是在阿爾法狗的紀錄片中藏了“The secret word is ‘needle’”字樣。

結(jié)果在視頻、音頻測試中都實現(xiàn)了100%的召回率。

特別是音頻中，對比GPT-4+Whisper的結(jié)果，差距非常明顯。

此外谷歌DeepMind團隊還測試了一項高難任務(wù)，僅通過長提示詞讓模型學會全新的技能。

輸入一整本語法書，Gemini 1.5 Pro就能在翻譯全球不到200人使用的Kalamang上達到人類水平。

相比之下，GPT-4 Turbo和Claude 2.1一次只能看完半本書，想獲得這個技能就必須要微調(diào)或者使用外部工具了。

也難怪有網(wǎng)友看過后驚呼，“哥們這是要把RAG玩死啊”。

One More Thing

谷歌還公布了一波已在業(yè)務(wù)中采用Gemini大模型的客戶。

其中有三星手機這樣的大廠，也有像Jasper這種靠GPT起家的創(chuàng)業(yè)公司，甚至OpenAI董事Adam D‘Angelo旗下的Quora。

與OpenAI形成了直接競爭關(guān)系。

對此，一位網(wǎng)友道出了大家的心聲：

真希望這能促使OpenAI發(fā)布他們的下一代大模型。

參考鏈接：

[1] https://twitter.com/JeffDean/status/1758146022726041615

[2] https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

[3] https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15

編輯：章芳

聲明：刊載本文目的在于傳播更多行業(yè)信息，本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題，請在30日內(nèi)與本網(wǎng)聯(lián)系，我們將在第一時間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777，郵件后綴為#cctime.com，冒充本站員工以任何其他聯(lián)系方式，進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。

相關(guān)新聞

·經(jīng)濟日報：加快盤活高校院所專利存量	·Vision Pro打開一扇門，空間計算今年有望出現(xiàn)六大新趨勢
·重磅！OpenAI首個視頻生成模型發(fā)布	·蘋果追單臺積電3納米同步包下大量先進封裝產(chǎn)能
·傳iPhone 16將配備"大幅升級"的神經(jīng)引擎	·思科宣布將裁員約4000人，重組費用達5億美元
·拜登政府或?qū)⒉扇〈胧?考慮限制中國智能汽車以及AI數(shù)據(jù)..	·AMD Ryzen CPU 正受到這些嚴重漏洞的影響
·任正非：我們不走到懸崖邊上是不可能的，不想走到懸崖..	·Vision Pro遭遇退貨潮：被批設(shè)計笨拙、視覺效果差、不..
·ChatGPT能記住你說的話了，OpenAI宣布小范圍測試“記憶..	·消息稱部分手機廠商開始籌備自家影像品牌，聯(lián)名到期不續(xù)約
·11年歷史終結(jié)！微信這個重磅功能突然下線	·無人出租車事故頻發(fā)，美國加州立法者、工會呼吁嚴控自..

人物

工信部辛國斌：2023年全國行政村通5G覆蓋超過80%

·高通CEO安蒙：生成式AI走向終端，..

·工信部張云明：大部分國家新劃分..

·Omdia分析師楊光：5G-Advanced引..

·信通院曹薊光：下一代網(wǎng)絡(luò)研究正..

·信通院張海懿：量子信息技術(shù)已進..

·信通院李文宇：醫(yī)療仍是腦機接口..

精彩專題

CES 2024國際消費電子展

2023年信息通信產(chǎn)業(yè)盤點暨頒獎禮

飛象網(wǎng)2023年手機評選

第24屆中國國際光電博覽會

CCTIME推薦

·崔巍出席省青年企業(yè)家助力高質(zhì)量..

·2023中國企業(yè)信用500強發(fā)布中天..

·5G、AI等技術(shù)創(chuàng)新應(yīng)用力度加大數(shù)..

·FTTR進入規(guī)模發(fā)展加速期

·400G將在今年實現(xiàn)規(guī)模商用

·喜迎開門紅！中信科移動中標中國..

·聚焦開源、合作共建：openGauss打..

·中天科技緊急馳援甘肅災(zāi)區(qū) 首批通..

·情暖隴原，共克時艱！亨通緊急馳..

·強基賦智 | 思特奇數(shù)據(jù)中臺數(shù)智化..

·重磅！亨通成為全球“燈塔工廠”

·中信科移動積極參加2023全球6G發(fā)..

·數(shù)據(jù)筑基加速產(chǎn)業(yè)升級——思特奇..

·亨通量子“江蘇省量子保密通信試..

·5G融合創(chuàng)新提檔升級構(gòu)筑產(chǎn)業(yè)新優(yōu)勢

關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號京公網(wǎng)安備110105000771號
公司名稱：北京飛象互動文化傳媒有限公司
未經(jīng)書面許可，禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像