周一,OpenAI發(fā)布了一款名為GPT-4o的新旗艦生成式人工智能模型,并計劃在未來幾周內(nèi)逐步在其各種產(chǎn)品中推出。OpenAI的首席技術(shù)官Muri Murati介紹說,GPT-4o在保持GPT-4級別的智能的同時,對文本、視覺和音頻功能進行了改進,所有用戶均可免費使用,而付費用戶的容量限制是免費用戶的五倍。
Murati在OpenAI辦公室的一次主題演講中提到,GPT-4o跨越了語音、文本和視覺的多個領(lǐng)域。OpenAI將推出桌面版ChatGPT及全新用戶界面。
GPT-4是OpenAI之前的領(lǐng)先模型,它集成了圖像和文本功能,能夠分析圖像和文本,完成從提取圖像中的文本到描述圖像內(nèi)容等任務(wù)。而GPT-4o在此基礎(chǔ)上增加了語音功能。
這一改進帶來了哪些新功能?包括但不限于以下幾點:
GPT-4o顯著提升了ChatGPT的使用體驗—ChatGPT是OpenAI的人工智能聊天機器人。雖然ChatGPT長期支持語音模式,將ChatGPT 的文本轉(zhuǎn)為語音,但GPT-4o在此基礎(chǔ)上進行了優(yōu)化,使用戶能夠更像與助手互動一樣自然地使用ChatGPT。
例如,用戶現(xiàn)在可以在ChatGPT回答問題時中斷它,而OpenAI表示,新模型能夠提供“實時”響應(yīng),甚至能夠捕捉到用戶聲音中的情感,并以不同的情感風(fēng)格生成語音。
GPT-4o還增強了ChatGPT的視覺功能。通過照片或屏幕截圖,ChatGPT現(xiàn)在可以迅速回答相關(guān)問題,從“這段代碼是做什么用的”到“這個人穿的是什么品牌的襯衫”。
從即日起,GPT-4o將在ChatGPT的免費版本中提供,而OpenAI的高級版本ChatGPT Plus和Team用戶則可享有“五倍消息限制”的優(yōu)勢,企業(yè)選項也將“即將推出”(當(dāng)用戶達(dá)到使用閾值時,系統(tǒng)將自動轉(zhuǎn)為使用 GPT-3.5)。OpenAI表示,計劃在下月左右為Plus用戶推出改良后的GPT-4o語音體驗。
OpenAI還表示,GPT-4o的多語言功能得到了增強,在50種不同的語言中表現(xiàn)更佳。在OpenAI的API中,GPT-4o的處理速度是GPT-4(特別是 GPT-4 Turbo)的兩倍,價格則是GPT-4 Turbo的一半,同時擁有更高的速率限制。
用戶只需發(fā)出簡單的“嘿,ChatGPT”語音提示,即可獲得代理的口語回應(yīng)。然后,用戶可以用口語提交查詢,并在必要時附上文字、音頻或視覺效果——后者可包括照片、手機攝像頭的實時畫面或代理能“看到”的任何其他內(nèi)容。
在音頻輸入方面,人工智能的平均響應(yīng)時間為320毫秒,與人類的對話響應(yīng)時間類似。
目前,GPT-4o的應(yīng)用程序接口中尚未為所有客戶提供語音功能。鑒于濫用風(fēng)險,OpenAI計劃在未來幾周內(nèi)首先向“一小部分可信賴的合作伙伴”推出對GPT-4o新音頻功能的支持。
其他方面,OpenAI將在網(wǎng)絡(luò)上發(fā)布全新的ChatGPT UI,新的主屏幕和消息布局“更具對話性”,同時還將發(fā)布桌面版的ChatGPT for Mac,用戶可以通過鍵盤快捷鍵向ChatGPT提問,也可以通過打字或說話截圖并進行討論(從今天開始,Plus用戶將首先獲得訪問權(quán)限,Windows版本的應(yīng)用程序?qū)⒂诮衲晖硇⿻r候推出)。此外,ChatGPT的免費用戶現(xiàn)在還可以訪問GPT Store(OpenAI 基于其人工智能模型構(gòu)建的第三方聊天機器人庫)。
GPT-4o的文本和圖像功能已經(jīng)開始向付費的ChatGPT Plus和Team用戶推出,企業(yè)用戶也即將推出。免費用戶也將開始使用,但有使用限制。
語音版GPT-4o將“在未來幾周內(nèi)”開始提供。開發(fā)人員將能夠使用GPT-4o的文本和視覺模式,并在未來幾周內(nèi)向“一小部分值得信賴的合作伙伴”提供音頻和視頻功能。