12月11日,聲網(wǎng) COO 劉斌出席由量子位舉辦的 MEET2025智能未來(lái)大會(huì),并帶來(lái)了主題演講,他分享了在實(shí)時(shí)多模態(tài)的趨勢(shì)下,RTE 的演進(jìn)如何助力 AI Agent 應(yīng)用落地,并認(rèn)為 RTE 將成為生成式 AI 時(shí)代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。
在 GenAI 時(shí)代,RTE 與 AI Agent 有什么關(guān)系?劉斌首先分享了兩個(gè)事件,其一,今年10月初,聲網(wǎng)的兄弟公司 Agora 作為語(yǔ)音 API 合作者出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開(kāi)測(cè)試版中。其二,10月底的 RTE2024實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)中,聲網(wǎng)也宣布與 MiniMax 正在打磨國(guó)內(nèi)首個(gè) Realtime API。通過(guò)這兩個(gè)事件反映出當(dāng)下大模型的交互正在走向?qū)崟r(shí)多模態(tài)。
實(shí)時(shí)音視頻成為對(duì)話式 AI Agent 的關(guān)鍵一環(huán)
劉斌認(rèn)為,在多模態(tài)模型推出后,對(duì)話的方式與原來(lái)純文本交互不同,會(huì)從異步變?yōu)閷?shí)時(shí)雙工交互,實(shí)現(xiàn)了很大的飛躍。但在最終應(yīng)用落地的過(guò)程中,依然存在很多客戶(hù)痛點(diǎn),比如在實(shí)際應(yīng)用場(chǎng)景中,用戶(hù)的設(shè)備通常無(wú)法像發(fā)布會(huì)演示的那樣一直處于固定網(wǎng)絡(luò)與物理環(huán)境下,大部分Conversational AI Agent 的使用場(chǎng)景是隨機(jī)的,也就是可能會(huì)發(fā)在 Anytime Anywhere,比如在開(kāi)車(chē)送完孩子上學(xué)之后,這就對(duì)大模型實(shí)時(shí)語(yǔ)音對(duì)話中的低延時(shí)傳輸、網(wǎng)絡(luò)優(yōu)化等提出了考驗(yàn)。一般來(lái)說(shuō),延遲在 1.7 秒內(nèi)會(huì)讓人感覺(jué)自然,2 秒多、 3 秒則會(huì)讓人覺(jué)得卡頓、反應(yīng)慢。
其次在模型交互中能否支持智能打斷以及主動(dòng)交互也是用戶(hù)非常關(guān)注的一個(gè)關(guān)鍵點(diǎn)。要做到這些,除了模型能力,在應(yīng)用落地方面,需要端到端的能力支持,不僅需要成熟的 VAD 技術(shù)來(lái)實(shí)現(xiàn)自由打斷,更需要一整套的音頻高級(jí)算法來(lái)支撐實(shí)現(xiàn)優(yōu)雅打斷,從而實(shí)現(xiàn)用戶(hù)體驗(yàn)最好的人模對(duì)話,當(dāng)然也需要應(yīng)對(duì)不同的物理環(huán)境、復(fù)雜的網(wǎng)絡(luò)環(huán)境、PC、手機(jī)以及各類(lèi) IoT 終端等。
聲網(wǎng)作為全球?qū)崟r(shí)互動(dòng)云行業(yè)的開(kāi)創(chuàng)者,在音視頻領(lǐng)域積累了深厚的技術(shù)優(yōu)勢(shì)與場(chǎng)景實(shí)踐,通過(guò)將 RTE 與 GenAI 結(jié)合,推出了聲網(wǎng) Conversational AI Agents ,旨在幫助開(kāi)發(fā)者與企業(yè)解決 Agent 應(yīng)用落地的一系列痛點(diǎn),快速構(gòu)建適配自己業(yè)務(wù)場(chǎng)景的 AI 實(shí)時(shí)語(yǔ)音對(duì)話服務(wù)。
語(yǔ)音對(duì)話延遲低至500ms:針對(duì)大模型語(yǔ)音交互中普遍存在響應(yīng)時(shí)間長(zhǎng)的痛點(diǎn),聲網(wǎng)自研的 SD-RTN™ 實(shí)時(shí)傳輸網(wǎng)絡(luò)可以實(shí)現(xiàn)全球范圍的低延時(shí)音視頻傳輸,目前可做到語(yǔ)音對(duì)話延遲低至 500ms,并進(jìn)一步通過(guò)更快速的 LLM 推理首字耗時(shí)、低延遲流式 TTS、同機(jī)部署等一系列技術(shù)手段,保證對(duì)話的實(shí)時(shí)性與流暢性,達(dá)到近似人與人之間日常對(duì)話停頓與間隔。
支持智能打斷:開(kāi)發(fā)者在構(gòu)建 AI 應(yīng)用場(chǎng)景時(shí),會(huì)將能否支持隨時(shí)打斷也成為衡量大模型智能化的重要指標(biāo)。聲網(wǎng)自研的 AI VAD 技術(shù),適應(yīng)人類(lèi)對(duì)話的停頓、語(yǔ)氣和對(duì)話節(jié)奏,支持 AI 對(duì)話過(guò)程中隨時(shí)打斷。同時(shí),聲網(wǎng)的解決方案還深度優(yōu)化 AI 角色,最大程度保留情緒情感等關(guān)鍵信息,超擬人真實(shí)音色豐富通話體驗(yàn)。
支持30000+移動(dòng)終端:在大模型的應(yīng)用落地中,不同的終端設(shè)備、操作系統(tǒng)等也會(huì)帶來(lái)不一樣的體驗(yàn),聲網(wǎng)的音視頻 SDK 經(jīng)過(guò)不斷的迭代升級(jí),可以支持 30 多個(gè)平臺(tái)框架、30000 多終端機(jī)型及各種操作系統(tǒng),包括各類(lèi) IoT 設(shè)備終端;
領(lǐng)先的音頻處理:在人與人音視頻通話的過(guò)程中,環(huán)境噪音是經(jīng)常遭遇的一大痛點(diǎn),影響溝通效率。在 GenAI 場(chǎng)景中,環(huán)境噪音同樣無(wú)法避免。聲網(wǎng)具備業(yè)界領(lǐng)先的音頻3A能力,提供 AI 回聲消除、AI 智能降噪、背景人聲過(guò)濾、音樂(lè)檢測(cè)/過(guò)濾、主講人聲紋鎖定等自研音頻技術(shù),即使在商場(chǎng)、地鐵站等嘈雜環(huán)境中,也能保證 AI 對(duì)話過(guò)程不受影響。
靈活可擴(kuò)展的 AI Agent 架構(gòu):開(kāi)發(fā)者在構(gòu)建 AI 應(yīng)用時(shí),往往會(huì)根據(jù)自身的喜好或者業(yè)務(wù)場(chǎng)景選擇不同的組件搭配 AI Agent。對(duì)此,聲網(wǎng)的解決方案采用了靈活可擴(kuò)展的 AI Agent架構(gòu),兼容市場(chǎng)主流的 ASR、LLM 和 TTS 技術(shù),并具備工作流編排能力,幫助開(kāi)發(fā)者與企業(yè)根據(jù)特定需求定制和擴(kuò)展 AI 驅(qū)動(dòng)的實(shí)時(shí)互動(dòng)體驗(yàn)。
RTE 成為 GenAI 時(shí)代 AI Infra 的關(guān)鍵部分
在與大模型廠商合作的過(guò)程中,聲網(wǎng)也發(fā)現(xiàn)想要提升大模型落地的實(shí)用性,現(xiàn)有 RTE 技術(shù)棧和基礎(chǔ)設(shè)施仍有大量改進(jìn)空間。劉斌表示,只有通過(guò)不斷的演進(jìn),大模型才有機(jī)會(huì)在各種場(chǎng)景、形態(tài)下大規(guī)模參與到和人的語(yǔ)音對(duì)話中,大模型也將基于云、設(shè)備端、邊緣的多維度參與與協(xié)作;谶@些能力的改進(jìn)和普及,未來(lái) RTE 將成為 GenAI 時(shí)代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。
同時(shí),Gen AI 也在驅(qū)動(dòng) RTE 實(shí)時(shí)互動(dòng)的技術(shù)變革與體驗(yàn)革新,在人與人的實(shí)時(shí)互動(dòng)中,聲網(wǎng)一直致力于實(shí)現(xiàn)從 QoS 服務(wù)質(zhì)量到 QoE 體驗(yàn)質(zhì)量的技術(shù)變革,在體驗(yàn)層面也從“聽(tīng)得到“變?yōu)椤奥?tīng)得清”。而在人與 AI 的實(shí)時(shí)互動(dòng)中,為了進(jìn)一步增強(qiáng)體驗(yàn),RTE 的技術(shù)變革也演變?yōu)?AI QoE 甚至多模態(tài) AI QoE,這背后就包含了聲網(wǎng)自研的 AI VAD 能力、降噪能力及網(wǎng)絡(luò)優(yōu)化等一系列技術(shù)能力,以使得人與 AI 的對(duì)話更符合實(shí)際情況,大模型也從理解內(nèi)容,變成理解對(duì)話人的心理、情緒,最終理解對(duì)話時(shí)的人類(lèi)意圖,最后實(shí)現(xiàn)從“聽(tīng)得懂“到“聽(tīng)「得心」”的體驗(yàn)革新。
在 GenAI 時(shí)代,聲網(wǎng)的產(chǎn)品體系也在不斷加強(qiáng),劉斌也進(jìn)一步介紹了聲網(wǎng)的 AI RTE 產(chǎn)品矩陣,包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做補(bǔ)充與優(yōu)化。
最后劉斌還介紹了聲網(wǎng) RTE + AI 能力全景圖,包括 RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、Conversational AI Agents 解決方案等,全面的展現(xiàn)了聲網(wǎng)對(duì) RTE+AI 的整體思考,致力于成為 GenAI 時(shí)代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。