首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

Meta推出新的AI模型 可轉(zhuǎn)錄和翻譯近百種語言

2023年8月23日 15:38  財聯(lián)社  

①Meta周二發(fā)布了一個名為SeamlessM4T的人工智能模型,可以翻譯和轉(zhuǎn)錄近百種語言;

②對于語音轉(zhuǎn)語音和文本轉(zhuǎn)語音的操作,SeamlessM4T可以識別100種輸入語言,并將其轉(zhuǎn)換為35種輸出語言。

當?shù)貢r間周二(8月22日),Meta發(fā)布了一個名為SeamlessM4T的人工智能(AI)模型,可以翻譯和轉(zhuǎn)錄近百種語言。

據(jù)Meta介紹,SeamlessM4T可以翻譯近100種語言的語音到文本和文本到文本。對于語音轉(zhuǎn)語音和文本轉(zhuǎn)語音的操作,它可以識別100種輸入語言,并將其轉(zhuǎn)換為35種輸出語言。

SeamlessM4T是根據(jù)知識共享許可(CC) 協(xié)議4.0發(fā)布的,允許研究人員對其進行迭代。

除了SeamlessM4T,Meta還發(fā)布了其開放翻譯數(shù)據(jù)集SeamlessAlign的元數(shù)據(jù)。

Meta表示:“建立一個通用語言翻譯器,例如像《銀河系漫游指南》中虛構(gòu)的巴別魚那樣,是具有挑戰(zhàn)性的,因為現(xiàn)有的語音對語音和語音對文本系統(tǒng)只覆蓋了世界語言的一小部分。”

《銀河系漫游指南》是由英國作家道格拉斯·亞當斯所寫的一系列科幻小說,而巴別魚是這部作品所創(chuàng)造的一種神奇生物,體型小到足以放進人的耳朵,靠接受腦電波為生。如果將巴別魚放到耳朵里,人們可以理解任何語言。

對于SeamlessM4T模型,Meta研究人員在一篇研究論文中表示,他們從400萬小時的原始音頻中收集了音頻訓(xùn)練數(shù)據(jù),這些音頻來自一個公開的抓取網(wǎng)絡(luò)數(shù)據(jù)存儲庫,但沒有說明是哪個存儲庫。

研究報告稱,文本數(shù)據(jù)來自去年創(chuàng)建的數(shù)據(jù)集,這些數(shù)據(jù)集從維基百科和相關(guān)網(wǎng)站上提取了內(nèi)容。

Meta表示,SeamlessM4T代表了一個重大突破,因為這個模型可以一次性完成整個翻譯任務(wù),而不像其他大型翻譯模型那樣,將翻譯分成不同的系統(tǒng)。

SeamlessM4T建立在Meta之前的翻譯模型之上。Meta去年發(fā)布了支持200種語言的文本到文本的翻譯模型。它開發(fā)了用于多語言語音到語音翻譯的數(shù)據(jù)集,以及用于語音識別的大規(guī)模多語言語音。Meta去年展示了它的通用語音翻譯器,可將閩南語轉(zhuǎn)化為英語。

編 輯:章芳
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題,請在30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張云明:大部分國家新劃分了中頻段6G頻譜資源
精彩專題
專題丨“汛”速出動 共筑信息保障堤壩
2023MWC上海世界移動通信大會
中國5G商用四周年
2023年中國國際信息通信展覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像