據(jù)媒體報(bào)道,OpenAI公司最近推出了一項(xiàng)革命性的聲音克隆技術(shù)——“Voice Engine”。
據(jù)悉,Voice Engine通過文本輸入和15秒的音頻樣本,便能生成與原始說話者聲音極為相似、情感豐富且自然逼真的語音。
這一技術(shù)的研發(fā)始于2022年,并已應(yīng)用于公司現(xiàn)有的文本轉(zhuǎn)語音API和Read Aloud功能中的預(yù)設(shè)語音。
OpenAI認(rèn)為,Voice Engine技術(shù)對于多個(gè)領(lǐng)域具有重大意義。在閱讀輔助和語言翻譯方面,它能夠提供更為自然的語音輸出,增強(qiáng)用戶體驗(yàn)。
同時(shí),該技術(shù)對于言語障礙患者來說更是一大福音,能夠幫助他們更順暢地交流。例如,在布朗大學(xué)的一個(gè)試點(diǎn)項(xiàng)目中,該技術(shù)成功用于創(chuàng)建從學(xué)校項(xiàng)目錄制的音頻中提取的語音克隆,有效幫助了言語障礙學(xué)生。
然而,鑒于合成語音技術(shù)可能存在的濫用風(fēng)險(xiǎn),OpenAI目前僅對少數(shù)可信合作伙伴開放小規(guī)模測試。通過這種方式,公司旨在深入了解技術(shù)的潛在應(yīng)用,并評估可能帶來的風(fēng)險(xiǎn)。
OpenAI也希望通過此舉引發(fā)社會(huì)對合成語音負(fù)責(zé)任部署的廣泛討論,共同探索如何適應(yīng)這一新型技術(shù)。
此外,為了確保技術(shù)的安全使用,OpenAI還采取了一系列安全措施。這些措施包括使用水印技術(shù)追蹤音頻來源,以及對系統(tǒng)的使用方式進(jìn)行主動(dòng)監(jiān)控。
當(dāng)產(chǎn)品正式推向市場時(shí),公司將設(shè)立一個(gè)“禁止語音列表”,以檢測并阻止與名人聲音過于相似的人工智能生成聲音,從而避免潛在的版權(quán)和隱私問題。