OpenAI 近期推出了炙手可熱的文本轉(zhuǎn)視頻生成模型 Sora,然而該公司首席技術(shù)官 (CTO) Mira Murati 在接受華爾街日?qǐng)?bào)采訪時(shí)卻語焉不詳,無法明確說明 Sora 的訓(xùn)練數(shù)據(jù)來源。
在采訪中,記者直接詢問 Murati 關(guān)于 Sora 訓(xùn)練數(shù)據(jù)來源時(shí),她僅以含糊的官方話術(shù)搪塞:“我們使用的是公開可用數(shù)據(jù)和許可數(shù)據(jù)!
當(dāng)記者追問具體來源是否包含 YouTube 視頻時(shí),Murati 竟然表示“我實(shí)際上并不確定(I'm actually not sure about that)”,并拒絕回答有關(guān) Instagram 或 Facebook 視頻是否被納入訓(xùn)練集的問題。她辯稱,如果這些視頻是公開可用且可以使用的,那么可能會(huì)被使用,但她本人對(duì)此并不確定。
當(dāng)記者詢問 OpenAI 是否與其合作伙伴圖片素材公司 Shutterstock 達(dá)成過數(shù)據(jù)訓(xùn)練方面的合作,Murati 索性拒絕繼續(xù)討論數(shù)據(jù)來源話題。
Murati 甚至回避記者關(guān)于 OpenAI 與圖片素材巨頭 Shutterstock 的數(shù)據(jù)合作,拒絕透露來自該平臺(tái)的視頻是否被用于訓(xùn)練 Sora。最終,她干脆中止了相關(guān)討論,堅(jiān)稱數(shù)據(jù)來源“肯定是公開可用或經(jīng)過許可的”,卻無法給出任何具體細(xì)節(jié)。
Murati 這番閃爍其詞的做法讓 OpenAI 陷入尷尬境地。此前,該公司就因數(shù)據(jù)抓取行為引發(fā)廣泛爭(zhēng)議,甚至面臨多起版權(quán)訴訟,其中就包括紐約時(shí)報(bào)的指控。如今,連 CTO 都無法說清其最熱門模型的訓(xùn)練數(shù)據(jù)來源,難免讓人懷疑 OpenAI 高層對(duì)該問題的重視程度。
據(jù)報(bào)道,采訪結(jié)束后,Murati 私下承認(rèn)了確有使用 Shutterstock 視頻訓(xùn)練 Sora。然而,相較于網(wǎng)絡(luò)上浩如煙海的視頻內(nèi)容,來自 Shutterstock 的素材可能只是 Sora 訓(xùn)練數(shù)據(jù)的一小部分。
Murati 的諱莫如深引發(fā)了網(wǎng)友熱議。不少人認(rèn)為她缺乏坦誠,質(zhì)疑其對(duì)自身產(chǎn)品的了解程度。有人直言,CTO 竟然對(duì)如此關(guān)鍵的問題不知情,實(shí)在令人難以置信。
然而,也有人為 Murati 辯護(hù),認(rèn)為既然內(nèi)容已經(jīng)發(fā)布到網(wǎng)絡(luò),就應(yīng)該允許人工智能公司加以利用。他們認(rèn)為,用戶既然選擇公開內(nèi)容,就應(yīng)該承擔(dān)被使用的風(fēng)險(xiǎn)。
Murati 的回避行為究竟是為了防止更多版權(quán)糾紛,還是真的對(duì)數(shù)據(jù)來源一無所知,我們不得而知。但可以肯定的是,公眾有權(quán)質(zhì)疑這些“公開可用且經(jīng)過許可”的 AI 訓(xùn)練數(shù)據(jù)究竟來自何處。未來,含糊其辭的官方說辭恐怕難以平息人們的疑慮。