據發現,Apple、Nvidia 和 Anthropic 正在使用 YouTube 字幕來訓練 AI 模型,這違反了 YouTube 的政策。Proof News 和 Wired 的一份報告顯示,這些公司在未獲得適當許可的情況下使用了數千個 YouTube 視頻的轉錄數據集。

另請閱讀:英國監管機構對微軟人工智能人才收購展開調查

研究顯示,蘋果、Nvidia 和 Anthropic 使用了 YouTube 字幕數據集。該數據集包含來自 48,000 個頻道的 173,536 個 YouTube 視頻的文字記錄。這些視頻包括可汗學院和麻省理工學院等教育頻道、《華爾街日報》等新聞頻道,以及 MrBeast 和 Marques Brownlee 等頂級創作者。

受歡迎的 Y​​ouTube 用戶對數據利用的反應

YouTube 知名部落客馬克斯布朗利 (Marques Brownlee) 在 X 上評論了這個問題。其中一個從 YouTube 影片中收集了大量數據/文字記錄,包括我的。雖然蘋果可能沒有直接抓取數據,但布朗利指出這個問題將會持續存在。

「YouTube 字幕」資料集由 EleutherAI 開發,於 2020 年發布。 

根據 YouTube 的條款和條件,禁止透過「自動方式」存取影片。被刪除影片中的字幕的存在只會加劇這個問題,引發有關隱私和版權侵犯的問題。

同樣參與調查的組織 Salesforce 也承認使用了上述資料集。 

「研究論文中提到的 Pile 資料集於 2021 年進行了訓練,用於學術和研究目的。該數據集是公開的,並在許可下發布。

銷售人員發言人 

然而,未經許可使用 YouTube 內容的行為仍有爭議。今年 4 月,YouTube 執行長尼爾莫漢 (Neal Mohan) 表示,使用 YouTube 影片、文字記錄或剪輯進行人工智慧訓練「明顯違反」了政策。然而,根據《紐約時報》報道,OpenAI 使用了 100 萬小時的 YouTube 影片來訓練其 GPT-4 模型。 

人工智慧公司使用網路內容引發法律糾紛

ChatGPT 推出後,人工智慧公司未經授權使用網路內容的問題增加。此外,內容創作者也起訴 Stability AI 和 Midjourney 涉嫌未經許可抄襲受版權保護的作品。 YouTube 的所有者Google面臨類似索賠的集體訴訟,稱此類法律訴訟威脅到生成人工智慧的基礎。 

在接受《華爾街日報》採訪時,OpenAI 的 CTO Mira Murati 並沒有詳細說明該公司是否使用社群媒體平台上的影片來訓練這個新模式。微軟 AI 執行長 Mustafa Suleyman 表示,自 20 世紀 90 年代以來,基於他所謂的“社會契約”,開放網路上的內容一直被認為是合理使用。