《紐約時報》披露了 OpenAI 收集數百萬小時 YouTube 視頻記錄以生成其強大 AI 模型 GPT-4 所需的大量數據的方法。雖然這些公司似乎走的是同一條路,形成了以谷歌和 Meta 爲首的巨頭隊伍,但隨着 AI 技術的升級,這條路線正在加速發展。所有這些都引出了“數字鴻溝”的問題,以及它對個人參與經濟的能力有何影響,特別是在版權和數據倫理等問題上。

OpenAI 的大膽數據獲取策略

OpenAI 發現並分析了這些 YouTube 內容。儘管這種策略具有自由使用的創新性質,但它觸及了公平使用原則,而公平使用原則正是該公司得以實現的前提條件。錄製 YouTube 視頻是 Google 爲 AI 學習過程所擁有的階段之一,這引發了對版權侵權以及未經作者同意使用數據所涉及的道德問題的擔憂。

有趣的是,在谷歌因擁有 YouTube 而受到抨擊後,據稱他們也對其 AI 模型採取了此類做法。這種共享監聽過程顯然是該報告的一個花哨部分,進一步揭示了科技公司在人工智能方面的道德和法律界限令人困惑。另一方面,谷歌提到,他們可以在用這些數據訓練 AI 系統之前獲得創作者的使用視頻許可,這最終成爲敘述中的爭論點。

隱私政策修訂

其中最主要的事件之一是谷歌,該公司計劃在 2023 年 6 月底之前改變其隱私政策。該戰略旨在深化公司利用可公開訪問的數據源(從谷歌文檔到谷歌地圖評論)的能力,以加強人工智能主導的創新。這表明了一種更廣泛的科技行業現象,這些大型科技公司在創新和用戶隱私領域都發揮着領導作用,因爲它們在努力解決兩者之間的適當平衡。

現在,OpenAI 和谷歌披露了這些科技巨頭在未經明確同意的情況下收集數據的做法,這引發了人們對人工智能發展進程和數據道德使用的質疑。彭博社就此話題援引了 YouTube 首席執行官 Neil Mohan 的話,他表示該平臺不允許下載這些未經授權的來源。

行業和法律影響

由於存在模糊性,這些數據抓取行爲的道德性和合法性問題隨之而來。另一個需要改進的領域是抄襲問題,因爲這些方法可能很有創意,但也會引發版權問題。隱私問題也是這個行業的一個問題。然而,這些漏洞的影響範圍不僅限於法律和道德問題,還遠遠超出了這些範圍。從大量漏洞來看,它們引起了人們對更重要的技術(AI 技術)競賽的關注,該競賽旨在利用數據來推動 AI 進步。

隨着 OpenAI 和 Google 等人工智能技術的先驅者不斷推進下一代人工智能範式的範圍,圍繞可以使用多少數據、版權保護的考慮因素以及人工智能應用的巨大社會影響的爭論也日益激烈。創新與道德的結合將帶來更復雜的局面,需要制定監管原則和明確的政策。

OpenAI 和 Google 拍攝 YouTube 視頻用於訓練的做法引發了由法律、道德和技術層面組成的多維度主觀問題。因此,科技行業不斷面臨創新、隱私和道德等挑戰,沒有這些挑戰就無法保證持續增長。關於這些問題的討論將繼續下去。不過,它還將擴展到社會中的每一個利益相關者,從法律專家到人工智能開發者本身,最終提出一個解決方案。

原文來自 https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/