無論是 OpenAI、谷歌和 Meta 的工作,還是人工智能資助工業部門,包括以各種創造性但有爭議的方式收集或積累大量數字數據等各種手段,很明顯,自動化能力和能力正在增強。值得注意的是,採取上述措施(即考慮法律限制和公司政策)等行動的努力相當於用於訓練人工智能系統的大量數據。

OpenAI 的私語計劃:挖掘 YouTube 對話

我們的 Whisper 故事始於去年。一流英語文本嚴重短缺,導致教育交付延遲。Whisper 是 Google 的下一步。它瞭解 YouTube 的對話海洋,並以文本形式開發,這是一款文本轉語音應用程序。這個由人工智能驅動的工具本身由超過一百萬小時的 YouTube 視頻組成,這些視頻由人工智能審覈以生成新文本(本質上是一段新對話),已用於訓練從最先進到最新版本的 ChatGPT 聊天機器人 GPT-4 製作的人工智能模型。

儘管一些員工認爲 OpenAI 的微軟視頻會全面抄襲 YouTube,但抄襲的道德性仍有待商榷;此外,一些員工承認,這不可能完全符合 YouTube 的意圖。同樣,在算法處理視頻以提取文本內容來提供給人工智能模型時獲得異議可能會被視爲對視頻創作者版權的威脅,從而引起公憤。

Facebook 和 Instagram 的母公司 Meta 也擔心使用 Simon & Schuster 等出版社的版權內容。同時,它還討論了收購一般網絡內容,可能會陷入版權侵權的境地。

數據緊縮:推動非常規方法

充滿競爭的數據收集有助於注意數據在人工智能技術發展中的關鍵地位,並確定其地位。人工智能語言需要越來越多的訓練數據集,包括英聯邦,而這些數據集如今被操縱到維基百科和 Reddit 之外。對於科技公司(尤其是那些難以接觸到傳統數據存儲等非常常見的數據源的公司)來說,創建人工智能驅動的模型可能是一種替代解決方案,在這種情況下,這種解決方案可能足夠可取。

科技公司表示,數據收集是 AI 訓練的必要條件,但這一過程在法律上卻受到質疑。OpenAI 和微軟在辯護中贏得了一項針對他們非法使用版權材料的指控。儘管如此,他們仍表示自己的行爲符合合理使用的法律原則。近年來,版權持有人向美國版權局提交的申請數量已超過 10,000 份,這清楚地表明 AI 時代的版權法是獨一無二的,而且是全新的。因此,主要參與者總是面臨着與許多作品被侵權相關的危險,而在此基礎上使用 AI 的模型並沒有獲得許可的用途。

海量數據集的必要性

總體而言,Jared Kaipan 的工作在 AI 發展中無意中創造了史詩般的成就。數據驅動的內容是 AI 訓練過程中所需的組件之一,但如果沒有經過良好訓練並有效運行的模型,它就無法正常運作。隨着人工智能技術的進步,市場對數據的需求以極高的速度增長,這給公司帶來了與法律、道德和隱私相關的問題。因此,人工智能算法必須使用這些數據集才能在市場上取得成功。

V.IP 的數據收集行爲正在因 AI 增強而被扭曲;典型的方法論誓言正在變得粗俗。無論是通過他們的 YouTube 演講還是合成數據生成,這些公司都是領導者,致力於發現法律、道德和隱私問題的真正含義。

它們以後可能會成爲海上的一個笑話。由於推動創新過程所需的海量數據集的出現,社會領導者需要積極參與建設性的對話,以制定規則和標準,使創新努力與知識產權和隱私的道德原則保持平衡。

原文出處:https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html