在討論最近關於開放和谷歌如何使其數據符合模型的爭論時,你會注意到兩個術語在爭論中佔據主導地位:開放和谷歌。《華爾街日報》和《紐約時報》最近發表的文章表明,與人工智能相關的公司收集數據的方式不達標,並讓人頭疼,哪些數據是真實的,以及在創建與人工智能相關的系統時使用了哪種道德角度。

OpenAI 的可疑策略

然而,紐約時報在其巔峯時期強調了 Open AI 通過 Whisper 提出的更大成果。這種音頻到文本的轉錄模型是作爲 Open AI 語言處理器 LP-4 技術的補充而開發的。事實上,OpenAI 的自動駕駛汽車不是由信息收集組成的,這是該公司面臨的一個挑戰性問題;相反,後者在這樣的條件下發揮了作用。

雖然數據收集法案最初的流行與合理使用版權考慮有關,但後者也成爲這些法案的法律基礎。正如布羅克曼所說,OpenAI 的一位創始成員兼首席執行官提供了轉錄所需的一些信息。然而,他接着說,這位歷史學家也爲轉錄做出了貢獻。

然而,谷歌公司甚至將這些小問題推到像這樣的大企業的中心,也就是說,像 OpenAI 這樣的數據收集功能是一個較小的組織,從事面向行業巨頭的項目,而用戶只是受到警告,並沒有被告知 YouTube 應該責怪誰。

除了這種做法之外,Facebook 還在 TOS 中闡述了合規性基礎,並禁止未經授權的行爲,尤其是所謂的數據抓取。在 John Conly(YouTube 發言人)的案例中,他回答了有關模型是否在收集內容創建者的數據後用於基於內容的 AI 訓練的問題。

恰恰相反。以及訓練機器支持哪一方的 Meta 是當前的問題,導致其不可行。在 OpenAI 競爭中取得成功的公司的 AI 團隊認爲,兩個團隊都使用了所有可用的手段來爲他們的公司爭取更好的結果,包括原創思維,而不關注任何有利於被拒絕方的事情。

Meta 似乎已經準備好了各種問題,旨在回答哪些工作將由誰負責,誰將負責從哪些專門從事特定領域的出版商那裏購買書籍。儘管該網絡的用戶體驗非常棒,但既定的政府政策已經掌握了干涉個人隱私的主動權,2018 年劍橋分析事件凸顯了這一點。

更廣泛的人工智能訓練領域面臨着一個緊迫的困境:一方面,數據短缺的問題在過去幾年變得更加尖銳。雖然兩者之間的聯繫仍然存在,但研究人員始終堅持擁有足夠的數據來提高準確性和性能。

此外,《華爾街日報》的預測也激發了人們的熱情,它預測 2020 年的早期階段將超越所有目標,並在年底達到市場最高點。這種方法基於兩個因素:依靠模型,這些模型可以合成狀態外部矩陣,以及決策過程課程,模型可以從決策中學習。不要指望它們產生結果,但要讓它們可觀察。

法律和道德影響

盜版規則的缺失可能會帶來麻煩,因爲沒有任何東西可以允許用戶訪問受版權保護的項目,任務理解可能會圍繞法律、道德等產生。數據是否成爲無形財產,成爲了解和說明什麼是你的、什麼不是你的基礎,當數據的使用不合理時,數據和用戶被視爲業務的來源?這種風險將使研發團隊的項目負責人專注於審查它們並找出答案。

集體訴訟活動的目的關係意味着隱私和數據使用是組織對使其運營合法化的答案瞭解不夠多的問題。事實上,挑戰(例如用於人工智能研究和開發的數據挖掘過程的道德問題)變得複雜,因爲我們必須考慮數據的監管限制和隱私(因爲數據的性質是在數據處理和使用方式的背景下)。

未來最激烈的人工智能競爭在於爲人工智能系統的訓練找到最好的數據,更重要的是這些數據是否符合共同的道德或法律監管框架。人工智能周圍的一切,從本質上講,都是通過企業的數據集過濾器來強調和拓寬創新和實施等概念。

作爲一項技術,人工智能永遠不會是靜態的,因此主要問題始終是數據的使用,並且它將繼續成爲通過使用人工智能形成的社區成員的優先事項之一,即最好的。

原文來自:https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb