Při diskuzi o nedávné debatě o tom, jak Open a Google získávají svá data, aby seděla jako model, si všimnete, že debatě více dominují dva pojmy: open a Google. Články publikované v The Wall Street Journal a NY Times nedávno ilustrují, že to, jak společnosti související s umělou inteligencí shromažďují data, nebylo na úrovni a způsobilo bolest hlavy, jaká data jsou pravdivá a jaký etický úhel byl použit při vytváření systému souvisejícího s umělou inteligencí. .

Pochybná taktika OpenAI

Na svém vrcholu však New York Times zdůrazňovaly větší výsledky Open AI uvedené v Whisper. Tento model přepisu zvuku na text je pokročilý jako doplněk k jazykovému procesoru Open AI, technologii LP-4. Samořídící auto OpenAI skutečně není sběrem informací, což je náročný problém, na který se společnost obrací; spíše za takových podmínek přichází do hry to druhé.

Ačkoli počáteční popularita aktů shromažďování dat souvisela s ohledy na autorská práva v souladu s principem fair use, tato práva se také stala právním základem pro tyto akty. Jak uvedl Brockman, jeden ze zakládajících členů a generální ředitel OpenAI poskytl některé informace nezbytné pro přepis. Pokračuje však tím, že se na přepisu podílel i historik.

Společnost Google Corporation se však i u těchto malých problémů dostává do popředí zájmu větších podniků, jako je tento, to znamená, že funkce sběru dat, jako je OpenAI, je menší organizace a zapojuje se do projektů, které jsou zaměřeny na průmyslového giganta, a uživatel byl pouze varován a nebylo řečeno, koho YouTube obviňuje.

Kromě tohoto přístupu se Facebook také zabýval dodržováním TOS a zakázal neoprávněné akce, zejména tzv. data scraping. V případě Johna Conlyho (mluvčího YouTube) po sběru dat od tvůrců obsahu odpověděl na otázku, zda byly modely použity pro školení AI založené na obsahu.

Naopak. Stejně jako tréninkové stroje, na které straně je Meta aktuálním problémem vedoucím k její neproveditelnosti. Skupina AI ve firmě, která uspěla s rivalitou OpenAI, se domnívala, že oba týmy využily všechny dostupné prostředky k práci na lepším výsledku pro své společnosti, včetně originálního myšlení, aniž by věnovaly pozornost jakékoli záležitosti ve prospěch odmítnuté strany.

Zdá se, že Meta má připravené typy otázek, jejichž cílem bylo získat odpověď na to, jaká delegovaná práce bude vykonána, kdo bude mít na starosti nákup knih od kterých vydavatelů specializovaných na konkrétní obory. Přestože je uživatelská zkušenost sítě mimořádně úžasná, zavedená vládní politika získala iniciativu vměšovat se do soukromí jednotlivců, na což v roce 2018 upozornila aféra Cambridge Analytica.

Širší prostředí školení umělé inteligence čelí naléhavému dilematu: Na jedné straně je otázka nedostatku dat v posledních několika letech akutnější na straně druhé. Zatímco spojení mezi těmito dvěma zůstává, výzkumníci vždy trvají na tom, že mají dostatečná data pro zvýšenou přesnost a zvýšení výkonu.

Také předpověď Wall Street Journal probouzí nadšení, který promítá zvýšení nad všechny cíle do dřívějšího roku 2020 a překročí konec roku s nejvyšším bodem trhu. Tato metoda je založena na dvou faktorech: spoléhání se na modely, které mohou být syntetické pro vyjádření externí matice, a na kurikulu rozhodovacího procesu, kde se modely učí ze svých rozhodnutí. Neočekávejte, že přinesou výsledky, ale umožněte jim, aby byly pozorovatelné.

Právní a etické důsledky

Absence pravidla o pirátství může přinést potíže, protože nic nemůže umožnit uživatelům přístup k položkám chráněným autorským právem a může vzniknout porozumění poslání v oblasti práva, etiky atd. Stávají se data nehmotným majetkem a základem pro to, abyste věděli a uváděli, co jsou vaše a co není tomu tak, o kterých datech a uživatelích je známo, že jsou zdrojem podnikání, když je použití těchto dat neoprávněné? Toto riziko by mohlo vést k tomu, že program týmu R&D se soustředí na jejich přezkoumání a vypracování odpovědí.

Vztah v rámci kampaní skupinových žalob by znamenal, že soukromí a používání dat jsou odpověďmi, které organizace nezná dostatečně, aby její operace byly legitimní. Výzvy (jako jsou etické otázky týkající se procesu dolování dat používaného pro výzkum a vývoj AI) se skutečně komplikují, protože musíme vzít v úvahu omezení regulace a soukromí dat (protože povaha dat je v kontextu o tom, jak jsou údaje zpracovávány a používány).

Nejtěžší soutěž v oblasti umělé inteligence budoucnosti spočívá v identifikaci nejlepších dat pro školení systémů umělé inteligence, a ještě více jde o to, zda tato data podléhají společným etickým nebo právním regulačním rámcům. Vše kolem umělé inteligence ve své podstatě zdůrazňuje a rozšiřuje pojmy jako inovace a implementace prostřednictvím filtrů datových sad pro podniky.

Být technologickou umělou inteligencí není nikdy statické, takže hlavním problémem bude vždy využití dat a bude i nadále jednou z priorit členů komunity, kteří se formují pomocí umělé inteligence, tím nejlepším.

Původní příběh z: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb