Descobriu-se que Apple, Nvidia e Anthropic usam legendas do YouTube para treinar modelos de IA, o que vai contra as políticas do YouTube. Um relatório da Proof News e da Wired mostrou que essas empresas usaram um conjunto de dados de transcrições de milhares de vídeos do YouTube sem adquirir a licença adequada para fazê-lo. 

Leia também: Watchdog do Reino Unido lança investigação sobre aquisição de talentos de IA da Microsoft

O estudo revelou que Apple, Nvidia e Anthropic usaram o conjunto de dados de legendas do YouTube. Este conjunto de dados consiste em transcrições de 173.536 vídeos do YouTube de 48.000 canais. Os vídeos incluem canais educacionais como Khan Academy e MIT, canais de notícias como The Wall Street Journal e criadores importantes como MrBeast e Marques Brownlee. 

YouTubers populares reagem à exploração de dados

Marques Brownlee, um popular YouTuber, comentou sobre o assunto no X. Ele disse: “A Apple coletou dados para IA de outras empresas. Um deles coletou muitos dados/transcrições de vídeos do YouTube, inclusive os meus. ” Embora a Apple possa não ter coletado os dados diretamente, Brownlee apontou que esse problema persistirá.

O conjunto de dados “Legendas do YouTube” foi desenvolvido pela EleutherAI e publicado em 2020. Ele contém 5,7 GB de dados, que incluem legendas de vídeos do YouTube que foram removidos da plataforma. 

De acordo com os termos e condições do YouTube, é proibido acessar vídeos por “meios automatizados”. A existência de legendas de vídeos removidos só aumenta a questão, levantando questões sobre privacidade e violação de direitos autorais.

A Salesforce, organização também implicada na investigação, também admitiu ter usado o referido conjunto de dados. 

“O conjunto de dados Pile mencionado no artigo de pesquisa foi treinado em 2021 para fins acadêmicos e de pesquisa. O conjunto de dados estava disponível publicamente e lançado sob uma licença permissiva.”

Porta-voz da Salesforce 

No entanto, o uso de conteúdo do YouTube sem permissão ainda é controverso até hoje. Em abril, o CEO do YouTube, Neal Mohan, disse que usar vídeos, transcrições ou clipes do YouTube para treinamento de IA é uma “violação clara” das políticas. No entanto, de acordo com o New York Times, a OpenAI usou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4. 

Batalhas legais eclodem sobre o uso de conteúdo da Internet por empresas de IA

A questão das empresas de IA que usam conteúdo da Internet sem autorização aumentou após o lançamento do ChatGPT. Além disso, os criadores de conteúdo estão processando Stability AI e Midjourney por supostamente copiarem obras protegidas por direitos autorais sem permissão. O proprietário do YouTube, Google, enfrentou ações judiciais coletivas relacionadas a reivindicações semelhantes, afirmando que ações legais desse tipo ameaçam a base da IA ​​generativa. 

Em entrevista ao The Wall Street Journal, Mira Murati, CTO da OpenAI, não detalhou se a empresa usou vídeos de plataformas de mídia social para treinar esse novo modelo. O CEO da Microsoft AI, Mustafa Suleyman, afirmou que o conteúdo da web aberta era considerado uso justo desde a década de 1990, com base no que ele chamou de “contrato social”.