O New York Times expõe a metodologia utilizada pela OpenAI para acumular milhões de horas de transcrições de vídeos do YouTube para gerar os vastos dados necessários ao seu poderoso modelo de IA GPT-4. Embora possa parecer que estas empresas estão a seguir o mesmo caminho, formando uma fila liderada pelos gigantes Google e Meta, o caminho está a ganhar ritmo à medida que as tecnologias de IA são actualizadas. Tudo isto leva à questão da “exclusão digital” e ao impacto que esta tem na capacidade do indivíduo de participar na economia, especificamente em questões como os direitos de autor e a ética dos dados.

As ousadas táticas de aquisição de dados da OpenAI

A OpenAI detectou e analisou este conteúdo do YouTube. Esta estratégia, apesar da natureza inovadora da utilização livre, toca nos princípios da utilização justa, que é a pré-condição de possibilidade para esta empresa. A gravação de vídeos no YouTube, uma das etapas de propriedade do Google para o processo de aprendizagem de IA, traz à tona preocupações sobre a violação de direitos autorais e as questões éticas envolvidas no uso de dados sem o consentimento do autor.

Curiosamente, depois que o Google foi criticado como a empresa proprietária do YouTube pela mesma razão, eles supostamente se envolveram em tais práticas para seus modelos de IA. Este processo de espionagem partilhada é claramente uma parte sofisticada do relatório, que revela ainda mais os confusos limites éticos e legais das empresas tecnológicas nos seus esforços de inteligência artificial. Por outro lado, o Google mencionou que pode obter a permissão do criador para usar vídeos antes de treinar um sistema de IA com base nesses dados, o que acaba sendo um ponto de discórdia na narrativa.

A revisão da política de privacidade

Um dos principais acontecimentos foi o Google, uma medida corporativa para alterar a sua política de privacidade até ao final de junho de 2023. A estratégia visava, assim, aprofundar as capacidades da empresa para capitalizar fontes de dados acessíveis ao público, desde documentos do Google ao Google Maps. avaliações, para reforçar a inovação liderada pela IA. Isto indica um fenómeno mais amplo no setor tecnológico, onde estas grandes empresas tecnológicas respiram liderança tanto nos campos da inovação como da privacidade dos utilizadores, enquanto lutam para encontrar o equilíbrio certo entre ambos.

É agora com estes gigantes da tecnologia que a revelação da OpenAI e do Google das suas práticas de recolha de dados sem consentimento explícito levanta questões relativas ao curso do crescimento da IA ​​e à utilização ética dos dados. Neil Mohan, CEO do YouTube, foi citado pela Bloomberg sobre este assunto e disse que a plataforma não permite downloads dessas fontes não autorizadas.

Indústria e implicações legais

A questão da moralidade e da legalidade destes esforços de recolha de dados é então levantada devido à ambiguidade. Outra área a melhorar reside nos problemas de plágio, uma vez que estas abordagens podem ser criativas, mas também suscitam questões de direitos de autor. As questões de privacidade também são uma preocupação neste setor. No entanto, o alcance destes bugs não se limita apenas a problemas legais e éticos, mas vai muito além disso. Da abundância, chamam a atenção para uma corrida tecnológica mais significativa (tecnologia de IA), que visa utilizar dados para impulsionar os avanços da IA.

À medida que os pioneiros da tecnologia de IA, como a OpenAI e a Google, tendem a avançar no âmbito do próximo paradigma da IA, alarga-se o debate em torno das quantidades de dados que podem ser utilizadas, quais são as considerações para a protecção dos direitos de autor e as enormes implicações sociais das aplicações de IA. Misturar inovação com ética leva a um quadro mais complexo, exigindo o desenvolvimento de princípios de regulação e políticas claras.

O funcionamento da OpenAI e do Google na captação de vídeos do YouTube para fins de treinamento dá origem à questão multidimensional da natureza subjetiva que consiste nas dimensões jurídica, ética e tecnológica. Portanto, o setor tecnológico enfrenta constantemente desafios como inovação, privacidade e ética, sem os quais o crescimento contínuo não pode ser garantido. A discussão sobre essas questões continuará. Ainda assim, estender-se-á também a todas as partes interessadas da sociedade, desde especialistas jurídicos aos próprios criadores de IA, para eventualmente apresentarem uma solução proposta.

História original de https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/