Quer exista o trabalho da OpenAI, Google e Meta, AI financiando o sector industrial, que compreende vários meios como a recolha ou acumulação de enormes volumes de dados digitais de diferentes formas criativas mas controversas, é claro que as capacidades e capacidades de automação estão a aumentar. Notavelmente, os esforços que envolvem ações como a adoção das medidas descritas acima (ou seja, levar em consideração os limites legais e as políticas corporativas) são equivalentes à quantidade considerável de dados utilizados para treinar os sistemas de IA.

Iniciativa sussurrante da OpenAI: Minerando conversas no YouTube

Nossa história do Whisper começou no ano passado. Há uma escassez esmagadora de textos em inglês de primeira qualidade que causa atrasos na entrega da educação. Whisper foi o próximo passo do Google. Ele compreendeu o oceano de diálogos do YouTube e foi desenvolvido como texto, um aplicativo de conversão de texto em fala. A própria ferramenta alimentada por IA, que consiste em mais de um milhão de horas de vídeos do YouTube auditados pela IA para gerar novos textos (essencialmente, uma nova conversa), tem sido utilizada para treinar modelos de IA produzidos a partir do estado da arte. até GPT-4, a versão mais recente do chatbot ChatGPT.

Embora alguns funcionários argumentassem que as imagens da Microsoft da OpenAI plagiariam o YouTube em todos os aspectos, a ética do plágio ainda era discutível; além disso, alguns trabalhadores admitiram que seria impossível alinhar com precisão as intenções do YouTube. Da mesma forma, a aquisição de objeção no processamento algorítmico dos vídeos para extrair o conteúdo textual para alimentar o A.I. modelos podem ter sido considerados uma ameaça aos direitos autorais dos criadores de vídeos, causando indignação. 

A Meta, controladora do Facebook e do Instagram, também se preocupou em usar elementos protegidos por direitos autorais de editoras como Simon & Schuster, entre outras. Ao mesmo tempo, também discutiu a aquisição de conteúdo geral da web, potencialmente para ser pego em violação de direitos autorais.

A crise de dados: impulsionando abordagens não convencionais

A coleta de dados repleta de concorrência ajuda a observar a posição central dos dados e a identificá-los no desenvolvimento da tecnologia de IA. A linguagem em uma IA comanda cada vez mais conjuntos de dados de treinamento, incluindo o Commonwealth, que hoje são manipulados até a Wikipédia e o Reddit de fora dessas fontes. Para as empresas de tecnologia – especialmente aquelas que têm dificuldade em alcançar fontes de dados muito comuns, como armazenamentos de dados tradicionais – a criação de modelos alimentados por IA pode ser uma solução alternativa que pode ser bastante desejável em tais casos.

As empresas do setor técnico indicam que a coleta de dados é necessária para o treinamento em IA, enquanto o mesmo processo está legalmente em questão no tribunal. Em sua defesa, a OpenAI e a Microsoft venceram uma alegação sobre o emprego ilegal de material protegido por direitos autorais contra elas. Ainda assim, eles disseram que as suas ações se enquadravam no princípio legal do uso justo. Nos últimos anos, o número de pedidos apresentados ao Gabinete de Direitos de Autor dos EUA pelos detentores de direitos de autor ultrapassou o número de 10.000, o que mostra claramente que a lei de direitos de autor na era da IA ​​é única e totalmente nova. Consequentemente, os principais intervenientes enfrentam sempre perigos relacionados com a violação de muitas obras, sob o pretexto de que não existem finalidades licenciadas para os modelos que utilizam IA nesta base.

O imperativo para conjuntos de dados massivos

No geral, o trabalho de Kaipan, de Jared, cientista da escala, foi involuntariamente épico no desenvolvimento de IA. O conteúdo baseado em dados é um dos componentes da IA ​​necessários para o processo de treinamento, mas não pode funcionar bem sem os modelos que foram bem treinados e operam de forma eficaz. Com o aumento da tecnologia de inteligência artificial, a procura de dados para ter sucesso no mercado aumenta a um ritmo elevado, deixando as empresas com questões relacionadas com a lei, a ética e a privacidade. Portanto, os algoritmos de inteligência artificial devem utilizar esses conjuntos de dados para ter sucesso no mercado.

O comportamento de coleta de dados dos V.IPs está sendo desfigurado para melhorias na IA; o juramento metodológico típico está sendo grosseiro. Seja através de uma de suas palestras no YouTube ou da criação de dados sintéticos geradores, essas empresas são líderes em uma missão para descobrir quais são realmente as questões legais, éticas e de privacidade. 

Eles podem se tornar uma piada no mar mais tarde. Devido ao aparecimento de enormes conjuntos de dados necessários para impulsionar o processo de inovação, os líderes da sociedade são obrigados a participar activamente num diálogo construtivo para desenvolver regras e padrões em que os esforços de inovação sejam equilibrados com princípios éticos de direitos de propriedade intelectual e privacidade.

História original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html