Escrito por: Jiang Jiang
Editor: Manmanzhou
O surgimento do ChatGPT e a adoção explosiva do Midjourney permitiram que a IA alcançasse sua primeira aplicação em grande escala, ou seja, a popularidade de grandes modelos.
O chamado modelo grande refere-se a um modelo de aprendizado de máquina com um grande número de parâmetros e estrutura complexa, que pode processar dados massivos e realizar diversas tarefas complexas.
01 Disputas de direitos autorais de dados de IA
Se os actuais grandes modelos de IA forem comparados com os automóveis, os dados brutos são petróleo bruto. Em qualquer caso, em primeiro lugar, o modelo de IA precisa de “petróleo bruto” suficiente.
As principais fontes de “petróleo bruto” para empresas de IA incluem as seguintes categorias:
Fontes de dados públicas e gratuitas na Internet, como Wikipédia, blogs, fóruns, informações noticiosas, etc.;
Meios de comunicação e editoras estabelecidas;
Universidades e outras instituições de investigação;
Usuários do lado C que usam o modelo.
A propriedade do petróleo no mundo real já possui regulamentações legais maduras, mas no ainda caótico campo da IA, os direitos de exploração do "petróleo bruto" ainda não estão claros e as disputas resultantes são numerosas.
Recentemente, várias grandes gravadoras processaram as produtoras musicais de IA Suno e Udio, acusando-as de violação de direitos autorais. O processo é semelhante ao movido pelo The New York Times contra a OpenAI em dezembro.
Fonte: Painel publicitário
Em julho de 2023, um grupo de escritores entrou com uma ação judicial contra a empresa, alegando que o ChatGPT gerava resumos de obras de autores com base em conteúdo protegido por direitos autorais.
Em dezembro do mesmo ano, o New York Times também abriu um processo semelhante por violação de direitos autorais contra a Microsoft e a OpenAI, acusando as duas empresas de usarem o conteúdo do jornal para treinar chatbots de inteligência artificial.
Além disso, uma ação coletiva foi movida na Califórnia alegando que a OpenAI obteve informações privadas dos usuários da Internet sem o seu consentimento para treinar o ChatGPT.
A OpenAI acabou não pagando pela acusação. Afirmaram que não concordavam com a acusação do New York Times e não podiam reproduzir os problemas mencionados pelo New York Times. York Times foi Não importa para OpenAI.
Fonte: https://openai.com/index/openai-and-journalism/
Para a OpenAI, talvez a maior lição deste incidente seja lidar adequadamente com o relacionamento com os fornecedores de dados e esclarecer os direitos e responsabilidades de ambas as partes. Como resultado, vimos a OpenAI alcançar parcerias com muitos provedores de dados no ano passado, incluindo, entre outros, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. e muito mais.
No futuro, a OpenAI usará legitimamente os dados dessas mídias, e essas mídias também integrarão a tecnologia da OpenAI em seus produtos.
02 IA impulsiona a monetização da plataforma de conteúdo
No entanto, a razão mais fundamental para a OpenAI estabelecer parcerias com fornecedores de dados não é o medo de ser processado, mas o esgotamento iminente de dados que a aprendizagem automática enfrenta. Um estudo conduzido por pesquisadores como o MIT estimou que os conjuntos de dados de aprendizado de máquina podem esgotar todos os “dados de linguagem de alta qualidade” até 2026.
“Dados de alta qualidade” tornaram-se, portanto, uma mercadoria importante para criadores de modelos como OpenAI e Google. As empresas de conteúdo e os fabricantes de modelos de IA têm cooperado repetidamente para iniciar um modelo de lucro fixo.
A plataforma de mídia tradicional Shutterstock alcançou sucessivamente cooperação com empresas de IA como Meta, Alphabet, Amazon, Apple, OpenAI, Reka, etc., e aumentará sua receita anual para US$ 104 milhões por meio de licenciamento de conteúdo para modelos de IA em 2023, e é deverá gerar US$ 250 milhões em receitas em 2027; Reddit A receita de direitos autorais de conteúdo licenciados ao Google chega a US$ 60 milhões por ano; a Apple também está buscando cooperar com a grande mídia de notícias e oferecer royalties de pelo menos US$ 50 milhões por ano; ano. Os royalties que as empresas de conteúdo recebem das empresas de IA estão aumentando a uma taxa anual de 450%.
Fonte da imagem: CX Scoop
Nos últimos anos, tem sido difícil monetizar conteúdo que não seja mídia de streaming, o que tem sido um grande problema na indústria de conteúdo. Em comparação com a era do empreendedorismo na Internet, o surgimento da IA trouxe maior imaginação e expectativas de receitas mais fortes para a indústria de conteúdos.
03 Dados de alta qualidade ainda são escassos
É claro que nem todo conteúdo atende às necessidades da IA.
Outro ponto positivo em relação ao debate mencionado entre a OpenAI e o New York Times é a qualidade dos dados. Para refinar o petróleo a partir do petróleo bruto, em primeiro lugar, o petróleo em si deve ser de boa qualidade e, em segundo lugar, a tecnologia de purificação deve ser boa.
A OpenAI enfatiza especificamente que o conteúdo do New York Times não fez nenhuma contribuição significativa para o treinamento do modelo da OpenAI em comparação com o Shutterstock, que permite à OpenAI gastar dezenas de milhões de dólares todos os anos, em mídias de texto como o New York Times. a pontualidade não é a queridinha da era da IA. A IA requer dados profundos e exclusivos.
No entanto, os dados de alta qualidade são muito escassos e as empresas de IA também começaram a trabalhar arduamente na "tecnologia de purificação" e na "aplicação completa".
Em 25 de junho, a OpenAI adquiriu a Rockset, empresa de banco de dados analítico em tempo real. Esta empresa fornece principalmente funções de indexação e consulta de dados em tempo real. OpenAI integrará a tecnologia da Rockset em seus produtos para melhorar o valor de uso dos dados em tempo real.
Fonte da imagem: DePIN Scan
Com a aquisição da Rockset, a OpenAI planeja fazer com que a IA aproveite melhor e acesse dados em tempo real. Isso permite que os produtos da OpenAI suportem aplicações mais complexas, como sistemas de recomendação em tempo real, chatbots dinâmicos baseados em dados, monitoramento em tempo real e sistemas de alarme, etc.
Rocket é o “departamento petroquímico” integrado da OpenAI que converte diretamente dados comuns em dados de alta qualidade exigidos pelos aplicativos.
04 A confirmação dos direitos dos dados do criador é uma fantasia?
Os dados das plataformas de mídia da Internet (Facebook, Reddit, etc.) vêm em grande parte do UGC, ou seja, conteúdo contribuído pelos usuários. Embora muitas plataformas cobrem altas taxas de dados para empresas de IA, elas também adicionam discretamente uma cláusula nos termos do usuário de que “a plataforma tem o direito de usar os dados do usuário para treinar modelos de IA”.
Embora os termos de utilização indiquem claramente os direitos de formação de modelos de IA, muitos autores não sabem quais os modelos que utilizam o conteúdo que produzem, nem sabem se estão a pagar por isso, nem conseguem obter os direitos e interesses relevantes que deveriam pertencer. para eles.
Durante a teleconferência de resultados trimestrais da Meta em fevereiro, Zuckerberg deixou claro que usaria imagens do Facebook e Instagram para treinar suas ferramentas de geração de IA.
Segundo relatos, o Tumblr também chegou misteriosamente a acordos de licenciamento de conteúdo com OpenAi e Midjourney, mas o conteúdo específico dos acordos específicos não foi divulgado.
Os criadores da plataforma de galeria de fotos EyeEm também receberam recentemente uma notificação de que as fotos postadas seriam usadas para treinamento de modelos de IA. O aviso mencionava que os usuários podem optar por não usar o produto, mas não mencionava nenhuma política de compensação. A controladora da EyeEm, Freepik, disse à Reuters que assinou acordos com duas grandes empresas de tecnologia para licenciar a maior parte de seus 200 milhões de imagens por cerca de 3 centavos por imagem. O presidente-executivo, Joaquin Cuenca Abela, disse que cinco outros acordos semelhantes estavam em andamento, mas não quis identificar os compradores.
Plataformas de conteúdo lideradas por UGC, como Getty Images, Adobe, Photobucket, Flickr, Reddit, etc., todas enfrentam problemas semelhantes. Sob a enorme tentação da monetização de dados, as plataformas optam por ignorar a propriedade do conteúdo dos usuários, empacotar os dados e vendê-los. Empresas modelo de IA.
Todo o processo foi realizado no escuro e os criadores não tiveram chance de resistir. Até mesmo muitos criadores podem ter que treinar conteúdo semelhante aos seus próprios trabalhos em um modelo um dia no futuro, antes de terem a oportunidade de suspeitar que seus trabalhos anteriores foram vendidos a uma empresa de IA para treinamento de modelo por uma determinada plataforma.
A Web3 pode ser uma boa escolha para resolver o problema da dificuldade em proteger os direitos de dados e rendimentos dos criadores. Quando as empresas de IA atingiram novos máximos no mercado de ações dos EUA, a moeda do conceito de IA da web3 também disparou ao mesmo tempo. O Blockchain, com suas características descentralizadas e invioláveis, desfruta de vantagens únicas na proteção dos direitos dos criadores.
O conteúdo de mídia, como fotos e vídeos, foi adotado em larga escala na rede no mercado altista de 2021, e o conteúdo UGC das plataformas sociais também está acontecendo silenciosamente na rede. Ao mesmo tempo, muitas plataformas de modelos de IA web3 já estão incentivando usuários comuns que contribuem para o treinamento de modelos, sejam eles proprietários de dados ou treinadores.
O desenvolvimento exponencial de modelos de IA impôs maiores exigências à verificação de dados. Os criadores devem pensar: Porque é que o meu trabalho foi vendido a uma empresa de modelos de IA por 5 cêntimos por peça sem o meu consentimento? Por que não tive conhecimento de todo o processo e não consegui obter nenhum benefício?
Os esforços da plataforma de mídia para capturar os peixes grandes não podem aliviar a ansiedade dos dados das empresas do modelo de IA. O pré-requisito para obter dados de alta qualidade e alto rendimento é a confirmação dos direitos dos dados, o que é uma distribuição razoável de interesses entre criadores, plataformas e IA. empresas modelo.