Colaboração Harvard-Google para Lançar Um Milhão de Livros para Treinar a Próxima Geração de IA
A Universidade de Harvard, em colaboração com o Google, revelou um conjunto de dados de um milhão de livros de domínio público para avançar o treinamento de IA.
Esta coleção diversificada abrange vários gêneros, idiomas e autores icônicos como Dickens, Dante e Shakespeare, cujas obras entraram em domínio público devido à sua idade.
Esta iniciativa aborda os altos custos normalmente associados a dados de treinamento de IA, tornando-se um recurso valioso para fomentar a inovação no desenvolvimento de IA.
A Harvard está lançando um conjunto de treinamento de IA gratuito com uma enorme coleção de livros de domínio público, o que é uma coisa útil para startups. Parabéns! pic.twitter.com/01W9FmjuDV
— Jed White 💥♻️ (@jedwhite) 12 de dezembro de 2024
Gigantes da Tecnologia Apoiaram a Iniciativa
A Iniciativa de Dados Institucionais de Harvard (IDI) está liderando um esforço inovador para fornecer um conjunto de dados abrangente oriundo do extenso projeto de digitalização de livros do Google, Google Books.
Essa coleção abrange uma ampla gama de textos, desde livros didáticos de matemática tchecos até dicionários de bolso galeses, oferecendo uma riqueza de conhecimento para o treinamento de IA.
Inicialmente provocada em março, a IDI anunciou seus planos de criar um "canal confiável para dados legais para IA", com pouco acompanhamento até seu lançamento formal na quinta-feira.
Financiada por gigantes da tecnologia como Microsoft e OpenAI, esta iniciativa é projetada para tornar dados de alta qualidade e acessíveis ao público disponíveis não apenas para grandes corporações, mas também para laboratórios de pesquisa e startups de IA que buscam treinar grandes modelos de linguagem.
Por @pradeepviswav - A Biblioteca da Escola de Direito de Harvard lançou a Iniciativa de Dados Institucionais (IDI) com o apoio da Microsoft e da OpenAI para publicar suas coleções como dados para diversos fins. #Microsoft #OpenAI #Google #IA https://t.co/MuYpzbTzoQ
— NeowinFeed (@NeowinFeed) 12 de dezembro de 2024
O Diretor Executivo da IDI, Greg Leppert, enfatizou que o conjunto de dados visa nivelar o campo de atuação, reduzindo as barreiras para pequenas empresas que enfrentam custos proibitivos de treinamento.
Ele também assegurou que o conjunto de dados passa por uma revisão rigorosa para garantir qualidade e precisão.
Mais Recursos Ainda Necessários
Leppert, comparando o potencial do conjunto de dados de Harvard ao do sistema operacional Linux de código aberto, observa que seu sucesso depende de uma combinação de recursos, expertise e do que ele chama de "um toque de mágica" das próprias corporações que a iniciativa busca desafiar.
O conjunto de dados, que inclui um milhão de livros digitalizados através do programa de livros do Google, é visto por alguns como uma cápsula do tempo digital dos primeiros dias do agora ambicioso projeto do Google de digitalizar todos os livros—um objetivo que antes parecia mais excêntrico do que distópico.
Enquanto Leppert está otimista sobre o potencial do conjunto de dados, imaginando-o como um recurso valioso tanto para startups quanto para grandes corporações, críticos como Fudzilla o veem como uma maneira sutil de grandes players manterem uma vantagem na corrida pela IA generativa.
O lançamento do ChatGPT em novembro de 2022 incendiou um impulso global para desenvolver modelos de IA semelhantes, criando uma demanda crescente por dados para refinar esses sistemas.
No entanto, essa fome de dados levantou preocupações legais, com grandes editoras como o Wall Street Journal e o New York Times processando a OpenAI e a Perplexity por usarem seus dados sem consentimento.
O criador do ChatGPT, OpenAI, está sendo processado por supostamente ter coletado secretamente 300 bilhões de palavras da internet, incluindo livros, artigos, sites, postagens e informações pessoais obtidas sem consentimento, relata a Bloomberg. pic.twitter.com/HwGmGEFfWZ
— KanekoaTheGreat (@KanekoaTheGreat) 3 de julho de 2023
À medida que o desenvolvimento da IA acelera, o equilíbrio entre acesso aberto e direitos de propriedade intelectual continua sendo uma questão crucial e controversa.