Colaboración Harvard-Google para liberar un millón de libros para entrenar la próxima generación de IA

La Universidad de Harvard, en colaboración con Google, ha desvelado un conjunto de datos de un millón de libros de dominio público para avanzar en el entrenamiento de IA.

Esta diversa colección abarca múltiples géneros, idiomas y autores icónicos como Dickens, Dante y Shakespeare, cuyas obras han pasado al dominio público debido a su antigüedad.

Esta iniciativa aborda los altos costos típicamente asociados con los datos de entrenamiento de IA, convirtiéndola en un recurso valioso para fomentar la innovación en el desarrollo de IA.

Harvard lanza un conjunto de entrenamiento de IA gratuito con una enorme colección de libros de dominio público, lo cual es algo útil para las startups. ¡Bravo! pic.twitter.com/01W9FmjuDV

— Jed White 💥♻️ (@jedwhite) 12 de diciembre de 2024

Los gigantes tecnológicos apoyaron la iniciativa

La Iniciativa de Datos Institucionales de Harvard (IDI) está liderando un esfuerzo innovador para proporcionar un conjunto de datos integral obtenido del extenso proyecto de escaneo de libros de Google, Google Books.

Esta colección abarca una amplia gama de textos, desde libros de matemáticas checos hasta diccionarios de bolsillo galeses, ofreciendo una gran cantidad de conocimiento para el entrenamiento de IA.

Inicialmente anunciado en marzo, el IDI anunció sus planes para crear un "conducto de confianza para datos legales para la IA", con poco seguimiento hasta su lanzamiento formal el jueves.

Financiada por gigantes tecnológicos Microsoft y OpenAI, esta iniciativa está diseñada para hacer que datos de alta calidad y accesibles públicamente estén disponibles no solo para grandes corporaciones, sino también para laboratorios de investigación y startups de IA que buscan entrenar grandes modelos de lenguaje.

Por @pradeepviswav - La Biblioteca de la Escuela de Derecho de Harvard lanzó la Iniciativa de Datos Institucionales (IDI) con el apoyo de Microsoft y OpenAI para publicar sus colecciones como datos para diversos propósitos. #Microsoft #OpenAI #Google #IA https://t.co/MuYpzbTzoQ

— NeowinFeed (@NeowinFeed) 12 de diciembre de 2024

El Director Ejecutivo del IDI, Greg Leppert, enfatizó que el conjunto de datos tiene como objetivo nivelar el campo de juego, reduciendo las barreras para las empresas más pequeñas que enfrentan costos de entrenamiento prohibitivos.

También aseguró que el conjunto de datos pasa por una revisión rigurosa para garantizar calidad y precisión.

Se Necesitan Más Recursos

Leppert, comparando el potencial del conjunto de datos de Harvard con el del sistema operativo de código abierto Linux, señala que su éxito depende de una combinación de recursos, experiencia y lo que él llama un "toque de magia" de las mismas corporaciones que la iniciativa busca desafiar.

El conjunto de datos, que incluye un millón de libros escaneados a través del programa de libros de Google, es visto por algunos como una cápsula del tiempo digital de los primeros días del ahora ambicioso proyecto de Google para escanear cada libro, un objetivo que alguna vez pareció más peculiar que distópico.

Mientras Leppert es optimista acerca del potencial del conjunto de datos, imaginándolo como un recurso valioso tanto para startups como para grandes corporaciones, críticos como Fudzilla lo ven como una forma sutil para que los grandes jugadores mantengan una ventaja en la carrera de la IA generativa.

El lanzamiento de ChatGPT en noviembre de 2022 encendió un impulso global para desarrollar modelos de IA similares, creando una creciente demanda de datos para refinar estos sistemas.

Sin embargo, esta hambre de datos ha planteado preocupaciones legales, con grandes editores como el Wall Street Journal y el New York Times demandando a OpenAI y Perplexity por usar sus datos sin consentimiento.

El creador de ChatGPT, OpenAI, está siendo demandado por supuestamente raspar en secreto 300 mil millones de palabras de internet, incluidos libros, artículos, sitios web, publicaciones e información personal que se obtuvo sin consentimiento, informa Bloomberg. pic.twitter.com/HwGmGEFfWZ

— KanekoaTheGreat (@KanekoaTheGreat) 3 de julio de 2023

A medida que el desarrollo de la IA se acelera, el equilibrio entre el acceso abierto y los derechos de propiedad intelectual sigue siendo un tema crucial y controvertido.