Para entrenar modelos de IA se necesitan enormes cantidades de conjuntos de datos, y su capacidad para producir buenos resultados depende directamente de los datos que se hayan proporcionado al sistema. La información no es gratuita y estamos hablando aquí de muchos derechos de propiedad intelectual.

Pero las empresas de IA no piensan en este sentido; dan por sentado todo el conocimiento producido por generaciones de escritores; su concepto de uso legítimo también es diferente de cómo se percibió en primer lugar; y no les gusta pagar a los creadores de contenido que hicieron de sus modelos lo que son capaces de hacer hoy.

Robo del conocimiento humano

Hay mucho trabajo duro y sudor involucrado en producir el contenido que vemos en periódicos, revistas, libros, archivos en línea y artículos de investigación, pero eso no es posible sin los escritores, editores, investigadores y editores que lo trajeron al público en diferentes formas.

Ese reconocimiento y conocimiento ganados con tanto esfuerzo no deberían estar libres para ser explotados por una empresa, como lo hizo.

"Información que está disponible públicamente en Internet".

Fuente: OpenAI.

Sí, eso es lo que OpenAI tiene que decir si se le pregunta sobre el contenido que utilizó para entrenar sus sistemas de IA, junto con la información que obtuvo bajo licencia de terceros y la información que brindan sus usuarios y entrenadores humanos. 

Hablando del contenido con licencia, las empresas lo están buscando ahora, pero no tenemos ninguna información sobre si OpenAI obtuvo alguna licencia de información de un proveedor antes de lanzar su modelo GPT inicial. El modelo debe haber sido entrenado en materiales protegidos por derechos de autor que no eran de uso gratuito con fines comerciales.

Fuente: Statista. Compensación para creadores originales

Hasta hace un año, la mayor parte del texto escrito online o offline se hacía con esfuerzo humano. A pesar del cebo de clic, también se mezcló contenido de baja calidad, pero al menos fue creado por humanos que entendían la psique humana y el proceso de pensamiento, y las aplicaciones generativas de IA se construyeron sobre la base de dicha información. 

Pero hoy en día, las empresas se enfrentan a un nuevo problema a la hora de entrenar sus modelos de IA, y es el contenido generado por máquinas que prevalece en todo Internet y que no se considera contenido de calidad de ninguna manera. Este tipo de contenido está plagando los recursos disponibles para entrenar modelos de IA, ya que no pueden producir resultados de calidad cuando se entrenan en información detallada inútil, que es como estos modelos suelen producir contenido. La IA que se agita sobre la IA es un proceso a menudo llamado canibalismo o clonación de la IA.

Para evitar que esto suceda, las empresas de IA tienen que limitar su material fuente únicamente a fuentes creíbles, que no son otras que periódicos, revistas y foros públicos que albergan una gran cantidad de conocimiento producido por humanos. También se pueden contar algunos más, como ya hemos dicho, pero esta necesidad y las demandas de los periódicos les han obligado a licenciar contenidos y pagar por la explotación que estaban haciendo.

Empresas como Reddit, que es un gran foro público alojado en la web, también están considerando otorgar licencias de su contenido a empresas de inteligencia artificial. En un comunicado, dijo que preferirían hacer negocios a las demandas, pero no descartó las demandas si las conversaciones comerciales fracasan. Si no se le permite poner una banda sonora protegida por derechos de autor en su vídeo de Youtube, ¿por qué debería permitirse a una empresa de inteligencia artificial utilizarla para entrenar sus modelos destinados a uso comercial?

La propiedad de los derechos de autor es un problema aquí, ya que las empresas de inteligencia artificial siguen violándola. Por otro lado, la IA no es capaz de recopilar nuevas noticias por sí sola; se necesita un esfuerzo humano para recopilar noticias y confirmarlas de diferentes fuentes en primer lugar antes de publicarlas, solo entonces un modelo de IA puede usar esa información y no compensar. el recurso humano en este caso es una explotación.