AI Cannot Flourish Without Human Knowledge – Compensation for the Original Creators Is a Must

Cryptopolitan · 2024-05-03T08:43:03.000Z

Training AI models needs huge amounts of data sets, and their ability to produce good results directly depends on the data the system has been fed. Information does not come free of charge, and we are talking here about a lot of intellectual property rights. But AI firms don’t think along these lines; they take all the knowledge produced by generations of writers for granted; their fair use concept is also different from how it was perceived in the first place; and they don’t like paying to the creators of content that made their models of what they are capable of today. Theft of human knowledge There is a lot of hard work and sweat involved in producing the content that we see in newspapers, magazines, books, online archives, and research papers, but that is not possible without writers, editors, researchers, and publishers who brought that to the public in different forms. Such hard-earned recognition and knowledge should not be free to be exploited by a company, as one did. “Information that is publicly available on the internet.” Source: OpenAI. Yes, that is what OpenAI has to say if asked about the content it used to train its AI systems, along with the information that it licensed from third parties and the information that their users and human trainers provide. Speaking of the licensed content, companies are seeking it now, but we don’t have any information about whether OpenAI licensed any information from a vendor before it launched its initial GPT model. The model must have been trained on copyrighted materials that were not free to use for commercial purposes. Source: Statista. Compensation for original creators Until a year ago, most of the text written online or offline was done with human effort. Despite the click bait, low-quality content was also mixed in, but it was at least created by humans who understood the human psyche and thinking process, and generative AI applications were built on the basis of such information. But today, companies are facing a new problem for training their AI models, and that is the machine-generated content prevailing over the entire internet, which is not considered quality content by any means. Such content is plaguing the resources available for training AI models as they can not produce quality output when trained on useless verbose which is how these models churn out content usually. AI churning on AI is a process often called AI cannibalism or cloning. To prevent this from happening, AI firms have to limit their source material to credible sources only, which are none other than newspapers, magazines, and public forums that host a wealth of human-produced knowledge. A few more can also be counted, as mentioned above, but this necessity and lawsuits from newspapers have forced them to license content and pay for the exploitation they were doing. Companies like Reddit, which is a large web-hosted public forum, are also considering licensing their content to AI firms. In a statement, it said that they would prefer business over lawsuits but did not rule out lawsuits if business conversations fail. If you are not allowed to put a copyrighted soundtrack on your Youtube video, then why should an AI company be allowed to use that for training their models intended for commercial use? Copyright ownership is a problem here, as AI firms keep violating it. On the other hand, AI is not capable of gathering new news on its own, it takes human effort to gather news and confirm from different sources in the first place before publishing it, only then can an AI model use that information, and not compensating the human resource in this case is an exploitation.

Para entrenar modelos de IA se necesitan enormes cantidades de conjuntos de datos, y su capacidad para producir buenos resultados depende directamente de los datos que se hayan proporcionado al sistema. La información no es gratuita y estamos hablando aquí de muchos derechos de propiedad intelectual.
Pero las empresas de IA no piensan en este sentido; dan por sentado todo el conocimiento producido por generaciones de escritores; su concepto de uso legítimo también es diferente de cómo se percibió en primer lugar; y no les gusta pagar a los creadores de contenido que hicieron de sus modelos lo que son capaces de hacer hoy.
Robo del conocimiento humano
Hay mucho trabajo duro y sudor involucrado en producir el contenido que vemos en periódicos, revistas, libros, archivos en línea y artículos de investigación, pero eso no es posible sin los escritores, editores, investigadores y editores que lo trajeron al público en diferentes formas.
Ese reconocimiento y conocimiento ganados con tanto esfuerzo no deberían estar libres para ser explotados por una empresa, como lo hizo.
"Información que está disponible públicamente en Internet".
 Fuente: OpenAI.
Sí, eso es lo que OpenAI tiene que decir si se le pregunta sobre el contenido que utilizó para entrenar sus sistemas de IA, junto con la información que obtuvo bajo licencia de terceros y la información que brindan sus usuarios y entrenadores humanos. 
Hablando del contenido con licencia, las empresas lo están buscando ahora, pero no tenemos ninguna información sobre si OpenAI obtuvo alguna licencia de información de un proveedor antes de lanzar su modelo GPT inicial. El modelo debe haber sido entrenado en materiales protegidos por derechos de autor que no eran de uso gratuito con fines comerciales.
 Fuente: Statista. Compensación para creadores originales
Hasta hace un año, la mayor parte del texto escrito online o offline se hacía con esfuerzo humano. A pesar del cebo de clic, también se mezcló contenido de baja calidad, pero al menos fue creado por humanos que entendían la psique humana y el proceso de pensamiento, y las aplicaciones generativas de IA se construyeron sobre la base de dicha información. 
Pero hoy en día, las empresas se enfrentan a un nuevo problema a la hora de entrenar sus modelos de IA, y es el contenido generado por máquinas que prevalece en todo Internet y que no se considera contenido de calidad de ninguna manera. Este tipo de contenido está plagando los recursos disponibles para entrenar modelos de IA, ya que no pueden producir resultados de calidad cuando se entrenan en información detallada inútil, que es como estos modelos suelen producir contenido. La IA que se agita sobre la IA es un proceso a menudo llamado canibalismo o clonación de la IA.
Para evitar que esto suceda, las empresas de IA tienen que limitar su material fuente únicamente a fuentes creíbles, que no son otras que periódicos, revistas y foros públicos que albergan una gran cantidad de conocimiento producido por humanos. También se pueden contar algunos más, como ya hemos dicho, pero esta necesidad y las demandas de los periódicos les han obligado a licenciar contenidos y pagar por la explotación que estaban haciendo.
Empresas como Reddit, que es un gran foro público alojado en la web, también están considerando otorgar licencias de su contenido a empresas de inteligencia artificial. En un comunicado, dijo que preferirían hacer negocios a las demandas, pero no descartó las demandas si las conversaciones comerciales fracasan. Si no se le permite poner una banda sonora protegida por derechos de autor en su vídeo de Youtube, ¿por qué debería permitirse a una empresa de inteligencia artificial utilizarla para entrenar sus modelos destinados a uso comercial?
La propiedad de los derechos de autor es un problema aquí, ya que las empresas de inteligencia artificial siguen violándola. Por otro lado, la IA no es capaz de recopilar nuevas noticias por sí sola; se necesita un esfuerzo humano para recopilar noticias y confirmarlas de diferentes fuentes en primer lugar antes de publicarlas, solo entonces un modelo de IA puede usar esa información y no compensar. el recurso humano en este caso es una explotación. 

Descubre más contenidos del creador

Últimas noticias

Descubre más contenidos del creador

Últimas noticias

Artículos en tendencia