Según ProofNews, muchas de las principales corporaciones tecnológicas del mundo, incluidas Apple, Nvidia y Salesforce, están siendo acusadas de utilizar ilegalmente datos de Youtube para entrenar la IA.
Específicamente, el grupo de investigación de IA sin fines de lucro EleutherAI ha recopilado subtítulos de cientos de miles de videos de Youtube para construir un "enorme" conjunto de datos llamado Pile. Esta acción se considera una violación grave de los términos de servicio de YouTube.
Se sabe que Pile contiene subtítulos de más de 173.000 vídeos de más de 48.000 canales de Youtube, incluidos vídeos eliminados. Luego, muchas grandes empresas de tecnología utilizan este conjunto de datos para entrenar modelos de inteligencia artificial, desde chatbots hasta motores de procesamiento de lenguaje natural.
Aunque algunas empresas como Anthropic y Salesforce admiten utilizar Pile, argumentan que se trata de un conjunto de datos “disponible públicamente” y niegan cualquier acusación de infracción de derechos de autor. Sin embargo, ProofNews dijo que la lista de empresas que utilizan Pile puede ser más larga, porque muchas unidades no divulgan públicamente la fuente de sus datos de entrenamiento de IA.
Vale la pena señalar que Pile no solo contiene contenido de canales habituales de Youtube, sino que también incluye vídeos de canales de criptomonedas famosos como Coinbase, Cointelegraph y Bitcoin Magazine.
Este incidente vuelve a generar preocupación sobre los problemas de derechos de autor de datos en el campo de la IA. Los expertos jurídicos creen que aumentarán los conflictos relacionados con el uso de los datos de YouTube con fines comerciales, especialmente en el contexto de la carrera por el desarrollo de la IA.
ProofNews dijo que OpenAI y Google también recopilaron texto de YouTube en el pasado. Mientras Google, empresa propietaria de YouTube, afirmó que sus acciones se enmarcaban en su acuerdo con los usuarios, OpenAI no confirmó ni desmintió el informe antes mencionado.
Hasta el momento, el despacho de abogados Baker Hoestler enumera al menos quince demandas relacionadas con empresas tecnológicas como: Anthropic, Meta, GitHub, Stability AI, Nvidia y Google. En particular, OpenAI se enfrenta a importantes demandas de la empresa matriz de Mother Jones y The New York Times. En general, la situación jurídica en materia de derechos de autor de datos en el campo de la IA se está volviendo cada vez más tensa con acontecimientos complejos e impredecibles.
Siga 24h News para no perderse ninguno de los últimos desarrollos de blockchain en el Foro de Popularización de Blockchain.