El New York Times expone la metodología utilizada por OpenAI para acumular millones de horas de transcripciones de vídeos de YouTube para generar la gran cantidad de datos necesarios para su potente modelo de IA GPT-4. Si bien puede parecer que estas empresas están siguiendo el mismo camino, formando una cola encabezada por los gigantes Google y Meta, la ruta está ganando ritmo a medida que se actualizan las tecnologías de inteligencia artificial. Todo esto lleva a la cuestión de la “brecha digital” y su impacto en la capacidad del individuo para participar en la economía, específicamente en cuestiones como los derechos de autor y la ética de los datos.

Las audaces tácticas de adquisición de datos de OpenAI

OpenAI detectó y analizó este contenido de YouTube. Esta estrategia, a pesar del carácter innovador del uso libre, toca los principios del uso justo, que es la condición previa de posibilidad para esta empresa. La grabación de vídeos de YouTube, una de las etapas propiedad de Google para el proceso de aprendizaje de la IA, plantea preocupaciones sobre la violación de los derechos de autor y las cuestiones éticas involucradas en el uso de datos sin el consentimiento del autor.

Curiosamente, después de que Google fuera criticado como la empresa propietaria de YouTube por el mismo motivo, supuestamente incurrió en este tipo de prácticas para sus modelos de IA. Este proceso de espionaje compartido es claramente una parte elegante del informe, que revela aún más los confusos límites éticos y legales de las empresas de tecnología en sus esfuerzos de inteligencia artificial. Por otro lado, Google ha mencionado que pueden obtener el permiso del creador para usar videos antes de entrenar un sistema de inteligencia artificial con esos datos, lo que eventualmente constituye un punto de discordia en la narrativa.

La revisión de la política de privacidad.

Uno de los principales acontecimientos fue Google, una medida corporativa para cambiar su política de privacidad antes de finales de junio de 2023. La estrategia tenía por tanto como objetivo profundizar las capacidades de la empresa para capitalizar fuentes de datos de acceso público, que van desde documentos de Google hasta Google Maps. revisiones, para reforzar la innovación impulsada por la IA. Esto indica un fenómeno más amplio en el sector tecnológico en el que estas grandes empresas tecnológicas respiran liderazgo tanto en el campo de la innovación como en el de la privacidad del usuario mientras luchan por lograr el equilibrio adecuado entre ambos.

Es ahora con estos gigantes tecnológicos que la revelación de OpenAI y Google sobre sus prácticas de recopilación de datos sin consentimiento explícito plantea interrogantes sobre el curso del crecimiento de la IA y el uso ético de los datos. Neil Mohan, director ejecutivo de YouTube, fue citado por Bloomberg sobre este tema y dijo que la plataforma no permite descargas de estas fuentes no autorizadas.

Industria y implicaciones legales.

La cuestión de la moralidad y la legalidad de estos esfuerzos de extracción de datos surge entonces debido a la ambigüedad. Otra área de mejora son los problemas de plagio, ya que estos enfoques pueden ser creativos pero también generan problemas de derechos de autor. Las cuestiones de privacidad también son una preocupación en esta industria. Sin embargo, el alcance de estos errores no sólo se limita a problemas legales y éticos, sino que va mucho más allá. Desde la abundancia, llaman la atención sobre una carrera tecnológica más importante (tecnología de IA), que tiene como objetivo utilizar datos para impulsar los avances de la IA.

A medida que los pioneros de la tecnología de IA, como OpenAI y Google, tienden a avanzar en el alcance del próximo paradigma de IA, se amplía el debate sobre qué cantidades de datos se pueden utilizar, cuáles son las consideraciones para la protección de los derechos de autor y las enormes implicaciones sociales de las aplicaciones de IA. Combinar innovación con ética conduce a un panorama más complejo, que requiere el desarrollo de principios de regulación y políticas claras.

El funcionamiento de OpenAI y Google al tomar videos de YouTube con fines de capacitación da lugar a la cuestión multidimensional de la naturaleza subjetiva que consta de dimensiones legales, éticas y tecnológicas. Por lo tanto, el sector tecnológico se enfrenta constantemente a desafíos como la innovación, la privacidad y la ética, sin los cuales no se puede garantizar un crecimiento continuo. La discusión sobre estos temas continuará. Aún así, también se extenderá a todas las partes interesadas de la sociedad, desde los especialistas legales hasta los propios desarrolladores de inteligencia artificial, para eventualmente presentar una propuesta de solución.

Historia original de https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/