Ya sea que exista el trabajo de OpenAI, Google y Meta, la IA que financia el sector industrial, que comprende varios medios como recolectar o acumular enormes volúmenes de datos digitales de diferentes maneras creativas pero controvertidas, está claro que las capacidades y posibilidades de automatización están aumentando. En particular, los esfuerzos que implican acciones como tomar las medidas descritas anteriormente (es decir, tener en cuenta los límites legales y las políticas corporativas) equivalen a la considerable cantidad de datos utilizados para entrenar los sistemas de IA.

La iniciativa susurrante de OpenAI: minar conversaciones de YouTube

Nuestra historia de Whisper comenzó el año pasado. Hay una abrumadora escasez de textos en inglés de primera calidad que provoca retrasos en la impartición de la educación. Whisper fue el siguiente paso de Google. Entendió el océano de diálogos de YouTube y se desarrolló como texto, una aplicación de conversión de texto a voz. La propia herramienta impulsada por IA, que consta de más de un millón de horas de vídeos de YouTube auditados por IA para generar textos nuevos (esencialmente, una nueva conversación), se ha utilizado para entrenar modelos de IA producidos a partir de la última tecnología. hasta GPT-4, la última versión del chatbot ChatGPT.

Aunque algunos empleados argumentaron que las imágenes de Microsoft de OpenAI plagiarían YouTube en todos los ámbitos, la ética del plagio aún era discutible; Además, algunos trabajadores admitieron que sería imposible alinearse con precisión con las intenciones de YouTube. De manera similar, la adquisición de objeciones en el procesamiento algorítmico de los videos para extraer los contenidos textuales para alimentar la inteligencia artificial. Los modelos podrían haber sido considerados una amenaza a los derechos de autor de los creadores de vídeos, lo que provocó indignación.

Meta, la empresa matriz de Facebook e Instagram, también estaba preocupada por el uso de elementos protegidos por derechos de autor de editoriales como Simon & Schuster, entre otras. Al mismo tiempo, también discutió la adquisición del contenido general de la web, potencialmente para quedar atrapado en una infracción de derechos de autor.

La crisis de los datos: impulsar enfoques no convencionales

La recopilación de datos que está llena de competencia ayuda a notar la posición fundamental de los datos e identificarlos en el desarrollo de la tecnología de inteligencia artificial. El lenguaje en una IA exige cada vez más conjuntos de datos de entrenamiento, incluida la Commonwealth, que hoy en día se manipulan hasta Wikipedia y Reddit desde fuera de estas fuentes. Para las empresas de tecnología (especialmente aquellas que tienen dificultades para acceder a fuentes de datos muy comunes, como los almacenes de datos tradicionales), la creación de modelos impulsados ​​por IA puede ser una solución alternativa que puede ser bastante deseable en tales casos.

Las empresas de tecnología indican que la recopilación de datos es necesaria para la capacitación en IA, mientras que el mismo proceso está en duda legalmente en los tribunales. En su defensa, OpenAI y Microsoft ganaron una acusación sobre el uso ilegal de material protegido por derechos de autor en su contra. Aún así, dijeron que sus acciones caían dentro del principio legal de uso legítimo. En los últimos años, el número de solicitudes presentadas por los titulares de derechos de autor a la Oficina de Derechos de Autor de EE. UU. ha superado las 10.000, lo que muestra claramente que la ley de derechos de autor en la era de la IA es única y completamente nueva. Por lo tanto, los principales actores siempre enfrentan peligros relacionados con la infracción de muchas obras bajo el pretexto de que no existen fines de licencia para los modelos que utilizan IA sobre esta base.

El imperativo de conjuntos de datos masivos

En general, el trabajo de Kaipan de Jared, científico de la escala, ha sido involuntariamente épico en el desarrollo de la IA. El contenido basado en datos es uno de los componentes de la IA necesarios para el proceso de capacitación, pero no puede funcionar bien sin modelos que hayan sido bien entrenados y funcionen de manera efectiva. Con el aumento de la tecnología de inteligencia artificial, la demanda de datos para tener éxito en el mercado aumenta a un ritmo elevado, dejando a las empresas con preguntas relacionadas con la ley, la ética y la privacidad. Por tanto, los algoritmos de inteligencia artificial deben utilizar estos conjuntos de datos para tener éxito en el mercado.

El comportamiento de recopilación de datos de las V.IP se está desfigurando para mejorar la IA; El típico juramento metodológico se está volviendo grosero. Ya sea a través de una de sus charlas de YouTube o de la creación de datos sintéticos generativos, estas empresas son líderes con la misión de descubrir cuáles son realmente las cuestiones legales, éticas y de privacidad.

Podrían convertirse más tarde en una broma en el mar. Debido a la aparición de enormes conjuntos de datos necesarios para impulsar el proceso de innovación, los líderes de la sociedad deben participar activamente en un diálogo constructivo para desarrollar reglas y estándares en los que los esfuerzos de innovación se equilibren con los principios éticos de los derechos de propiedad intelectual y la privacidad.

Historia original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html