La creación y el mantenimiento de modelos de IA modernos requieren inversiones significativas, que pueden superar los cientos de millones de dólares. Se estima que estos costos podrían alcanzar los mil millones de dólares en un futuro cercano.

Este gasto se debe principalmente a la potencia de cálculo en la que se utilizan entidades como las GPU de Nvidia, que pueden costar unos 30.000 dólares cada una y pueden requerir miles más para ser eficientes. Los investigadores han afirmado que la calidad y la cantidad del conjunto de datos de entrenamiento utilizados para desarrollar dichos modelos son muy importantes.

Los líderes de la industria revelan los asombrosos costos del desarrollo de la IA

Según James Betker de OpenAI, el rendimiento de un modelo es una función de los datos de entrenamiento más que del diseño o la arquitectura del modelo. Su afirmación es que los modelos entrenados en grandes conjuntos de datos alcanzarán los mismos resultados. Por lo tanto, los datos son la clave para el avance de la tecnología de IA.

Dario Amodei, director ejecutivo de la empresa de inteligencia artificial Anthropic AI, compartió sus ideas sobre los aspectos financieros de estos desafíos en el podcast In Good Company. Afirmó que se estima que el entrenamiento de los modelos actuales, como ChatGPT-4, costará alrededor de 100 millones de dólares, y que el entrenamiento de los modelos futuros puede requerir entre 10 y 100 mil millones de dólares en los próximos años.

Los modelos de IA generativos, y los creados por grandes empresas, son, en esencia, modelos estadísticos. Por lo tanto, utilizan muchos ejemplos para predecir los resultados más probables. Kyle Lo, del Instituto Allen de IA (AI2), dice que la mejora del rendimiento se puede atribuir principalmente a los datos, especialmente cuando el entorno de entrenamiento es consistente.

La centralización de datos plantea problemas éticos y de accesibilidad

El alto coste de obtener datos de buena calidad está haciendo que el desarrollo de la IA sea una tarea exclusiva de unas pocas grandes empresas del mundo desarrollado. Esta acumulación de recursos también es una fuente de preocupación en cuanto a la disponibilidad de la tecnología de IA y la posibilidad de un uso indebido.

OpenAI por sí solo ha gastado cientos de millones de dólares en licencias de datos, y Meta ha considerado comprar editores para acceder a los datos. Se espera que el mercado de datos de entrenamiento de IA se expanda, y es probable que los corredores de datos se beneficien de esta oportunidad.

Los problemas surgen de prácticas cuestionables de adquisición de datos. Según los informes, muchas empresas han capturado grandes volúmenes de contenido sin la autorización de los propietarios de dicho contenido, y algunas empresas aprovechan los datos de diferentes plataformas y no remuneran a los usuarios. Como informamos anteriormente, OpenAI utilizó su modelo de transcripción de audio Whisper para transcribir más de un millón de horas de videos de YouTube para afinar GPT-4.

Las organizaciones trabajan para crear conjuntos de datos de entrenamiento de IA de acceso abierto

Como la carrera por la adquisición de datos presenta algunos problemas, se necesitan algunos esfuerzos de partes independientes para que los conjuntos de datos de entrenamiento estén disponibles abiertamente. Algunas organizaciones, como EleutherAI y Hugging Face, están creando grandes conjuntos de datos que están disponibles para el público para el desarrollo de la IA.

El Wall Street Journal destacó recientemente dos posibles estrategias para resolver los problemas de adquisición de datos: la generación de datos generativos y el aprendizaje curricular. Los datos sintéticos se crean utilizando los propios modelos de IA, mientras que el aprendizaje curricular intenta proporcionar a los modelos datos de alta calidad de forma estructurada para que puedan hacer conexiones incluso con menos datos. Sin embargo, ambos métodos todavía están en las etapas de desarrollo y su eficacia aún no se ha probado.