Según el director ejecutivo de la empresa de inteligencia artificial Anthropic, Dario Amodei, el futuro de la inteligencia artificial puede implicar más una absorción corporativa que una rebelión de robots.
Amodei habló recientemente sobre el futuro de la IA en una entrevista con Noah Smith y Erik Torenberg en el podcast Econ 102. El trío abordó temas de todo tipo, desde el uso militar de la IA hasta la sustitución de trabajadores humanos por máquinas más eficientes.
Pero quizás lo más interesante es que Amodei habló de los esfuerzos internos de la empresa para desarrollar una estructura jerárquica eficiente para completar tareas a través de una red de modelos de inteligencia artificial.
Redes dentro de redes
La IA con la que la mayoría de la gente está familiarizada hoy en día viene en forma de chatbots y generadores de imágenes. ChatGPT de OpenAI y Claude de Anthropic son sistemas de IA de última generación que, de forma independiente, han costado decenas de miles de millones de dólares en desarrollarse.
Pero la mayoría de las aplicaciones útiles para la tecnología que sustenta estos sistemas no requieren todas sus capacidades. Si, por ejemplo, estás usando Claude para generar código Python para una aplicación Web3, probablemente no estés obteniendo ningún beneficio de la capacidad del modelo para generar poesía en francés.
Como lo describió Amodei en la entrevista, el pensamiento actual de la empresa parece involucrar la idea de enjambres de IA capaces de trabajar en red para completar tareas específicas.
La premisa básica implicaría “modelos grandes que orquestan modelos pequeños”. Amodei agregó que los modelos más grandes crearían hasta cientos de modelos más pequeños, más rápidos y más eficientes para realizar tareas.
Aunque Amodei utilizó la analogía de las abejas obreras que apoyan a su reina, lo que describió suena mucho a una infraestructura corporativa típica.
En la parte superior se encontraría el modelo central Claude, el sistema más potente de Anthropic. Y debajo de él habría varios modelos costosos y básicos entrenados en dominios de área amplia, como matemáticas, programación y análisis de sentimientos. Debajo de esas máquinas de la alta dirección habría una letanía de modelos especializados dedicados a completar tareas específicas. Y, finalmente, bajo los especialistas de nivel medio, encontraríamos los modelos de nivel básico, únicos, diseñados para uso a corto plazo.
El beneficio de este diseño podría significar potencialmente que los usuarios finales en todos los niveles tendrían acceso a las capacidades específicas que necesitan a través de una única interfaz de usuario sencilla.
Relacionado: Física para fintech: cómo la IA cuántica puede hacer que los humanos sean mejores comerciantes de criptomonedas