Título original: ¿Qué plataforma construye los mejores agentes de IA? Probamos ChatGPT, Claude, Gemini y más.

Autor original: Jose Antonio Lanz

Fuente original: https://decrypt.co/

Compilado por: Daisy, Mars Finance

¿Qué plataforma puede crear el mejor agente de IA? Probamos ChatGPT, Claude, Gemini y otras plataformas

Comparando de manera práctica las cinco principales plataformas, descubramos cuál es la más adecuada para gestionar tu futuro agente de IA en escenarios cotidianos.

Los agentes de IA pueden hacer muchas cosas: desde buscar información en tu biblioteca de documentos, escribir código, extraer datos de la web, hasta proporcionar información y análisis profundos sobre datos complejos, e incluso más. También puedes crear una oficina virtual compuesta por un grupo de agentes de IA enfocados en diferentes tareas, trabajando en conjunto como un equipo profesional de empleados digitales.

Pero, ¿cuán difícil es esto? Si una persona común quiere crear su propio asesor financiero de IA, por ejemplo, sin depender de API, sin codificación extraña, sin GitHub, ¿qué plataforma puede ofrecer el mejor soporte al usuario? Solo queremos ver cómo se desempeñan estas compañías de IA de primer nivel en ayudar a usuarios comunes a crear agentes de IA sin requerir habilidades técnicas avanzadas.

Por supuesto, obtienes lo que pagas. En este caso, también queríamos ver si existe una correlación entre la dificultad de configuración de un agente por parte de un usuario común y la calidad de los resultados entregados por cada plataforma.

Nuestro experimento comparó las cinco principales plataformas: ChatGPT, Claude, Huggingface, Mistral AI y Gemini. Cada plataforma recibió las mismas instrucciones básicas, pidiéndoles que crearan un asesor financiero.

La prueba se centró en la capacidad de uso inmediato de la plataforma. Se examinó si el agente podía manejar un escenario común: en este caso, ayudar a alguien a equilibrar una inversión de $25,000 con una deuda de $30,000. También queríamos ver su capacidad para analizar gráficos de transacciones. Evitamos utilizar herramientas adicionales para mejorar la productividad del agente, tratando de adoptar el enfoque más simple.

En resumen, aquí están nuestros hallazgos y el ranking de modelos:

Ranking de plataformas

1) GPT de OpenAI (8.5/10)

  • Dificultad de configuración: 4/5

  • Calidad de resultados: 4.5/5

ChatGPT es la plataforma más equilibrada, ofreciendo opciones de creación de agentes complejas, tanto guiadas como manuales, capaces de satisfacer las necesidades de usuarios completamente novatos y aquellos con cierta experiencia.

A pesar de que las actualizaciones recientes de la interfaz han ocultado algunas funciones en los menús, la plataforma sobresale en convertir demandas complejas de los usuarios en agentes funcionales. Probamos el modelo al construir un asesor financiero, y los resultados mostraron que el agente tiene una excelente conciencia contextual y capacidad para resolver problemas estructurados, proporcionando estrategias detalladas y coherentes para la gestión de deudas y la asignación de inversiones.

2) Google Gemini (7/10)

  • Dificultad de configuración: 4/5

  • Calidad de resultados: 3/5

Gemini destaca por su interfaz elegante e intuitiva y su excelente manejo de errores. Aunque se requieren indicaciones más detalladas para obtener los mejores resultados, su interpretación literal de las instrucciones crea resultados consistentes y predecibles.

El enfoque consultivo del agente al ofrecer consejos financieros enfatiza la recolección de contexto antes de las recomendaciones, similar a la práctica profesional. Sin embargo, puede ser demasiado conservador en las respuestas de cero muestras.

3) HuggingChat (6.5/10)

  • Dificultad de configuración: 2/5

  • Calidad de resultados: 4.5/5

Esta plataforma de código abierto ofrece una personalización y opciones de selección de modelos incomparables. Es una excelente opción para quienes buscan control granular sobre cada detalle, pero puede no ser adecuada para aquellos que buscan simplicidad. (Se puede comparar con Linux frente a macOS). Su complejo marco temporal y la integración de herramientas muestran sus capacidades avanzadas.

Creamos un agente puramente, sin ninguna funcionalidad adicional. Usamos el modelo de lenguaje grande Nemomotron de Nvidia como base, cuya calidad de salida es suficiente para competir con ChatGPT. No está mal para el campo de código abierto.

4) Claude (5.5/10)

  • Dificultad de configuración: 2.5/5

  • Calidad de resultados: 3/5

La plataforma de Anthropic se destaca en áreas específicas, especialmente en tareas que requieren un gran procesamiento de contexto y análisis de código. Su interfaz minimalista oculta sus complejas capacidades, pero el campo de instrucciones 'opcional' puede confundir a los usuarios.

Nuestro agente fue muy conservador y vago al ofrecer sugerencias, pero demostró una buena conciencia de riesgo y pensamiento estratégico. Necesita indicaciones más cuidadosas para realmente alcanzar su potencial, pero si la prueba hubiera utilizado indicaciones adaptativas, eso iría en contra de la premisa de suponer condiciones similares, por lo que no sería justo.

5) Mistral AI (5/10)

Dificultad de configuración: 2.5/5

Calidad de resultados: 2.5/5

Esta plataforma francesa ofrece opciones únicas de aprendizaje basado en ejemplos y personalización profunda. Sin embargo, su interfaz orientada a desarrolladores y los problemas ocasionales de cambio de idioma crean obstáculos para los usuarios no técnicos. También requiere modificar la configuración del agente para adaptarse a las diferentes tareas que ejecutan distintos modelos, como analizar imágenes o procesar código. Esto no es ideal.

El asesor financiero demostró potencial en diseño de interacción, pero encontró dificultades en la verificación matemática básica, resultando en los peores resultados. No es que la salida sea mala, pero en pruebas de cero muestras, es la menos satisfactoria.

Análisis profundo

Considerando los rankings anteriores, no hay una solución universal, todas las plataformas tienen sus pros y sus contras. A través de una personalización cuidadosa de las indicaciones, los resultados de una plataforma pueden variar, incluso superar a otras. Al final, todos los modelos de lenguaje (LLM) tienen diferentes estilos de indicaciones.

Si deseas conocer más sobre las razones detrás de nuestros rankings, aquí tienes un análisis más profundo de nuestras experiencias y resultados de los agentes. Configuramos todos los agentes con la misma indicación del sistema, sin parámetros y funciones adicionales, y les hicimos la misma pregunta básica: 'Tengo $25,000 para invertir y $30,000 en deudas. Elabora un plan financiero para mí.'

OpenAI

La interfaz de ChatGPT ha sido actualizada recientemente, lo que en realidad ha complicado más las operaciones. Las opciones de creación de GPT ahora están ocultas en un menú, pero una vez encontradas, ofrecen dos caminos: uno es la configuración conversacional, donde la IA ayuda a construir tu agente; el otro es la configuración manual, adecuada para aquellos que saben exactamente lo que quieren.

La plataforma GPT de OpenAI es una 'navaja suiza' completa: puede leer código, buscar en la web, procesar generación de imágenes y análisis. El proceso de configuración guiado por IA la hace especialmente adecuada para principiantes, aunque puede sentirse algo limitada para usuarios avanzados que necesitan un control más fino. (Por ejemplo, si solicitas que el modelo sea más específico o detallado, puede cambiar toda la indicación del sistema, lo que resulta en peores resultados.)

Al usar el agente en la práctica, ChatGPT es muy directo, con una interfaz clara y fácil de entender.

Estos agentes pueden leer documentos de forma nativa y entender imágenes, lo que les da cierta ventaja sobre otras plataformas.

Ahora, hablemos de la calidad de los agentes que puedes crear con indicaciones básicas. Nuestro asesor financiero MoneyGPT nos mostró una maestría en la resolución estructurada de problemas, lo que fue bastante impresionante.

Además de su precisa asignación de fondos —'20,000 dólares para deudas de alto interés'— y la división detallada de la cartera, el agente también demostró un razonamiento financiero complejo. Ofreció un plan de cinco pasos, no solo una lista, sino una estrategia coherente que consideraba necesidades a corto plazo y planificación a largo plazo.

La ventaja de este agente radica en su capacidad para equilibrar detalles y contexto. Aunque recomienda una cartera específica (40% en S&P 500, 30% en bonos), también explica la lógica detrás de la recomendación: 'Pagar deudas de alto interés es como obtener un retorno de inversión garantizado.' Esta conciencia contextual se extiende a la planificación a largo plazo, sugiriendo revisiones periódicas y ajustes de estrategia según las circunstancias cambiantes.

Sin embargo, esta riqueza de información también expone una debilidad potencial: podría abrumar a los usuarios al proporcionar demasiados detalles de una sola vez. Aunque técnicamente es muy completa, la rápida transmisión de asignaciones específicas, estrategias de inversión y planes de monitoreo puede resultar algo intimidante para los novatos en finanzas.

Google

En general, la plataforma de creación de agentes de Google Gemini se destaca estéticamente, con una interfaz elegante e intuitiva que hace que el proceso de creación de agentes parezca casi demasiado simple. La interpretación literal de las instrucciones por parte del sistema ayuda a evitar confusiones, y su interfaz de usuario sencilla elimina la sensación de opresión en el desarrollo de IA.

Sin embargo, para obtener resultados de calidad, necesita indicaciones más detalladas. No asume las cosas por sentado: indicaciones breves dan respuestas de baja calidad.

En el fondo, tiene potentes funcionalidades: integración de búsqueda web respaldada por Google, análisis de código y capacidades de procesamiento de imágenes, comparables a las de ChatGPT, aunque la mayoría depende de la tecnología de Microsoft.

La interfaz de usuario de Gemini se siente como si hubiera sido diseñada por alguien que realmente entiende la experiencia del usuario. La interfaz guía a los usuarios con etiquetas claras, y toda la información se puede mostrar en una sola pantalla.

Este enfoque refinado lo hace especialmente atractivo para los usuarios novatos, aunque los usuarios experimentados pueden sentir que le falta un control más detallado.

Nombramos a nuestro agente MoneyGem y le pedimos que proporcionara un plan financiero. Su enfoque consultivo mostró el enfoque único de Google para resolver problemas. No dio una respuesta directa, sino que hizo preguntas como '¿Qué tipo de deuda es esta?' y '¿Cuál es tu tasa de interés?'—demostrando que entiende que el asesoramiento financiero no es una talla única.

Enfatiza la recopilación de información contextual antes de ofrecer sugerencias, lo cual es consistente con las prácticas profesionales de planificación financiera, aunque esto puede frustrar a los usuarios que buscan respuestas rápidas.

Una respuesta de cero disparos no es útil. El agente básicamente indica que no entiende al usuario, por lo que no puede ofrecer buenos consejos financieros. Tras solicitar que hiciera suposiciones y forzarle a proporcionar un plan adecuado para la mayoría de los escenarios, el agente generó un borrador de plan muy conservador, pero no ofreció recomendaciones de inversión concretas.

Sin embargo, MoneyGem finalmente ofreció una sugerencia de maximizar cuentas de beneficios fiscales, como 401(k) o Roth IRA, para reducir la carga fiscal. No está mal.

Puedes hacer clic aquí para ver nuestra interacción con MoneyGem y probar el modelo en persona haciendo clic en este enlace.

Mistral AI

El proceso de configuración del agente de Mistral es algo complicado, alejándose de la simplicidad. La herramienta de creación de agentes está oculta en su consola de desarrolladores, con opciones de personalización profunda que pueden confundir a los novatos, pero que complacerán a los usuarios que disfrutan experimentar.

La interfaz de construcción del agente no es parte de LeChat (interfaz de chat), pero una vez que se crea el agente, aparece allí.

Un aspecto que nos encantó fue la capacidad de moldear el comportamiento y el estilo de respuesta del agente a través de entradas de ejemplo, una función que actualmente no ofrecen otras plataformas. Sin embargo, hay un extraño error: al crear el agente, la interfaz de usuario cambió repentinamente al francés, quizás debido a que la empresa tiene su sede en Francia. De todos modos, no pudimos volver a cambiar a inglés o español.

Una vez que se crea el agente, los usuarios deben invocarlo en la interfaz de chat normal para usarlo. Los usuarios necesitan salir de Le Plateforme y entrar a Le Chat, lo que no es la operación más intuitiva. Sin embargo, la UI para usar el agente es bastante directa, se siente como otros chatbots de IA.

Creamos nuestro agente y lo llamamos Le Money, en homenaje a las raíces francesas de Mistral. Su desempeño muestra claramente el enfoque universal de Mistral en la resolución de problemas. Sugirió 'dejar $10,000 como fondo de emergencia, $15,000 para pagar deudas y $10,000 para inversiones', lo que parece directo, pero también indica que el agente carece de alguna validación matemática básica.

Un total de $35,000 excede los fondos disponibles en $10,000, un error básico que ciertos modelos de lenguaje pueden cometer al priorizar la corrección conceptual sobre la precisión numérica.

Sin embargo, debemos señalar que los LLM mejor clasificados ya han experimentado grandes mejoras y no cometen errores de este tipo con frecuencia, al menos no tan frecuentemente como Mistral.

Aparte de eso, el plan de Le Money no es muy detallado, pero es el único que ofrece preguntas de seguimiento, lo que puede hacer que la interacción sea más fluida y ayudarle a comprender mejor las necesidades del usuario.

El plan completo de LeMoney se puede ver aquí, y el agente se puede probar aquí.

Anthropic

El proyecto de Claude se siente menos como una plataforma de creación de agentes y más como un sistema complejo de ejecución de tareas. La interfaz es minimalista, casi demasiado, y no es muy intuitiva.

Esta interfaz minimalista puede confundir a algunos usuarios. La plataforma ofrece una configuración básica y un campo de instrucciones 'opcional', que se siente tanto irrelevante como crucial: si las instrucciones se marcan como opcionales, ¿cómo sabe el agente de IA qué debe hacer?

Su interfaz minimalista se siente algo extraña, pero Anthropic no ha sido conocido por su diseño de UI. La misma ventana para configurar el modelo también se utiliza para enviarle indicaciones. Sus funciones se centran principalmente en la interpretación de código de texto, sin otras funcionalidades. La búsqueda en la web, el procesamiento y la generación de imágenes son características avanzadas que Anthropic ha dejado para sus competidores.

Nuestro agente, llamado MoneyClaude, no puede ser probado públicamente porque Anthropic no lo permite. Adopta una postura muy conservadora al ofrecer asesoramiento financiero; aunque las respuestas son técnicamente precisas, el contenido es muy vago, por ejemplo, 'mantener un equilibrio entre reducir la deuda y ahorrar lo necesario'.

Solicitó más información, pero al menos sin esos datos, proporcionó una estrategia muy general sin necesidad de más interacción, lo que parece más ideal que el enfoque de Google.

Hugging Face

Esta plataforma de código abierto se destaca, es un paraíso para usuarios avanzados, pero también un potencial desastre para principiantes. Es la única que permite a los usuarios elegir su modelo de lenguaje preferido, proporcionando un control sin precedentes para definir la base del agente.

Además, los usuarios pueden integrar decenas de herramientas diferentes en sus agentes, pero solo pueden activar tres a la vez. Esta limitación obliga a los usuarios a pensar cuidadosamente sobre las funcionalidades más importantes para cada caso de uso específico, pero es algo que ningún otro modelo puede ofrecer.

Es la experiencia más personalizable de todas las interfaces, con muchas configuraciones ajustables. El resultado es que esta plataforma puede crear agentes más potentes y profesionales que sus competidores, pero solo tendrá éxito en manos de quienes comprendan completamente cómo operar.

Los usuarios pueden probar sus agentes en HuggingChat, sin duda el sueño de los usuarios avanzados. Una vez que se crea el agente, es muy sencillo de usar. La interfaz muestra una tarjeta grande que incluye el nombre del agente, descripción y foto. También permite a los usuarios compartir el enlace del agente y ajustar sus configuraciones, todo se puede hacer directamente en la tarjeta.

Al poner a prueba nuestro agente HuggingMoney, descubrimos que su forma de manejar los marcos de tiempo mostró una comprensión más profunda de la psicología de la planificación financiera. Divide la planificación en 'corto plazo (0-24 meses), medio plazo (24-60 meses) y largo plazo (más de 60 meses)', lo que es consistente con las prácticas profesionales de planificación financiera.

El agente sugiere 'invertir entre $0 y $5,000 en herramientas de alta liquidez y bajo riesgo', manteniendo al mismo tiempo 'pagos de deuda activos de $1,000 a $1,500' cada mes. Esta sugerencia, a primera vista, muestra una comprensión detallada de la gestión de flujo de efectivo.

Otra característica interesante es que combina herramientas con recomendaciones teóricas. Además de sugerir la regla 50/30/20, también recomienda aplicaciones de presupuesto específicas y enfatiza la optimización fiscal, construyendo un puente entre la estrategia de alto nivel y la ejecución diaria. ¿El principal inconveniente? Supuso tasas de interés de deuda sin buscar confirmación.

Para ofrecer consejos útiles, supuso imprudentemente muchas cosas. Este problema, el impulso de ofrecer respuestas de todos modos, podría resolverse con indicaciones más precisas, pero es algo a tener en cuenta.