Autor original: Rocky
Reimpresión: Daisy, Mars Finance
Si quieres conocer más sobre #AI Agent, este libro (artículo) es de lectura obligada para todos. Li Feifei (AGENT AI), este es el libro más emocionante y con dirección futura que he leído este año, y no es difícil de entender, no tiene términos técnicos profundos ni lógica algorítmica, vale la pena que cada persona común lo lea, al final del artículo hay un enlace al texto completo.
Puedo decir con confianza: AI Agent es uno de los campos más dignos de inversión en la inteligencia artificial en su etapa posterior (ya sea en el mercado de valores de EE.UU. o en el ámbito de Web3), y es el más cercano al consumidor final, siendo el área más accesible y de uso masivo para el público en general.
Como se describe en el artículo de apertura: una visión general del sistema AI Agent, que puede percibir y actuar en diferentes campos y aplicaciones. AI Agent se considera un enfoque prometedor hacia la inteligencia artificial general (AGI). El entrenamiento de AI Agent ha demostrado la capacidad para la comprensión multimodal en el mundo físico. Proporciona un marco para el entrenamiento no relacionado con la realidad, aprovechando la inteligencia artificial generativa combinada con múltiples fuentes de datos independientes. Presentamos una visión general de un sistema de inteligencia artificial agente que puede percibir y actuar en muchos campos y aplicaciones diferentes, como un paradigma de agente hacia AGI.
El artículo enfatiza la situación actual de la tecnología AI Agent en la interacción humano-computadora (HCI) multimodal, sus perspectivas de aplicación y direcciones futuras de desarrollo, mostrando algunas tecnologías centrales y direcciones innovadoras que merecen nuestra profunda reflexión y exploración. No permitamos que AI Agent se limite solo a la interacción de voz y visual; su alcance es mucho más amplio:
1. Conceptos y significados clave de la HCI multimodal
La HCI multimodal logra una interacción natural, flexible y eficiente entre humanos y computadoras al integrar múltiples modos de información como voz, texto, imagen y táctil. El objetivo central de esta tecnología es:
• Mejorar la naturalidad y la inmersión de la interacción.
• Ampliar la aplicabilidad de los escenarios de interacción humano-máquina.
• Facilitar la capacidad de las computadoras para entender la diversidad de patrones de entrada humana.
2. Direcciones futuras de desarrollo
El artículo hace un repaso sistemático de cinco áreas de investigación:
1. Interacción de visualización de grandes datos
Concepto: transformar datos complejos en representaciones gráficas fáciles de entender, mejorando la experiencia del usuario a través de múltiples canales sensoriales (visual, táctil, auditivo, etc.).
Progreso:
• Exploración de visualización de datos basada en realidad virtual (VR) y realidad aumentada (AR);
• En el ámbito médico y de investigación, ayudar a los usuarios a comprender mejor la distribución de datos a través de retroalimentación táctil (como la retroalimentación de fuerza y vibración).
Aplicación:
• Monitoreo de ciudades inteligentes: mostrar en tiempo real los datos de tráfico de la ciudad a través de mapas de calor dinámicos.
• Análisis de datos médicos: exploración de datos multidimensionales combinada con retroalimentación táctil.
2. Interacción basada en la percepción del campo sonoro
Concepto: Utilizar arreglos de micrófonos y algoritmos de aprendizaje automático para analizar los cambios en el campo sonoro del entorno, ayudando a lograr una interacción humano-máquina no visual.
Progreso:
• Mejora de la precisión de la tecnología de localización de fuentes sonoras;
• Tecnología de interacción de voz robusta en entornos ruidosos.
Aplicación:
• Hogar inteligente: controlar dispositivos por voz, completando tareas sin contacto.
• Tecnología de asistencia: proporcionar métodos de interacción basados en sonido para usuarios con discapacidades visuales.
3. Interacción física de realidad mixta
Concepto: fusionar información virtual con el mundo físico a través de tecnología de realidad mixta (MR), permitiendo a los usuarios manipular el entorno virtual utilizando objetos del mundo real.
Progreso:
• Optimización de la interacción con objetos virtuales basada en la percepción táctil física;
• Tecnología de mapeo físico-virtual de alta precisión.
Aplicación:
• Capacitación educativa: enseñanza inmersiva a través de simulaciones de entornos reales.
• Diseño industrial: utilizar prototipos virtuales para la validación de productos.
4. Interacción portátil
Concepto:
A través de dispositivos portátiles como relojes inteligentes y dispositivos de monitoreo de salud, se logra la interacción mediante gestos, toque o tecnología electrónica de la piel.
Progreso:
• Mejora de la sensibilidad y durabilidad de los sensores de piel;
• Algoritmos de fusión multicanal que mejoran la precisión de la interacción.
Aplicación:
• Monitoreo de salud: seguimiento en tiempo real del ritmo cardíaco, sueño y estado físico;
• Juegos y entretenimiento: controlar personajes virtuales a través de dispositivos portátiles.
5. Interacción de diálogo humano-máquina
Concepto:
Investigar tecnologías de reconocimiento de voz, reconocimiento de emociones y síntesis de voz, para que las computadoras comprendan y respondan mejor a las entradas de lenguaje del usuario.
Progreso:
• La popularización de los grandes modelos de lenguaje (como GPT, etc.) ha mejorado enormemente la naturalidad de los sistemas de diálogo;
• Mejora de la precisión de la tecnología de reconocimiento de emociones en voz.
Aplicación:
• Robots de servicio al cliente: soporte para interacción de voz en múltiples idiomas.
• Asistente inteligente: respuesta personalizada a comandos de voz.
Por eso vemos muchos proyectos de AI Agent, especialmente en el ámbito de Web3, que aún se encuentran en la etapa de asistentes inteligentes en la interacción de diálogo humano-máquina, como twittear 24 horas, chats de voz de AI personalizados, chats de parejas, etc. Pero recientemente también hemos observado algunos proyectos que combinan la tecnología de portátiles con #AI para proporcionar innovaciones en el campo de los datos de salud, como anillos (no mencionaré marcas específicas, se puede investigar, también es parte del ecosistema de la cadena #SOL), relojes, colgantes, etc. Las oportunidades en este ámbito son más valiosas e interesantes que hacer solo una cadena pública de #AI o una aplicación, los inversores también preferirán esto. Después de todo, hemos invertido en dos empresas, hardware + software + AI, ¡este será un dirección potencial!
3. Campos en los que las empresas tecnológicas están invirtiendo fuertemente en la actualidad
1. Ampliar los métodos de interacción: explorar nuevos métodos de interacción, como la percepción olfativa y térmica, para mejorar aún más las dimensiones de fusión multimodal.
2. Optimización de la combinación multimodal: diseñar formas de combinación multimodal eficientes y flexibles que permitan una colaboración más natural entre diferentes modos.
3. Miniaturización de dispositivos: desarrollar dispositivos más livianos y de menor consumo energético para su uso diario.
4. Interacción distribuida entre dispositivos: mejorar la interoperabilidad entre dispositivos y lograr una interacción fluida entre múltiples dispositivos.
5. Mejora de la robustez de los algoritmos: especialmente en entornos abiertos, mejorar la estabilidad y la rapidez de los algoritmos de percepción y fusión multimodal.
4. Escenarios de aplicación que valen la pena invertir
• Rehabilitación médica: ayudar a los pacientes en entrenamiento de rehabilitación y orientación psicológica a través de retroalimentación de voz, imagen y táctil.
• Educación y oficina: proporcionar asistentes de oficina inteligentes y plataformas de educación personalizadas, mejorando la eficiencia y la experiencia.
• Simulación militar: utilizar tecnología de realidad mixta para simulaciones de combate y capacitación táctica.
• Entretenimiento y juegos: crear experiencias de juego y entretenimiento inmersivas, mejorando la interacción del usuario con el entorno virtual.
Resumen: En este artículo, el Dr. Li utiliza escenarios de aplicación de AI Agent para sistematizar las tecnologías centrales de la HCI multimodal, combinándolas con aplicaciones prácticas y direcciones de investigación futura, proporcionando a los inversores de #AIAgent una dirección y lógica de inversión. Este artículo puede considerarse la lectura obligada de AI para 2024, me ha permitido comprender más claramente el papel clave de la tecnología de interacción humano-máquina multimodal en la promoción de una vida inteligente futura, revelando su enorme potencial en entornos abiertos y escenarios complejos. ¡Invertir en el futuro es la clave para la riqueza! ¡Como siempre, es hora de posicionarse en #AI, aprender sobre #AI, invertir en #AI! ¡No hay tiempo que perder!