¿Podrá el modelo grande "Cuatro pequeños dragones" cruzar el abismo?

Fuente de la reimpresión del artículo: Brain Body
El año pasado se hizo muy popular una imagen llamada "El abismo de los grandes modelos". Los consumidores de melones se sorprendieron al descubrir que la gran mayoría de los modelos grandes estaban apiñados en niveles sin fondo. Ellos "afirmaron que estaban a punto de aterrizar", "esperaron para decidir cuándo aterrizarían", "qué aterrizaron pero no aterrizaron". " y "por qué" Hay tantos modelos grandes de los que nunca había oído hablar”…
Hoy en día, el número de modelos grandes producidos en el país ha llegado a más de 200 y el "abismo" es aún más profundo.
Entre ellos, muchos modelos a gran escala de bajo nivel que reinventan la rueda no pueden satisfacer las necesidades de las personas y las industrias. Una vez lanzados, nadie se preocupa por ellos y es imposible causar sensación en la industria. Y esos modelos de gran tamaño que realmente tienen valor técnico y comercial son como "dragones escondidos en el abismo" y poco a poco van dando señales de "volar hacia el cielo".
En la última ola de emprendimiento de IA que comenzó alrededor de 2015, entre las nuevas empresas lideradas por la tecnología de visión por computadora CV, también se conocieron SenseTime, Megvii Technology, Yuncong Technology y Yitu Technology, conocidas como los "Cuatro pequeños cisnes de CV". Como los “Cuatro pequeños dragones de la IA” de China, se ha convertido en una empresa innovadora icónica en ese ciclo de auge de la IA.
Entonces, en el nuevo ciclo de prosperidad iniciado por los grandes modelos, naturalmente habrá "dragones escondidos acechando en el abismo". ¿Quién se convertirá en una población potencial como los “Cuatro pequeños dragones de la IA”? La respuesta está básicamente escondida en estos tres escalones.
Una garra a escala y media del modelo grande "Cuatro Pequeños Dragones"
Hay un dicho que circula en la industria: las pequeñas innovaciones dependen de las grandes fábricas y las grandes innovaciones dependen de las pequeñas fábricas. Desde DeepMind en el pasado hasta OpenAI el año pasado, estos equipos técnicos jóvenes y de vanguardia han regresado a sus raíces de innovación, trayendo cambios disruptivos a la industria una y otra vez, convirtiéndose en "acciones potenciales" a los ojos de profesionales e inversores.
El llamado "dragón oculto" de los modelos grandes tiene dos condiciones básicas:
El primero es "latente". En comparación con gigantes tecnológicos como Google, Microsoft, Nvidia, Baidu, Tencent y Alibaba, se estableció por un período de tiempo más corto, tiene un equipo más joven y tiene mayor eficiencia y flexibilidad organizacional.
El segundo es "Dragon", que tiene una innovación tecnológica que no es inferior a la de los grandes fabricantes, o incluso los supera. El modelo básico es de desarrollo propio y es un modelo grande de uso general de nivel L0, que puede proporcionar una base. para modelos industriales grandes y modelos verticales grandes, tiene el potencial de transformarse en múltiples industrias y se espera que genere un alto crecimiento y un alto retorno de la inversión.
Aunque las empresas de visión artificial también han lanzado modelos grandes con buenas capacidades técnicas, no se los considera caras nuevas de la IA. Aunque Zero One Wish, que utiliza la arquitectura de código abierto LLaMA, y Light Years Beyond, que fue adquirida por un importante fabricante y ya no compite de forma independiente, son bastante "nuevos", su desarrollo ha encontrado un importante punto de inflexión. Por lo tanto, no incluiremos estas empresas y sus grandes modelos en esta discusión.
En términos generales, existen tres tipos de grandes empresas modelo, que actualmente cuentan con el respaldo de reconocidas instituciones de inversión o clientes de la industria en el país y en el extranjero. Tienen un alto reconocimiento tecnológico y potencial de transformación comercial y pueden considerarse como las reservas de los "Cuatro". Pequeños Dragones Modelo Grande".
1. Fiesta de las estrellas
El equipo fundador estrella tiene popularidad e influencia en la industria o el mundo académico. Tan pronto como se lance el modelo grande creado, atraerá la atención de la industria debido a su "efecto estrella".
Incluyendo, Baichuan Intelligence, fundada por el ex director ejecutivo de Sogou, Wang Xiaochuan (en marzo de 2023, modelos grandes de la serie Baichuan con múltiples parámetros); Minimax, fundado por Yan Junjie, ex subdirector del Instituto de Investigación SenseTime (en diciembre de 2021, propietario del modelo grande ABAB); Lanzhou Technology fue fundada por el Dr. Zhou Ming, uno de los primeros investigadores en el campo de la traducción automática chino-inglés en China y miembro de ACL 2023 (en junio de 2021, posee el modelo universal grande Mencius).
2.Flujo técnico
En comparación con el "efecto estrella", la corriente tecnológica enfatiza la fortaleza técnica, y el representante típico es Zhipu AI. Como empresa de nueva creación con sede en Tsinghua, Zhipu AI tomó OpenAI como punto de referencia cuando se estableció en 2019 y se fijó el objetivo de lograr la inteligencia general de AGI. Fue una de las primeras empresas de tecnología en China en lanzar el desarrollo de pre. -modelos de entrenamiento. También se considera que el rendimiento de GLM-4, el último modelo base a gran escala lanzado por Zhipu AI, está cerca del GPT-4 de OpenAI en una serie de evaluaciones.
3.Pragmático
Las escuelas estelares y las corrientes tecnológicas que tienen grandes esperanzas están "por encima de la cima", y el modelo pragmático que surgió del terreno empresarial/comercial también puede abrirse camino confiando en aplicaciones prácticas. Por ejemplo, el modelo grande "Tiangong", que se lanzará en 2023, fue desarrollado de forma independiente por Kunlun Worldwide. La combinación del modelo grande AIGC y los negocios de búsqueda, juegos, redes sociales, entretenimiento y otros de Kunlun Worldwide ha entrado rápidamente en la aplicación. ciclo, lo que convierte a Kunlun Worldwide en un caballo oscuro que irrumpe en el campo de los modelos grandes.
Cabe señalar que las tres categorías se basan en la "tabla más larga", lo que no quita que la capacidad de otras pistas no sea alta.
El rendimiento de un modelo grande con un equipo fundador estrella puede no ser inferior al de un flujo técnico; un flujo técnico con un modelo base sólido también puede llevar a un equipo operativo fuerte a llevar el producto al suelo mientras la escuela pragmática "; "Construye un martillo a base de un clavo", pero si el martillo no es lo suficientemente duro no podrá golpear nada, por lo que la capacidad técnica también debe ser excelente.
Mirando al abismo de la “comercialización” de grandes modelos
Apuntar a los "Cuatro pequeños dragones de la IA" puede no hacer muy felices a las grandes empresas modelo, pero las preocupará más.
Los "Cuatro Tigres de la IA" con visión por computadora como núcleo tienen sólidas capacidades de financiación en las primeras etapas, pero generalmente encuentran dificultades en la comercialización y enfrentan dificultades como la rentabilidad y la caída del valor de mercado. Detrás del "abismo" del aterrizaje de modelos grandes hay un camino más largo hacia la comercialización.
Sin embargo, evadir y guardar secretos no puede disipar las preocupaciones de los inversores, los mercados y los usuarios. Ya sea que las grandes empresas de modelos estén dispuestas a mirar al abismo o no, el abismo ha estado mirando a los grandes modelos.
Frente al abismo de la "comercialización" de modelos grandes, en comparación con la ronda anterior de IA, hay tres nuevos y uno antiguo:
Tres novedades: nuevo entorno, nueva escala y nuevos requisitos.
En pocas palabras, las grandes empresas modelo se enfrentan a un entorno financiero más estricto a medida que disminuye la liquidez global, a las empresas de tecnología les resulta difícil mantener valoraciones altas. Las grandes empresas como Google están despidiendo empleados para "reducir costos y aumentar la eficiencia". Lo que dificulta la financiación. Por ejemplo, el nivel de financiación de Zhipu AI es obviamente menor que el de SenseTime.
Al mismo tiempo, los modelos grandes son una industria que requiere grandes inversiones. La competencia técnica por los modelos básicos está lejos de terminar. La exploración continua hacia arriba significa quemar dinero a largo plazo y requiere una mayor escala de fondos. Los inversores que han aprendido de la experiencia de la ronda anterior de inversión y financiación en IA se muestran particularmente tranquilos cuando se enfrentan a modelos grandes y han planteado requisitos más altos para la rentabilidad de las empresas de nueva creación.
Yiji: Todavía es difícil estandarizar la IA.
Nan Ju y Bei Zhi, es absolutamente imposible copiar OpenAI cuando se hace IA en China. Debemos ver los hechos concretos: el mercado de TOC de China no está muy dispuesto a pagar por la IA y otros productos de software. La supervisión es estricta y es difícil. Incluso si realmente queremos hacerlo, debemos hacerlo. La inversión en equipar un equipo grande para garantizar la seguridad y el cumplimiento no es pequeña.
El mercado toB también es muy diferente. La mayoría de las empresas nacionales no confían en el modelo SaaS y prefieren la implementación privatizada. El mercado industrial está fragmentado, hay muchos clientes pequeños y medianos y las necesidades son complejas. Los ingenieros de algoritmos van a la primera línea para trabajar en proyectos por valor de cientos de miles.
En cuanto al mercado de toG, la competencia en proyectos inteligentes es feroz y las ganancias son pequeñas para una gran cantidad de trabajo. En la última ronda de empresas de visión artificial, se dedicaban básicamente a la conducción autónoma, las ciudades inteligentes, la seguridad y otros negocios. y todos ganaron dinero con mucho esfuerzo. En términos generales, el costo de los proyectos de visión por computadora de CV es más alto que el del procesamiento del lenguaje natural de PNL, por lo que es muy difícil para los modelos de lenguaje grandes obtener precios unitarios altos según el sistema del proyecto.
La razón es que la mayoría de los proyectos de IA en el mercado ToB/ToG se implementan como soluciones que las instituciones gubernamentales y empresariales prefieren introducir software y hardware como IA, nube e IoT en forma empaquetada para crear soluciones personalizadas para ellos mismos. Ser estandarizado y modular. La entrega rápida en forma estandarizada requiere una alta inversión inicial.
Desde esta perspectiva, la inversión general es mayor, los beneficios de un solo proyecto son menores y los desafíos de comercialización de los modelos grandes son más graves que los de la ola anterior de empresas de visión artificial.
Entonces, ¿el "Gran Modelo Cuatro Pequeños Dragones" volverá a cometer el mismo error?
El dragón salta al abismo, ¿dónde está la salida de beneficios para los modelos grandes?
Si comprendes el pasado, no debes protestar, pero si sabes lo que viene, puedes seguir adelante. No hay necesidad de ser pesimista al afrontar el problema de la comercialización de la IA. De hecho, hemos visto que la mayoría de los jugadores de reserva de los "Cuatro Pequeños Dragones" del modelo grande pueden empezar a aprender de la experiencia y abrir nuevos juegos. También encontramos algunos puntos en común:
Una cosa en común: reducción de costes, pero no “aumento de risas”.
Internamente, “restringiremos los gastos” y mejoraremos la eficiencia humana. En comparación con los "algoritmos/científicos bien pagados" de la última ronda del auge empresarial de la IA, estos grandes "dragones ocultos" modelo se centrarán en el "índice de eficiencia humana" desde el principio.
La alta liquidez y la alta valoración de la industria tecnológica dieron lugar anteriormente a la expansión aleatoria de los "unicornios", lo que a su vez resultó en una gran cantidad de ineficiencias. Por ejemplo, los "trabajadores maravillosos" de Silicon Valley dominaban varios lenguajes de programación. y originalmente subcontrató su trabajo a varios ingenieros chinos, pero pasó desapercibido durante varios años. Este entorno también ha provocado una importante contracción de la innovación y costes de contratación extremadamente elevados para las empresas de nueva creación.
En esta ola de emprendimiento de grandes modelos, las empresas son más cautelosas respecto a la expansión de personal. Zhou Ming dijo una vez a los medios que cuando comenzó el negocio, el equipo solo estaba formado por él mismo. Más tarde, se expandió a 5 personas y poco a poco comenzó a entrenar el modelo Mencius construido con un equipo "ligero". una escala de 100 personas en el futuro. Baichuan Intelligence y Zhipu AI tienen ideas similares.
Reducir los costos externos y aumentar el potencial de ganancias de las grandes empresas modelo. Ayude a las empresas y a los usuarios a "ahorrar" y reducir el costo de aplicar modelos grandes. El problema de muchos clientes es que la presión de los costos por el uso de modelos grandes es muy alta y esperan combinar modelos grandes y pequeños para mejorar la relación entrada-salida. Por ejemplo, Baichuan y Zhipu AI han lanzado modelos grandes con múltiples parámetros para integrar diferentes necesidades.
Punto común dos: centrarse en toB y prestar atención al flujo de caja.
Estas grandes empresas modelo se han centrado en el mercado toB desde el principio. Zhang Peng, director ejecutivo de Zhipu AI, y Zhou Ming, fundador de Lanzhou Technology, han dejado claro que dan prioridad al desarrollo del negocio de servicios empresariales toB.
Desde la digitalización hasta la inteligencia, los fabricantes tradicionales de IA deben educar a los usuarios desde cero para explicarles el valor de la tecnología de IA a la hora de reducir costos y aumentar la eficiencia. En comparación, el conocimiento y la aceptación de los modelos grandes son muy altos. Todos los ámbitos de la vida tienen un fuerte deseo de productividad y un consenso sobre la aplicación de la IA. Esto proporciona a las grandes empresas modelo una muy buena base para el crecimiento.
El "Informe de análisis de la demanda de ofertas de modelos grandes (enero-noviembre de 2023)" publicado por Bailian Intelligence muestra que a partir de julio, con la llegada de 130 modelos grandes nacionales, la demanda de ofertas de modelos grandes ha comenzado a mostrar una tendencia ascendente significativa. Noviembre marcó el comienzo de un pico de crecimiento, con la demanda casi triplicándose respecto al mes anterior. Entre ellas, la mayoría de las empresas optan por invertir un presupuesto de 100.000 a 500.000 para intentos a pequeña escala. Al mismo tiempo, muchas empresas representadas por empresas estatales han comenzado a publicar presupuestos de proyectos de nivel millonario.
Como se mencionó anteriormente, puede que no sea fácil ganar dinero para toB. Aunque los clientes corporativos están más dispuestos a pagar que los usuarios finales C, las aplicaciones toC pueden estandarizarse y atraer a los usuarios a pagar a gran escala, mientras que los proyectos inteligentes toB requieren personalización y requieren una mayor inversión. Anteriormente, las empresas de visión artificial también querían aplicar modelos de IA en todos los escenarios y generalizarlos, pero descubrieron que el modelo de negocio del mundo real todavía estaba muy personalizado y el costo seguía siendo alto.
Este problema tiene un consenso relativamente amplio entre los grandes empresarios modelo, y todos ellos están explorando activamente soluciones. El director ejecutivo de Baichuan Intelligence, Wang Xiaochuan, reveló una vez a los medios que es necesario superar el problema de la personalización de toB, mejorar la base de conocimientos mediante búsquedas configurables y ajustables y resolver las necesidades personalizadas de los clientes de manera productiva a través de diferentes combinaciones de productos.
Tres cosas en común: hacer amigos y abrir activamente el código fuente.
Una de las principales razones por las que la "personalización" se ha convertido en una necesidad natural para las empresas es que la implementación de la IA en escenarios empresariales comienza desde cero. La IA debe integrarse con el negocio para que sea eficaz. Muchos escenarios no se pueden resolver con un producto general. La inteligencia es un negocio lento a largo plazo y no se puede separar de los socios ecológicos para profundizar en la industria y realizar muchos trabajos personalizados.
A lo largo de los años, nuestro equipo ha visitado muchas fábricas de AI+, granjas de cerdos de AI+, inspecciones de AI+, minas de carbón de AI+, muelles de AI+ y otros proyectos inteligentes. Uno de los escenarios más comunes es: científicos, ingenieros de algoritmos, operadores de productos de empresas de AI, proyectos. gerentes y otras personas de todo tipo, algunos permanecieron en los campos, muelles y almacenes durante varios meses para comprender las necesidades de trabajo del personal de base y diseñar el proceso operativo desde cero.
Y la inteligencia suele ir acompañada de "deshumanización". A veces el personal de primera línea no comprende ni coopera, lo que retrasa enormemente el progreso del proyecto. Un invierno, cuando el equipo inteligente de una mina de carbón estaba realizando una investigación en cierta estación en el norte de Shaanxi, el personal no quería hablar con ellos, por lo que deliberadamente no encendieron la calefacción, con la esperanza de retirarse en el clima frío. En otra ocasión, en una granja de cerdos, la dirección esperaba utilizar cámaras inteligentes para detectar la temperatura corporal de los cerdos en tiempo real para prevenir enfermedades infecciosas como la peste porcina. Sin embargo, el rendimiento del algoritmo finalmente no pudo mejorarse. Repetimos investigaciones en el lugar y descubrimos que la razón era que los cerdos La piel es demasiado gruesa, lo que reduce la precisión del reconocimiento de la temperatura corporal...
No es difícil ver que el precio unitario de estos proyectos de pequeñas, medianas y microempresas de cientos de miles o cientos de miles puede no ser tan alto como el de los grandes clientes B/gubernamentales, pero son grandes en número y grandes. en escala y utilizar modelos básicos grandes como base para el desarrollo personalizado. Puede aumentar en gran medida la tasa de uso de los fabricantes de modelos base y atraer más socios/proveedores de servicios ISV para crear versiones comerciales.
Para atraer socios de la industria, Baichuan Intelligence, Zhipu AI, Kunlun Wanwei y Lanzhou Technology han abierto varios modelos.
Pero todos sabemos que el código abierto es fácil, pero la ecología es difícil. Una vez que un modelo grande es de código abierto, el ecosistema no puede prosperar sin que los desarrolladores sigan contribuyendo y creando una versión comercial, no se puede formar un ciclo positivo.
Para atraer desarrolladores, en primer lugar, las capacidades del modelo base deben ser excelentes y no debe haber fallas en la comprensión de la lógica del análisis. Altman dijo una vez que muchos problemas de GPT-4 se resolverán en GPT-5 y espera que los desarrolladores puedan diseñar negocios basados ​​​​en inteligencia artificial general AGI. En otras palabras, un nuevo modelo más potente puede acabar con el valor comercial del modelo antiguo, dejando a los desarrolladores trabajando completamente en vano. Por lo tanto, los desarrolladores definitivamente optarán por centrar su tiempo y energía en los modelos base más avanzados para evitar que se implementen demasiado rápido.
Además, se requiere un conjunto de herramientas bueno y completo. Los modelos grandes deben usarse bien y el software también debe someterse a ciertas adaptaciones y transformaciones. Lo que se probará son las capacidades de ingeniería de los fabricantes de modelos grandes y si el software es amigable para los desarrolladores. Hay muchas empresas de nueva creación entre los "Cuatro Pequeños Dragones", y el equipo de ingenieros puede ser diferente de empresas maduras como BAT en términos de escala, talento, experiencia y acumulación. Por ejemplo, la programación de tareas, la legibilidad del código, la documentación técnica, los conjuntos de datos estándar, etc. pueden reducir la carga para los desarrolladores y socios y hacer un buen uso conjunto de modelos grandes.
Ya sean los alguna vez espléndidos "Cuatro pequeños dragones con IA" o los emergentes "Cuatro grandes pequeños dragones modelo", estas empresas han utilizado tecnologías avanzadas e ideales alegres para elevar el "techo" de la innovación una y otra vez, lo que Es insuperable para la tecnología china. Una fuerza que falta.
La China inteligente está abriendo un mundo más amplio. Estas grandes "acciones potenciales" modelo definitivamente harán que dragones salten sobre el abismo y viajen por los nueve cielos.