Écrit par : Cœur du Métaverse

EvolutionaryScale, un laboratoire de recherche de pointe en intelligence artificielle en biologie, a récemment annoncé avoir reçu plus de 142 millions de dollars américains en financement de démarrage et a également publié le modèle d'IA historique ESM3. Quelles idées uniques cette entreprise créée il y a un an a-t-elle dans le domaine des sciences de la vie en IA ? Quel genre d’avancées technologiques le nouveau modèle à grandes protéines présente-t-il ?

Il y a une semaine, alors que Meta battait son plein sur le morceau Vincent Video, l'équipe protéique EvolutionaryScale, qui a été dissoute par elle, a reçu plus de 142 millions de dollars en financement de démarrage. Ce montant de financement peut être considéré comme ridiculement élevé dans l'ensemble. domaine de la biotechnologie.

En août de l'année dernière, Meta a officiellement annoncé la dissolution de son équipe de repliement de protéines Meta-FAIR. Ce projet purement « science + IA » ne permettra pas à Meta de réaliser des bénéfices rapidement, et la décision de Meta de se concentrer sur la commercialisation de l'IA semble raisonnable.

Cependant, cette équipe sous-estimée a en fait giflé Meta en seulement un an. Leur dernier ESM3 est considéré comme un modèle d’IA générative historique dans le domaine de la biologie, ouvrant de nouvelles possibilités pour la programmation biologique.

01. Aperçu du projet en 1 minute

1. Nom du projet : EvolutionaryScale

2. Date de création : juillet 2023

3. Présentation du produit :

Développer un grand modèle de langage pour créer de nouvelles protéines et d'autres systèmes biologiques - ESM, actuellement itéré vers ESM-3.

4. Équipe fondatrice :

  • Scientifique en chef : Alexander Rives (PhD en informatique, Université de New York, ancien scientifique de Facebook AI)

  • Tom Sercu

  • Sal Candido

5. Situation financière :

Clôture d'une ronde de financement d'amorçage pouvant atteindre 142 millions de dollars le 25 juin 2024. Le cycle a été mené par Nat Friedman, Daniel Gross et Lux ​​Capital, avec la participation d'Amazon, de NVentures (la branche de capital-risque de Nvidia) et d'investisseurs providentiels.

02. La poursuite du travail d’équipe et des concepts cohérents

Les progrès de l’intelligence artificielle ont créé des opportunités sans précédent pour la recherche en biosciences, notamment pour la conception de biomolécules fonctionnelles, notamment de protéines. L’application de l’intelligence artificielle à la conception de protéines peut non seulement améliorer l’efficacité et le taux de réussite de la conception de protéines, mais également aider l’humanité à résoudre certains des défis auxquels elle est confrontée en répondant rapidement aux épidémies de maladies infectieuses.

Alexander Rives et d'autres ont constaté l'écart dans la conception des protéines et ont décidé de développer de grands modèles basés sur l'apprentissage profond, promouvant ainsi la conception de protéines au niveau industriel dans « l'ère de la génération intelligente entièrement automatique ».

Ainsi, EvolutionaryScale a vu le jour. Il s'agit d'un laboratoire de recherche de pointe en IA axé sur le domaine des sciences biologiques et qui s'engage à lancer des modèles de langage à grande échelle à la pointe de la biologie.

Il est intéressant de noter que les huit membres de l’équipe fondatrice de l’entreprise provenaient du département FAIR (Fundamental Artificial Intelligence Research) de Meta. Malgré leur frustration face au géant des médias sociaux de classe mondiale, les principaux membres de l'équipe initiale n'ont pas abandonné. Au lieu de cela, ils sont rapidement entrés sur le nouveau champ de bataille et ont commencé à développer le modèle de nouvelle génération basé sur les résultats de l'équipe d'origine.

Les grands modèles d'EvolutionaryScale soutiennent la recherche et le développement dans des domaines tels que les sciences de la santé et de l'environnement, explorant constamment l'évolutivité de la biologie et alimentant la recherche scientifique révolutionnaire. L’un des résultats les plus significatifs est la percée dans la technologie de repliement des protéines. Les modèles ESM ont révélé les structures de centaines de millions de protéines métagénomiques, aidant ainsi les scientifiques du monde entier à simuler et à comprendre les protéines.

EvolutionaryScale vise à guider le développement de la technologie de l'intelligence artificielle dans le domaine de la conception de protéines grâce à des méthodes de recherche ouvertes et sécurisées.

Sur cette base, l'entreprise, en tant que signataire, a conduit plus de 160 parties prenantes mondiales du monde universitaire, du gouvernement et du secteur privé à développer conjointement cette technologie et à garantir qu'elle est sûre et fiable, réalisant ainsi la vision d'un bénéfice pour la santé humaine et la société.

C’est précisément grâce au sens de la responsabilité de diriger la technologie avancée de l’IA dans le monde biologique qu’Alexander Rives et son équipe ne s’arrêtent jamais.

Auparavant, EvolutionaryScale avait publié le grand modèle de langage ESM1, qui est considéré comme le premier modèle de langage de transformateur pour les protéines et a été construit par l'équipe fondatrice d'EvolutionaryScale alors qu'elle travaillait dans le département FAIR de Meta. ESM2, un modèle amélioré d'ESM1, possède 15 millions de paramètres et fonctionne mieux que l'ancien modèle ESM1b (qui compte 650 millions de paramètres).

La semaine dernière, EvolutionaryScale a publié son dernier modèle d'IA ESM3, un grand pas vers l'avenir de la biologie. Grâce à la puissance de ce modèle, il est possible d’accélérer les découvertes avec des applications généralisées, favorisant la création de protéines qui aident à capter le carbone pour développer de nouveaux traitements contre le cancer.

03.Pionnier dans l’application de l’IA en biologie

ESM3 est un modèle d'IA génératif dont la fonction principale est de générer de nouvelles protéines. Le modèle utilise une technologie d’apprentissage profond pour s’entraîner à l’aide d’une grande quantité de données protéiques afin d’apprendre la relation entre la séquence, la structure et la fonction des protéines.

ESM3 a été formé en utilisant plus de 1 000 milliards de téraflops de puissance de calcul, la plus grande échelle de calcul connue en biologie. Il a été formé sur un ensemble de données de 2,78 milliards de protéines provenant de la diversité naturelle de la Terre, lui permettant de raisonner simultanément sur la séquence, la structure et la fonction des protéines.

Le flux de travail principal d'ESM3 peut être simplifié en quatre étapes suivantes :

  • Collecte et traitement des données : EvolutionaryScale collecte d'abord une grande quantité de données biologiques provenant de diverses sources, notamment des séquences génétiques, des structures protéiques, des annotations fonctionnelles, etc. Les données seront nettoyées, standardisées et formatées pour faciliter l'analyse et l'application ultérieures.

  • Formation de modèles : à l'aide d'algorithmes d'apprentissage en profondeur et d'une grande quantité de ressources informatiques, EvolutionaryScale entraînera les données traitées pour construire un grand modèle de langage capable de comprendre et de prédire les lois biologiques. Non seulement ces modèles sont très précis, mais ils sont également capables de résoudre des problèmes biologiques complexes.

  • Générer de nouvelles protéines : grâce à des invites interactives, ESM3 est capable de générer de nouvelles protéines qui auraient mis des centaines de millions d'années à évoluer dans la nature.

  • Validation scientifique : Les nouvelles protéines générées seront validées par des expériences scientifiques afin de déterminer leurs fonctions et leurs applications potentielles.

Actuellement, l’un des cas d’utilisation les plus convaincants d’ESM3 est la génération d’une nouvelle protéine fluorescente verte (GFP).

La GFP est l'une des protéines les plus belles et les plus uniques de la nature, responsable de l'éclat des méduses et des couleurs fluorescentes vives des coraux. ESM3 a créé cette nouvelle protéine fluorescente grâce à un processus de réflexion s'étalant sur 500 millions d'années d'évolution. Ce processus aurait pris plus de 500 millions d’années dans l’évolution naturelle, mais ESM3 a rendu ce saut possible sur le plan informatique.

La sortie d’ESM3 a également révolutionné les domaines de la découverte de médicaments et de la biologie synthétique.

En termes de découverte de médicaments, ESM3 peut générer de nouvelles protéines dotées d’activités biologiques spécifiques, fournissant ainsi davantage de molécules candidates pour le criblage et l’optimisation de médicaments. Dans le même temps, ESM3 peut également prédire et optimiser le mécanisme d’interaction entre les médicaments et les cibles, fournissant ainsi une base plus scientifique pour la conception et le développement de médicaments.

En termes de biologie synthétique, ESM3 est capable de générer des systèmes biologiques dotés de fonctions spécifiques, apportant de nouvelles solutions dans des domaines tels que la biofabrication et la bioénergie. Par exemple, ESM3 peut générer un système enzymatique qui convertit efficacement le dioxyde de carbone en matière organique, offrant ainsi une nouvelle approche de la capture et de l’utilisation du carbone.

Le modèle ESM3 d’EvolutionaryScale représente une nouvelle étape dans l’IA en biologie. Grâce à ses puissantes capacités de génération et à sa collaboration avec les leaders de l'industrie, ESM3 devrait accélérer la découverte de nouvelles protéines et la conception de systèmes biologiques, apportant ainsi un impact révolutionnaire sur le développement futur de médicaments, la science des matériaux et la science de l'environnement.

04. Parcours d'innovation dans le domaine de la biologie

Biologie synthétique : programmer la vie

La biologie synthétique est une direction importante pour le développement futur d’EvolutionaryScale. En concevant et en synthétisant de nouveaux circuits génétiques et voies biologiques, les scientifiques peuvent créer des organismes dotés de fonctions spécifiques.

  • Les circuits génétiques sont similaires aux circuits électroniques, mais ils contrôlent les processus biologiques dans les cellules.

Les circuits génétiques permettent un contrôle précis de l’expression spécifique de gènes dans les cellules. Par exemple, un circuit génétique peut être conçu pour activer ou désactiver l’expression d’un gène spécifique lorsque la cellule détecte un signal spécifique, tel qu’un certain produit chimique ou un changement environnemental.

  • Les voies de la biologie synthétique impliquent la combinaison de plusieurs enzymes et voies métaboliques utilisées pour produire des composés précieux.

Grâce à l’analyse et à la conception de l’IA, les scientifiques peuvent créer de nouvelles voies métaboliques permettant aux organismes de synthétiser des composés qui ne peuvent pas être produits naturellement. Par exemple, les micro-organismes peuvent produire des intermédiaires pharmaceutiques, des biocarburants ou des produits chimiques industriels en repensant leurs voies métaboliques.

  • L'usine cellulaire est un système biologique qui utilise le génie génétique pour modifier des micro-organismes afin de produire efficacement des produits cibles dans des conditions industrielles.

Grâce à la conception assistée par l’IA, les scientifiques peuvent modifier le génome des micro-organismes afin qu’ils puissent présenter d’excellentes performances de production dans des conditions spécifiques. Par exemple, en modifiant les gènes de levures ou de bactéries, les scientifiques peuvent rendre ces micro-organismes efficaces dans la production d'antibiotiques, d'enzymes ou d'autres produits biologiques.

Si cette technologie peut continuer à se développer, elle favorisera non seulement le développement de pointe de la recherche scientifique, mais apportera également d'importantes perspectives d'application dans des domaines tels que la médecine, la protection de l'environnement et l'agriculture.

Médecine personnalisée basée sur les données

EvolutionaryScale promeut l'avancement de la médecine personnalisée grâce à l'IA et à la technologie d'analyse des mégadonnées pour fournir aux patients des services médicaux plus précis et efficaces.

La médecine personnalisée s'appuie sur les informations biologiques et les données cliniques uniques de chaque patient pour adapter le plan de traitement le plus approprié. Un domaine clé est l’analyse génomique. En séquençant et en analysant de manière exhaustive le génome d'un patient, les scientifiques peuvent identifier les variantes génétiques associées à la maladie.

EvolutionaryScale utilise la technologie de l'IA pour analyser rapidement et précisément de grandes quantités de données génomiques afin de découvrir des facteurs de risque potentiels de maladie.

Cette méthode peut aider les médecins à diagnostiquer la maladie à un stade précoce et à prendre des mesures préventives. Par exemple, en analysant les mutations des gènes BRCA1 et BRCA2 chez les patientes atteintes d’un cancer du sein, leur risque peut être prédit, permettant ainsi un dépistage et une intervention précoces.

Aujourd'hui, EvolutionaryScale est à la pointe de l'intégration de la biologie et de l'intelligence artificielle, dédiée à la programmation et à l'optimisation des systèmes biologiques grâce à l'innovation et à l'exploration continues. D’autres avancées technologiques pourraient être réalisées à l’avenir, créant ainsi un avenir plus intelligent et plus sain pour l’humanité.