EvolutionaryScale lève 142 millions de dollars pour l'IA de données biologiques
D'anciens chercheurs de Meta lancent ESM3, un modèle de pointe entraîné sur 2,7 milliards de séquences de protéines pour programmer la biologie.
EvolutionaryScale a clôturé un tour de financement d'amorçage révélé de 142 millions de dollars (https://www.evolutionaryscale.ai/blog/esm3-release) dirigé par Nat Friedman, Daniel Gross et Lux Capital pour commercialiser des modèles d'IA de pointe pour les données biologiques. L'injection de capital marque l'une des plus grandes étapes d'amorçage dans l'histoire de l'IA axée sur la biotechnologie, signalant un appétit agressif du marché pour l'"IA physique" – des systèmes capables de comprendre et de manipuler les éléments constitutifs du monde physique. Au cœur de l'accord se trouve la sortie d'ESM3, un modèle génératif entraîné sur un ensemble de données propriétaire et public couvrant 2,7 milliards de séquences de protéines (https://www.evolutionaryscale.ai/blog/esm3-release), qui permet aux chercheurs de "programmer" efficacement la biologie en simulant des milliards d'années d'évolution dans un environnement numérique.
L'avantage multimodal dans les actifs de données biologiques
Contrairement aux itérations précédentes des modèles linguistiques de protéines, ESM3 est un modèle de pointe multimodal. Il ne prédit pas seulement la structure ; il raisonne simultanément sur la séquence, la structure et la fonction. En traitant un ensemble de données de 2,7 milliards de séquences et leurs structures 3D correspondantes (https://www.evolutionaryscale.ai/blog/esm3-release), le modèle peut générer des protéines entièrement nouvelles qui n'existent pas dans la nature. Cette capacité transforme les données biologiques d'un enregistrement passif de l'évolution en un actif actif pour la découverte de médicaments, la capture du carbone et la science des matériaux. L'entreprise, fondée par l'équipe derrière le projet ESM de Meta, se positionne comme l'"OpenAI de la biologie", offrant une version du modèle à la communauté scientifique tout en conservant des versions à haute capacité pour les partenariats commerciaux.
L'IA physique et le changement dans la monétisation des données
L'accord EvolutionaryScale met en évidence une tendance plus large où les actifs de données les plus précieux passent du texte généré par l'homme aux observations du monde physique. Alors que les LLM pour le texte font face à des rendements décroissants et à des obstacles juridiques concernant le droit d'auteur, les données biologiques offrent une frontière vaste et inexploitée. Le modèle ESM3 a été entraîné à l'aide d'environ 1,0 x 10^24 FLOPS de puissance de calcul (https://www.evolutionaryscale.ai/blog/esm3-release), une échelle auparavant réservée aux modèles généralistes de premier plan. Cet investissement souligne le coût élevé – et le potentiel de rendement élevé – de l'entraînement de modèles sur des données physiques spécialisées et de haute fidélité. À mesure que l'IA physique mûrit, la licence de données structurées biologiques, chimiques et robotiques devrait dépasser les données générales extraites du web en termes de valeur par jeton.
Le paysage concurrentiel : les douves de données dans les sciences de la vie
EvolutionaryScale entre sur un marché actuellement dominé par AlphaFold 3 de DeepMind, mais avec un accent distinct sur la conception générative plutôt que sur la simple prédiction structurelle. La douve concurrentielle dans ce secteur s'éloigne de l'architecture du modèle pour se concentrer sur l'échelle et la qualité du corpus d'entraînement. En open-sourçant les poids d'une version d'ESM3 de 1,4 milliard de paramètres, l'entreprise tente de définir la norme de l'industrie pour la représentation des données biologiques. Pendant ce temps, d'autres acteurs de l'écosystème sécurisent leurs propres pipelines de données ; par exemple, Poolside serait en pourparlers pour lever environ 500 millions de dollars, selon Bloomberg, pour appliquer des principes de modèles fondamentaux similaires aux données d'ingénierie logicielle, illustrant davantage la ruée pour dominer des domaines de données verticaux spécifiques.
Réglementation et légalité de l'acquisition de données
À mesure que ces modèles évoluent, le cadre juridique de la manière dont les données sont acquises reste un point de pivot critique pour les investisseurs. Dans une décision importante pour l'industrie des données, un tribunal américain s'est récemment prononcé en faveur de Bright Data dans sa bataille juridique de longue date avec Meta (https://brightdata.com/blog/court-rules-in-favor-of-bright-data), affirmant que le scraping de données publiques ne viole pas le Computer Fraud and Abuse Act (CFAA) ni ne constitue une rupture de contrat lorsque les données ne sont pas protégées par un mot de passe. Cette décision offre un bouclier juridique essentiel aux entreprises d'IA comme EvolutionaryScale qui dépendent de la récolte à grande échelle de bases de données scientifiques publiques pour augmenter leurs ensembles d'entraînement propriétaires. Cependant, la pression réglementaire s'intensifie ailleurs ; la Commission européenne a récemment informé Apple de son point de vue préliminaire selon lequel ses règles relatives à l'App Store enfreignent le Digital Markets Act (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433), rappelant que les gardiens de données sont sous un examen croissant quant à la manière dont ils contrôlent l'accès aux données de l'écosystème.
Innovations en matière d'infrastructure et de licence
L'infrastructure nécessaire pour traiter ces ensembles de données biologiques évolue également. Etched a récemment annoncé une série A révélée de 120 millions de dollars (https://www.etched.com/announcing-etched) pour construire des puces spécialisées pour les modèles transformeurs, visant à fournir l'efficacité de calcul nécessaire à la prochaine génération d'IA physique gourmande en données. En matière de licence, Perplexity AI a lancé un nouveau "Publishers Program" (https://www.perplexity.ai/hub/blog/perplexity-publishers-program) pour créer un modèle de partage des revenus avec les propriétaires de données, y compris Time et Der Spiegel. Cette démarche représente une maturation du marché des données pour l'IA, s'éloignant du scraping non autorisé vers des accords de licence structurés pluriannuels qui fournissent aux entreprises d'IA des pipelines de données stables et de haute qualité tout en compensant les créateurs originaux.
Pourquoi c'est important pour les propriétaires de données
Pour les propriétaires de données, l'accord EvolutionaryScale prouve que les ensembles de données hautement spécialisés et non textuels – tels que les séquences génomiques ou les structures protéiques – sont désormais parmi les actifs les plus précieux de l'économie de l'IA. Alors que les modèles fondamentaux pénètrent dans les sciences physiques, la capacité de fournir des données propres, structurées et éthiquement sourcées pour l'"IA physique" commandera des frais de licence premium. Les propriétaires de données devraient se concentrer sur l'audit de leurs ensembles de données propriétaires pour leur potentiel génératif, car le marché passe rapidement du simple stockage de données à la licence active d'actifs pour l'entraînement et le réglage fin des modèles.
d-nvest transforme les actifs de données derrière ces transactions en opportunités évaluées et exploitables.
Explorer le pipeline →