EvolutionaryScale lève 142 millions de dollars pour des "modèles du monde" biologiques
Nvidia et Amazon soutiennent une levée de fonds de 142 millions de dollars pour entraîner le modèle ESM3 sur un ensemble de données de 278 millions de protéines.
EvolutionaryScale a clôturé une levée de fonds de démarrage de 142 millions de dollars (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai-model/) pour accélérer le développement de "modèles du monde" d'IA capables de simuler et d'ingénierer des systèmes biologiques. La levée de fonds, menée par Lux Capital, Nat Friedman et Daniel Gross, avec la participation de Nvidia et Amazon, positionne la startup à l'avant-garde de la course aux armements "données pour la biologie". Le capital est destiné au perfectionnement d'ESM3, un modèle linguistique de pointe pour la biologie qui compte 98 milliards de paramètres (https://www.evolutionaryscale.ai/blog/esm3-release) et a été entraîné sur un ensemble de données massif de 278 millions de protéines (https://www.evolutionaryscale.ai/blog/esm3-release).
L'essor des modèles du monde biologiques
Contrairement à l'IA générative traditionnelle qui se concentre sur le texte ou les pixels, EvolutionaryScale construit ce que les chercheurs appellent un "modèle du monde" pour les sciences de la vie. En traitant le code génétique comme un langage, le modèle ESM3 a démontré sa capacité à générer des protéines fluorescentes entièrement nouvelles qui s'écartent considérablement de celles trouvées dans la nature, simulant ainsi efficacement 500 millions d'années d'évolution (https://www.evolutionaryscale.ai/blog/esm3-release) dans un environnement numérique. Cette capacité signale un changement sur le marché des actifs de données, où les ensembles de données les plus précieux ne sont plus simplement du texte extrait du web, mais des séquences biologiques hautement spécialisées et structurées qui peuvent être utilisées pour "programmer" la matière.
Le pivot de la licence de données : de l'usage équitable aux actifs payants
La levée de fonds d'EvolutionaryScale coïncide avec un changement de marché plus large vers la licence de données de haute intégrité. Alors que les données biologiques sont tokenisées pour la découverte de médicaments, les géants des médias sécurisent leurs propres archives. OpenAI a récemment signé un accord de licence de contenu pluriannuel (https://time.com/6992661/time-openai-partnership/) avec Time Magazine, accordant au laboratoire d'IA l'accès à plus de 100 ans d'archives journalistiques. Bien que les termes financiers restent non divulgués (https://www.reuters.com/technology/openai-time-strike-multi-year-content-licensing-deal-2024-06-27/), l'accord fait suite au seuil de 250 millions de dollars divulgué (https://www.reuters.com/technology/news-corp-signs-multi-year-ai-content-deal-with-openai-2024-05-22/) fixé par l'accord News Corp. De même, YouTube négocierait (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) avec de grands labels de musique, dont Sony et Universal, pour offrir des sommes forfaitaires estimées à plusieurs millions de dollars (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) pour un accès légal aux catalogues musicaux pour l'entraînement de l'IA.
Obstacles réglementaires et provenance des données
Alors que la valeur des données d'entraînement explose, les régulateurs et les créateurs s'opposent à l'utilisation non autorisée. Figma a récemment désactivé sa fonctionnalité d'IA "Make Design" (https://www.theverge.com/2024/7/1/24189917/figma-disables-ai-design-tool-apple-weather-app-copying) suite à des allégations selon lesquelles elle aurait été entraînée sur des conceptions d'applications existantes, soulignant les risques juridiques des pipelines de données opaques. De plus, l'investissement rapporté de 10 à 20 millions de dollars de SoftBank (https://www.bloomberg.com/news/articles/2024-06-27/softbank-to-invest-in-search-startup-perplexity-ai/) dans Perplexity AI intervient dans un flot d'avis de violation de droits d'auteur de la part des éditeurs, suggérant que même les startups d'IA à forte croissance doivent désormais prévoir un budget conséquent pour la conformité des données et les règlements. Cette tendance est encore étayée par la levée de fonds estimée à 100 millions de dollars d'Harvey (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/), qui valorise le spécialiste des données juridiques à une estimation de 1,5 milliard de dollars (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/), une prime tirée par son accès à des ensembles de données juridiques propriétaires et à enjeux élevés.
Pourquoi cela importe pour les propriétaires de données
L'accord EvolutionaryScale prouve que la frontière la plus lucrative pour la monétisation des données se déplace du contenu web général vers les "modèles du monde spécifiques à un domaine". Pour les propriétaires de données dans les domaines de la biologie, du droit et de la musique, le marché a dépassé la simple licence pour un modèle de partenariat stratégique où les données sont le catalyseur principal des percées scientifiques et créatives. Alors que les laboratoires d'IA comme OpenAI et Anthropic épuisent les données publiques du web, la prime sur les ensembles de données propres, propriétaires et légalement approuvés continuera d'augmenter, transformant les archives passives en actifs financiers à haut rendement.
d-nvest transforme les actifs de données derrière ces transactions en opportunités évaluées et exploitables.
Explorer le pipeline →