biotechai fundingdrug discoveryclinical dataventure capital25 juin 2026

Formation Bio sécurise 372 millions de dollars en Série D pour la découverte de médicaments basée sur l'IA et les données

Menée par a16z et Sanofi, cette levée de fonds accélère la mission de Formation Bio d'automatiser le développement de médicaments via des données propriétaires.

Formation Bio a clôturé une levée de fonds de 372 millions de dollars en Série D (divulguée) pour faire évoluer sa plateforme d'essais cliniques native à l'IA et accélérer l'acquisition d'actifs de données pharmaceutiques. La levée de fonds a été menée par Andreessen Horowitz (a16z) avec une participation significative du géant mondial de la santé Sanofi, signalant un changement majeur dans la manière dont l'industrie valorise l'intersection des données cliniques propriétaires et de l'IA générative.

L'industrialisation des données biologiques

Contrairement aux organisations de recherche sous contrat (CRO) traditionnelles, Formation Bio opère comme une entreprise pharmaceutique technologique qui construit son propre pipeline en acquérant des médicaments en phase clinique. Le cœur de leur stratégie réside dans leur moteur de données propriétaire, qui utilise l'IA pour automatiser la conception des essais, le recrutement des patients et l'analyse des données. Cette focalisation spécialisée sur les actifs de données biologiques est reflétée par le récent lancement d'EvolutionaryScale, qui a levé 142 millions de dollars (divulgués) pour développer des "LLM biologiques" capables de concevoir de nouvelles protéines. Ces transactions soulignent une tendance de marché plus large où la valeur d'un ensemble de données ne réside plus seulement dans son volume, mais dans sa capacité à générer des résultats biologiques actionnables de haute fidélité.

L'implication de Sanofi est particulièrement stratégique. En intégrant les capacités d'IA de Formation Bio, le géant pharmaceutique vise à réduire les taux d'échec traditionnellement élevés des essais cliniques. Ce partenariat suit un schéma où les grands acteurs investissent massivement dans l'infrastructure de données de leurs perturbateurs pour s'assurer une place à la table de la prochaine génération de découverte de médicaments. Le capital sera spécifiquement utilisé pour acquérir de nouveaux candidats médicaments et affiner davantage les modèles d'IA qui gèrent l'afflux massif de données d'essais.

Moats d'infrastructure et de récupération

La course au contrôle du pipeline de données ne se limite pas à la biotechnologie. Alors que les modèles d'IA deviennent plus commoditisés, l'attention s'est déplacée vers le "moat de données" – les informations propriétaires et l'infrastructure nécessaire pour les traiter en temps réel. Cela a été évident dans la récente acquisition de Rockset (divulguée) par OpenAI, une entreprise de bases de données d'analyse en temps réel. En intégrant la technologie de Rockset en interne, OpenAI renforce ses capacités de génération augmentée par récupération (RAG), permettant à ses modèles d'interagir plus efficacement avec les actifs de données d'entreprise. De même, Apple et Meta auraient discuté d'un partenariat (estimé) pour intégrer les modèles Llama de Meta dans Apple Intelligence, une démarche qui comblerait le fossé entre les poids des modèles de Meta et le vaste écosystème de données utilisateur d'Apple.

Le paysage de l'investissement reste agressif pour ceux qui construisent le matériel fondamental pour traiter ces ensembles de données. Etched a obtenu 120 millions de dollars en financement de Série A (divulgués) pour développer une puce spécialisée, Sohu, conçue spécifiquement pour exécuter des modèles transformeurs. Cette optimisation au niveau matériel est une réponse directe aux exigences de calcul massives des applications d'IA actuelles gourmandes en données.

Le règlement réglementaire pour les données d'entraînement

Cependant, la monétisation rapide des actifs de données est confrontée à un défi juridique important. La Recording Industry Association of America (RIAA), représentant des géants comme Sony et Universal, a intenté des poursuites contre les startups de musique IA Suno et Udio. Les plaignants demandent des dommages et intérêts statutaires allant jusqu'à $150 000 par œuvre contrefaite (exposition juridique estimée), alléguant que les entreprises ont utilisé de la musique protégée par droit d'auteur sans licence pour entraîner leurs modèles. Cette litige représente un moment charnière pour l'économie des données : si les tribunaux statuent que l'entraînement sur des données publiques sans licence n'est pas une "utilisation équitable", le coût des ensembles d'entraînement de haute qualité explosera, modifiant fondamentalement l'économie unitaire du développement de l'IA.

Pourquoi c'est important pour les propriétaires de données

La levée de fonds de Formation Bio et le litige de la RIAA représentent deux faces de la même médaille pour les propriétaires de données. D'une part, les ensembles de données spécialisés et de haute intégrité dans des domaines comme la biologie et la médecine commandent des primes massives et entraînent des levées de fonds de neuf chiffres. D'autre part, l'ère des données d'entraînement "gratuites" touche à sa fin. Pour les propriétaires d'actifs de données, le message est clair : le marché s'oriente vers un modèle formel de licence et d'acquisition. Que vous possédiez des résultats d'essais cliniques, des catalogues musicaux ou des données d'entreprise en temps réel, vos actifs sont désormais le principal goulot d'étranglement – et le principal moteur de valeur – dans la course mondiale à l'IA.

d-nvest transforme les actifs de données derrière ces transactions en opportunités évaluées et exploitables.

Explorer le pipeline →