biological aiphysical aifunding rounddata licensing4 luglio 2026

EvolutionaryScale raccoglie 142 milioni di dollari per l'IA sui dati biologici

Ex ricercatori Meta lanciano ESM3, un modello all'avanguardia addestrato su 2,7 miliardi di sequenze proteiche per programmare la biologia.

EvolutionaryScale ha chiuso un round di finanziamento seed da 142 milioni di dollari (https://www.evolutionaryscale.ai/blog/esm3-release) guidato da Nat Friedman, Daniel Gross e Lux Capital per commercializzare modelli di IA all'avanguardia per dati biologici. L'iniezione di capitale segna una delle più grandi fasi seed nella storia dell'IA focalizzata sulla biotecnologia, segnalando un aggressivo appetito di mercato per la "Physical AI"—sistemi in grado di comprendere e manipolare i mattoni fondamentali del mondo fisico. Al centro dell'accordo c'è il rilascio di ESM3, un modello generativo addestrato su un set di dati proprietario e pubblico che copre 2,7 miliardi di sequenze proteiche (https://www.evolutionaryscale.ai/blog/esm3-release), che consente ai ricercatori di "programmare" efficacemente la biologia simulando miliardi di anni di evoluzione in un ambiente digitale.

Il Vantaggio Multi-Modale negli Asset di Dati Biologici

A differenza delle precedenti iterazioni dei modelli linguistici proteici, ESM3 è un modello all'avanguardia multi-modale. Non si limita a prevedere la struttura; ragiona simultaneamente su sequenza, struttura e funzione. Elaborando un set di dati di 2,7 miliardi di sequenze e le loro corrispondenti strutture 3D (https://www.evolutionaryscale.ai/blog/esm3-release), il modello può generare proteine completamente nuove che non esistono in natura. Questa capacità trasforma i dati biologici da un registro passivo dell'evoluzione in un asset attivo per la scoperta di farmaci, la cattura del carbonio e la scienza dei materiali. L'azienda, fondata dal team dietro il progetto ESM di Meta, si posiziona come "l'OpenAI della biologia", offrendo una versione del modello alla comunità scientifica pur mantenendo versioni ad alta capacità per partnership commerciali.

Physical AI e il Cambiamento nella Monetizzazione dei Dati

L'accordo EvolutionaryScale evidenzia una tendenza più ampia in cui gli asset di dati più preziosi si stanno spostando dal testo generato dall'uomo alle osservazioni del mondo fisico. Mentre gli LLM per il testo affrontano rendimenti decrescenti e ostacoli legali sul copyright, i dati biologici offrono una frontiera vasta e inesplorata. Il modello ESM3 è stato addestrato utilizzando circa 1,0 x 10^24 FLOPS di potenza di calcolo (https://www.evolutionaryscale.ai/blog/esm3-release), una scala precedentemente riservata ai modelli general-purpose di alto livello. Questo investimento sottolinea l'alto costo—e l'alto potenziale di ritorno—dell'addestramento di modelli su dati fisici specializzati e ad alta fedeltà. Man mano che la physical AI matura, si prevede che la licenza di dati biologici, chimici e robotici strutturati supererà i dati generalizzati estratti dal web in termini di valore per token.

Il Panorama Competitivo: Data Moats nelle Scienze della Vita

EvolutionaryScale entra in un mercato attualmente dominato da AlphaFold 3 di DeepMind, ma con un focus distinto sulla progettazione generativa piuttosto che sulla sola previsione strutturale. Il fossato competitivo in questo settore si sta spostando dall'architettura del modello verso la scala e la qualità del corpus di addestramento. Open-sourcing i pesi per una versione da 1,4 miliardi di parametri di ESM3, l'azienda sta tentando di stabilire lo standard del settore per la rappresentazione dei dati biologici. Nel frattempo, altri attori dell'ecosistema stanno assicurando le proprie pipeline di dati; ad esempio, Poolside sarebbe in trattative per raccogliere circa 500 milioni di dollari, secondo Bloomberg, per applicare principi simili di modelli fondazionali ai dati di ingegneria del software, illustrando ulteriormente la corsa a dominare specifici domini di dati verticali.

Regolamentazione e Legalità dell'Acquisizione Dati

Man mano che questi modelli scalano, il quadro giuridico su come vengono acquisiti i dati rimane un punto di svolta critico per gli investitori. In una sentenza significativa per l'industria dei dati, un tribunale statunitense si è recentemente pronunciato a favore di Bright Data nella sua lunga battaglia legale con Meta (https://brightdata.com/blog/court-rules-in-favor-of-bright-data), affermando che lo scraping di dati pubblici non viola il Computer Fraud and Abuse Act (CFAA) né infrange contratti quando i dati non sono protetti da login. Questa sentenza fornisce uno scudo legale vitale per le aziende di IA come EvolutionaryScale che si affidano alla raccolta su larga scala di database scientifici pubblici per aumentare i propri set di addestramento proprietari. Tuttavia, la pressione normativa sta aumentando altrove; la Commissione Europea ha recentemente informato Apple della sua opinione preliminare che le sue regole sull'App Store violano il Digital Markets Act (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433), un promemoria che i gatekeeper dei dati sono sotto crescente scrutinio riguardo a come controllano l'accesso ai dati dell'ecosistema.

Innovazioni nell'Infrastruttura e nella Licenza

Anche l'infrastruttura necessaria per elaborare questi set di dati biologici si sta evolvendo. Etched ha recentemente annunciato un round Series A da 120 milioni di dollari (https://www.etched.com/announcing-etched) per costruire chip specializzati per modelli transformer, con l'obiettivo di fornire l'efficienza computazionale necessaria per la prossima generazione di physical AI ad alta intensità di dati. Sul fronte delle licenze, Perplexity AI ha lanciato un nuovo "Publishers Program" (https://www.perplexity.ai/hub/blog/perplexity-publishers-program) per creare un modello di condivisione dei ricavi con i proprietari dei dati, tra cui Time e Der Spiegel. Questa mossa rappresenta una maturazione del mercato dati-per-IA, allontanandosi dallo scraping non autorizzato verso accordi di licenza strutturati e pluriennali che forniscono alle aziende di IA pipeline di dati stabili e di alta qualità, compensando al contempo i creatori originali.

Perché è importante per i proprietari di dati

Per i proprietari di dati, l'accordo EvolutionaryScale dimostra che set di dati altamente specializzati e non testuali—come sequenze genomiche o strutture proteiche—sono ora tra gli asset più preziosi nell'economia dell'IA. Man mano che i modelli fondazionali si spostano nelle scienze fisiche, la capacità di fornire dati puliti, strutturati ed eticamente acquisiti per la "Physical AI" richiederà tariffe di licenza premium. I proprietari di dati dovrebbero concentrarsi sull'audit dei propri set di dati proprietari per il loro potenziale generativo, poiché il mercato si sta rapidamente spostando dalla semplice archiviazione dei dati alla licenza attiva di asset per l'addestramento e il fine-tuning dei modelli.

d-nvest trasforma gli asset di dati dietro queste operazioni in opportunità valutate e attuabili.

Esplora la pipeline →