EvolutionaryScale raccoglie 142 milioni di dollari per addestrare l'IA su 2,8 miliardi di sequenze proteiche
Guidata da Lux Capital, la startup di IA biologica si rivolge al mercato della scoperta di farmaci con dataset genomici proprietari.
EvolutionaryScale ha finalizzato un round di finanziamento seed da 142 milioni di dollari (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/) per commercializzare ESM3, un modello di IA generativa addestrato su un corpus massiccio di 2,78 miliardi di sequenze proteiche (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/). Il round, guidato da Lux Capital, Nat Friedman e Daniel Gross, con la partecipazione di Amazon e NVentures (il braccio venture di Nvidia), segnala un cambiamento decisivo nel mercato degli asset di dati: la transizione da LLM generici a modelli di dati biologici specializzati e ad alta fedeltà. ESM3 rappresenta una delle più grandi applicazioni di dati scientifici nell'era dell'IA, vantando 98 miliardi di parametri (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/) e la capacità di simulare 500 milioni di anni di evoluzione per progettare nuove proteine.
La frontiera dei dati biologici
A differenza dei dataset ricchi di testo che hanno alimentato la prima ondata di IA generativa, la proposta di valore di EvolutionaryScale è costruita interamente sulla curatela e l'elaborazione di dati genomici e proteomici. Addestrando su miliardi di sequenze, l'azienda sta effettivamente creando uno strato di "biologia programmabile". Questa mossa sottolinea il premio ora posto sui dati scientifici strutturati, che sono molto più scarsi e difficili da ingerire rispetto al testo pubblico del web. Il coinvolgimento di Amazon e Nvidia (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/) suggerisce che i fornitori di infrastrutture sono desiderosi di assicurarsi una posizione nella pipeline dei dati biologici, che dovrebbe rivoluzionare il settore della R&S farmaceutica da 1 trilione di dollari.
Acquisizione strategica di dati da parte di OpenAI
La ricerca dell'efficienza dei dati non si limita alla biologia. OpenAI ha recentemente annunciato l'acquisizione di Rockset (https://openai.com/index/openai-to-acquire-rockset/), un'azienda di database per la ricerca e l'analisi in tempo reale. Questa acquisizione è una chiara mossa tattica per potenziare le capacità di recupero aumentato (RAG) di OpenAI. Integrando la tecnologia di Rockset, OpenAI può indicizzare e interrogare in modo più efficace i massicci dataset forniti dai suoi partner aziendali, trasformando i repository di dati statici in intelligence dinamica e attuabile. Questo accordo evidenzia la crescente importanza dell'interfaccia "dati-modello" – lo strato software che determina l'efficienza con cui un'IA può accedere e ragionare sui beni aziendali proprietari.
La corsa ai dati clinici
Sottolineando ulteriormente il valore dei dati specializzati, HEALWELL AI è entrata in un accordo definitivo per acquisire BioPharma Services (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html) per circa 11,5 milioni di dollari (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html). BioPharma Services è un'organizzazione di ricerca a contratto (CRO) a servizio completo che possiede profondi asset di dati di studi clinici. Per HEALWELL, questa non è solo un'espansione dei servizi, ma un'acquisizione strategica di una pipeline di dati. L'accesso a dati clinici di alta qualità è il principale collo di bottiglia per la scoperta di farmaci guidata dall'IA e la medicina personalizzata, e l'acquisizione di una CRO fornisce una fonte diretta e proprietaria della "ground truth" necessaria per addestrare modelli diagnostici e terapeutici.
Muri normativi e portabilità dei dati
Man mano che il valore degli asset di dati aumenta, i regolatori si muovono per garantire che questo valore non sia bloccato dietro i "giardini recintati" delle Big Tech. La Commissione Europea ha recentemente emesso riscontri preliminari secondo cui Apple è in violazione del Digital Markets Act (DMA) (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433). L'attenzione dell'indagine include le regole di indirizzamento di Apple, che impediscono agli sviluppatori di indirizzare liberamente i consumatori verso offerte e ecosistemi di dati alternativi. Questa pressione normativa fa parte di una tendenza globale più ampia volta a imporre la portabilità e l'interoperabilità dei dati. Per gli investitori di dati, queste sentenze sono critiche: segnalano un futuro in cui il controllo sui dati degli utenti e la capacità di monetizzarli tramite licenze secondarie saranno soggetti a un'intensa scrutinio antitrust.
Perché è importante per i proprietari di dati
Gli accordi EvolutionaryScale e Healwell dimostrano che gli asset di dati più redditizi non si trovano più nel "web aperto", ma in domini specializzati e ad alto fossato come la genomica e la medicina clinica. Per i proprietari di dati, la lezione è chiara: il mercato si sta allontanando dalle licenze di dati in blocco verso dataset strutturati ad alta precisione che possono essere direttamente ingeriti da architetture IA specializzate. Che si tratti di sequenze proteiche o di dati aziendali in tempo reale, il valore risiede nell'unica capacità del dato di risolvere problemi specifici e di alto valore che i modelli generici non possono affrontare. Le strategie di monetizzazione dovrebbero concentrarsi sulla pulizia dei dati, sulla conformità normativa e sulla capacità di integrarsi con le più recenti architetture RAG e generative.
d-nvest trasforma gli asset di dati dietro queste operazioni in opportunità valutate e attuabili.
Esplora la pipeline →