EvolutionaryScale raccoglie 142 milioni di dollari per "World Models" biologici
Nvidia e Amazon supportano un round seed da 142 milioni di dollari per addestrare il modello ESM3 su un dataset di 278 milioni di proteine.
EvolutionaryScale ha chiuso un round di finanziamento seed da 142 milioni di dollari (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai-model/) per accelerare lo sviluppo di "world models" di intelligenza artificiale capaci di simulare e ingegnerizzare sistemi biologici. Il round, guidato da Lux Capital, Nat Friedman e Daniel Gross, con la partecipazione di Nvidia e Amazon, posiziona la startup all'avanguardia nella corsa agli armamenti "data-for-biology". Il capitale è destinato al perfezionamento di ESM3, un modello linguistico all'avanguardia per la biologia che vanta 98 miliardi di parametri (https://www.evolutionaryscale.ai/blog/esm3-release) ed è stato addestrato su un enorme dataset di 278 milioni di proteine (https://www.evolutionaryscale.ai/blog/esm3-release).
L'ascesa dei modelli del mondo biologico
A differenza dell'IA generativa tradizionale che si concentra su testo o pixel, EvolutionaryScale sta costruendo quello che i ricercatori chiamano un "world model" per le scienze della vita. Trattando il codice genetico come un linguaggio, il modello ESM3 ha dimostrato la capacità di generare proteine fluorescenti completamente nuove che deviano significativamente da quelle trovate in natura, simulando efficacemente 500 milioni di anni di evoluzione (https://www.evolutionaryscale.ai/blog/esm3-release) in un ambiente digitale. Questa capacità segnala un cambiamento nel mercato degli asset di dati, dove i dataset più preziosi non sono più solo testo raschiato dal web, ma sequenze biologiche altamente specializzate e strutturate che possono essere utilizzate per "programmare" la materia.
Il pivot del licensing dei dati: da fair use ad asset a pagamento
Il round di EvolutionaryScale coincide con un più ampio spostamento del mercato verso il licensing di dati ad alta integrità. Mentre i dati biologici vengono tokenizzati per la scoperta di farmaci, i giganti dei media stanno mettendo in sicurezza i propri archivi. OpenAI ha recentemente firmato un accordo di licenza di contenuti pluriennale (https://time.com/6992661/time-openai-partnership/) con Time Magazine, concedendo al laboratorio di IA l'accesso a oltre 100 anni di archivi giornalistici. Sebbene i termini finanziari rimangano non divulgati (https://www.reuters.com/technology/openai-time-strike-multi-year-content-licensing-deal-2024-06-27/), l'accordo segue il benchmark di 250 milioni di dollari (https://www.reuters.com/technology/news-corp-signs-multi-year-ai-content-deal-with-openai-2024-05-22/) stabilito dall'accordo News Corp. Allo stesso modo, YouTube starebbe negoziando (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) con le principali etichette discografiche, tra cui Sony e Universal, per offrire somme forfettarie stimate in milioni di dollari (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) per l'accesso legale ai cataloghi musicali per l'addestramento dell'IA.
Ostacoli normativi e provenienza dei dati
Poiché il valore dei dati di addestramento aumenta vertiginosamente, regolatori e creatori si oppongono all'uso non autorizzato. Figma ha recentemente disabilitato la sua funzionalità AI "Make Design" (https://www.theverge.com/2024/7/1/24189917/figma-disables-ai-design-tool-apple-weather-app-copying) a seguito di accuse secondo cui sarebbe stata addestrata su design di app esistenti, evidenziando i rischi legali delle pipeline di dati opache. Inoltre, l'investimento di SoftBank di 10-20 milioni di dollari (https://www.bloomberg.com/news/articles/2024-06-27/softbank-to-invest-in-search-startup-perplexity-ai/) in Perplexity AI avviene nel mezzo di una raffica di notifiche di violazione del copyright da parte degli editori, suggerendo che anche le startup di IA in rapida crescita devono ora preventivare pesantemente la conformità dei dati e i risarcimenti. Questa tendenza è ulteriormente evidenziata dal round di finanziamento stimato di 100 milioni di dollari di Harvey (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/), che valuta lo specialista di dati legali a circa 1,5 miliardi di dollari (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/), un premio guidato dal suo accesso a dataset legali proprietari e ad alto rischio.
Perché è importante per i proprietari di dati
L'accordo EvolutionaryScale dimostra che la frontiera più redditizia per la monetizzazione dei dati si sta spostando dai contenuti web generali ai "world models" specifici del dominio. Per i proprietari di dati in biologia, legge e musica, il mercato è andato oltre il semplice licensing per un modello di partnership strategica in cui i dati sono il principale catalizzatore di scoperte scientifiche e creative. Poiché i laboratori di IA come OpenAI e Anthropic esauriscono i dati pubblici del web, il premio sui dataset puliti, proprietari e legalmente approvati continuerà a salire, trasformando gli archivi passivi in asset finanziari ad alto rendimento.
d-nvest trasforma gli asset di dati dietro queste operazioni in opportunità valutate e attuabili.
Esplora la pipeline →