EvolutionaryScale raccoglie 142 milioni di dollari per scalare i modelli di dati biologici
La startup chiude un round seed per costruire AI generativa utilizzando un dataset di 2,78 miliardi di sequenze proteiche.
EvolutionaryScale ha chiuso un round di finanziamento seed di 142 milioni di dollari (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biology-ai/) per accelerare lo sviluppo di modelli AI generativi addestrati su massicci dataset biologici. Il round, guidato da Nat Friedman, Daniel Gross e Lux Capital, posiziona l'azienda per trattare la biologia come un asset di dati programmabile, sfruttando il suo nuovo modello ESM3 che è stato addestrato su un dataset di 2,78 miliardi di sequenze proteiche (https://www.evolutionaryscale.ai/blog/esm3-release). Questa pietra miliare sottolinea il crescente valore dei dati non testuali e specifici del dominio nella corsa alle capacità AI di frontiera.
L'ascesa degli asset di dati biologici
A differenza degli LLM generici che raschiano il web pubblico, la proposta di valore di EvolutionaryScale si basa sulla cura e sull'elaborazione di informazioni biologiche specializzate. Il modello ESM3 è un modello generativo multimodale in grado di ragionare su sequenza, struttura e funzione delle proteine. Elaborando trilioni di punti dati (https://www.evolutionaryscale.ai/blog/esm3-release) dal mondo naturale, la startup mira a consentire ai ricercatori di "programmare" nuove proteine, potenzialmente riducendo i tempi di scoperta dei farmaci da anni a settimane. Questo approccio "ChatGPT per la biologia" evidenzia una tendenza di mercato più ampia: la monetizzazione di dataset scientifici proprietari e ad alta fedeltà che non possono essere facilmente replicati da crawler generici.
Licensing vs. Contenzioso: La battaglia per i diritti sui dati
Il finanziamento di startup ad alta intensità di dati come EvolutionaryScale arriva mentre il panorama legale per l'acquisizione di dati raggiunge un punto critico. OpenAI e Time Magazine hanno recentemente finalizzato un accordo di partnership e alleanza strategica pluriennale sui contenuti (https://openai.com/index/openai-and-time-sign-multi-year-content-partnership-and-strategic-alliance/), concedendo a OpenAI l'accesso all'archivio di 101 anni di Time. Sebbene i termini finanziari esatti non siano stati divulgati, gli analisti del settore indicano l'accordo stimato di 250 milioni di dollari di OpenAI con News Corp (https://www.reuters.com/technology/news-corp-strikes-ai-content-licensing-deal-with-openai-2024-05-22/) come benchmark per il premio ora posto sul giornalismo umano verificato.
Al contrario, il costo dell'acquisizione di dati senza licenza sta diventando proibitivo. La RIAA, che rappresenta le principali etichette discografiche come Sony e Universal, sta richiedendo danni statutari fino a 150.000 dollari per opera (https://www.reuters.com/legal/music-labels-sue-suno-udio-ai-copyright-infringement-2024-06-24/) in una causa contro le startup di musica AI Suno e Udio. Con centinaia di migliaia di registrazioni presumibilmente utilizzate senza permesso, la responsabilità totale potrebbe raggiungere una stima di 13,5 miliardi di dollari (https://www.reuters.com/legal/music-labels-sue-suno-udio-ai-copyright-infringement-2024-06-24/). Questa pressione legale sta costringendo una transizione dalla difesa del "fair use" a un marketplace di dati strutturato in cui ogni token di addestramento ha una chiara provenienza e un prezzo.
Afflusso di capitali nell'infrastruttura data-intensive
La domanda di AI pronta per i dati ha anche innescato massicci investimenti infrastrutturali. Helsing, un'azienda europea di AI per la difesa, ha raccolto 450 milioni di euro (https://www.reuters.com/technology/defense-ai-startup-helsing-raises-450-mln-euro-funding-round-2024-07-04/) in un round di Serie C, valutando l'azienda a una stima di 5 miliardi di euro (https://www.bloomberg.com/news/articles/2024-06-17/defense-ai-startup-helsing-is-said-to-near-400-million-funding). I sistemi di difesa software-defined di Helsing si basano sull'elaborazione in tempo reale dei dati dei sensori sul campo di battaglia, rappresentando un verticale critico per la monetizzazione degli asset di dati nel settore pubblico. Allo stesso modo, Etched.ai ha raccolto 120 milioni di dollari (https://techcrunch.com/2024/06/25/etched-raises-120m-to-build-a-chip-that-only-runs-transformer-models/) per costruire chip specializzati progettati specificamente per gestire l'enorme throughput di dati richiesto dai modelli Transformer.
Nel settore della legal tech, la startup Harvey è in trattative per raccogliere nuovi capitali a una valutazione stimata di 2 miliardi di dollari (https://techcrunch.com/2024/06/25/legal-ai-startup-harvey-is-raising-600m-from-google-at-a-2b-valuation/). L'asset principale di Harvey è il suo accesso e l'elaborazione di dati legali proprietari, a ulteriore dimostrazione che il mercato sta premiando le aziende che controllano il "data moat" piuttosto che solo l'algoritmo.
Perché è importante per i proprietari di dati
Per i proprietari di dati istituzionali, gli accordi EvolutionaryScale e OpenAI-Time confermano che l'era del data scraping gratuito sta finendo. I dati non sono più un sottoprodotto delle operazioni aziendali; sono una classe di asset primaria. Che si tratti di sequenze biologiche, archivi storici o precedenti legali, il mercato offre ora due percorsi distinti: partnership di licensing multimilionarie per coloro che cooperano e contenziosi multimiliardari per coloro le cui risorse vengono prese senza consenso. Man mano che i modelli AI diventano più specializzati, il valore dei dataset di nicchia e ad alta integrità continuerà a superare il valore dei contenuti generici raschiati dal web.
d-nvest trasforma gli asset di dati dietro queste operazioni in opportunità valutate e attuabili.
Esplora la pipeline →