EvolutionaryScale Asegura $142M para "Modelos del Mundo" Biológicos
Nvidia y Amazon respaldan una ronda semilla de $142M para entrenar el modelo ESM3 en un conjunto de datos de 278 millones de proteínas.
EvolutionaryScale ha cerrado una ronda de financiación semilla de 142 millones de dólares (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai-model/) para acelerar el desarrollo de "modelos del mundo" de IA capaces de simular e ingeniar sistemas biológicos. La ronda, liderada por Lux Capital, Nat Friedman y Daniel Gross, con la participación de Nvidia y Amazon, posiciona a la startup a la vanguardia de la carrera armamentista de "datos para la biología". El capital está destinado al refinamiento de ESM3, un modelo de lenguaje de vanguardia para biología que cuenta con 98 mil millones de parámetros (https://www.evolutionaryscale.ai/blog/esm3-release) y fue entrenado con un conjunto de datos masivo de 278 millones de proteínas (https://www.evolutionaryscale.ai/blog/esm3-release).
El Auge de los Modelos del Mundo Biológicos
A diferencia de la IA generativa tradicional que se enfoca en texto o píxeles, EvolutionaryScale está construyendo lo que los investigadores llaman un "modelo del mundo" para las ciencias de la vida. Al tratar el código genético como un lenguaje, el modelo ESM3 ha demostrado la capacidad de generar proteínas fluorescentes completamente nuevas que se desvían significativamente de las encontradas en la naturaleza, simulando efectivamente 500 millones de años de evolución (https://www.evolutionaryscale.ai/blog/esm3-release) en un entorno digital. Esta capacidad señala un cambio en el mercado de activos de datos, donde los conjuntos de datos más valiosos ya no son solo texto extraído de la web, sino secuencias biológicas altamente especializadas y estructuradas que pueden usarse para "programar" la materia.
El Giro de la Licencia de Datos: De Uso Justo a Activos de Pago
La ronda de EvolutionaryScale coincide con un cambio de mercado más amplio hacia la licencia de datos de alta integridad. Mientras los datos biológicos se tokenizan para el descubrimiento de fármacos, los gigantes de los medios aseguran sus propios archivos. OpenAI firmó recientemente un acuerdo de licencia de contenido multianual (https://time.com/6992661/time-openai-partnership/) con Time Magazine, otorgando al laboratorio de IA acceso a más de 100 años de archivos periodísticos. Si bien los términos financieros permanecen no revelados (https://www.reuters.com/technology/openai-time-strike-multi-year-content-licensing-deal-2024-06-27/), el acuerdo sigue el punto de referencia revelado de 250 millones de dólares (https://www.reuters.com/technology/news-corp-signs-multi-year-ai-content-deal-with-openai-2024-05-22/) establecido por el acuerdo de News Corp. De manera similar, YouTube está negociando, según se informa (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) con importantes sellos discográficos, incluidos Sony y Universal, para ofrecer sumas globales estimadas de varios millones de dólares (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) para el acceso legal a catálogos musicales para el entrenamiento de IA.
Vientos en Contra Regulatorios y Procedencia de Datos
A medida que el valor de los datos de entrenamiento se dispara, los reguladores y creadores se oponen al uso no autorizado. Figma desactivó recientemente su función de IA "Make Design" (https://www.theverge.com/2024/7/1/24189917/figma-disables-ai-design-tool-apple-weather-app-copying) tras las acusaciones de que fue entrenada con diseños de aplicaciones existentes, lo que pone de relieve los riesgos legales de las tuberías de datos opacas. Además, la inversión reportada de SoftBank de 10 a 20 millones de dólares (https://www.bloomberg.com/news/articles/2024-06-27/softbank-to-invest-in-search-startup-perplexity-ai/) en Perplexity AI se produce en medio de una avalancha de avisos de infracción de derechos de autor de editores, lo que sugiere que incluso las startups de IA de alto crecimiento ahora deben presupuestar fuertemente para el cumplimiento de datos y la resolución de disputas. Esta tendencia se ve aún más evidenciada por la ronda de financiación estimada de 100 millones de dólares de Harvey (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/), que valora al especialista en datos legales en un estimado de 1.500 millones de dólares (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/), una prima impulsada por su acceso a conjuntos de datos legales patentados y de alto riesgo.
Por qué importa para los propietarios de datos
El acuerdo de EvolutionaryScale demuestra que la frontera más lucrativa para la monetización de datos está cambiando del contenido web general a los "modelos del mundo específicos de dominio". Para los propietarios de datos en biología, derecho y música, el mercado ha ido más allá de la simple licencia a un modelo de asociación estratégica donde los datos son el catalizador principal para avances científicos y creativos. A medida que los laboratorios de IA como OpenAI y Anthropic agotan los datos públicos de la web, la prima por conjuntos de datos limpios, patentados y legalmente autorizados continuará aumentando, transformando archivos pasivos en activos financieros de alto rendimiento.
d-nvest convierte los activos de datos detrás de estos acuerdos en oportunidades puntuadas y accionables.
Explorar el pipeline →