biological dataai fundingdata licensingdefense airegulation1 de julio de 2026

EvolutionaryScale asegura $142M para escalar modelos de datos biológicos

La startup cierra una ronda semilla para construir IA generativa utilizando un conjunto de datos de 2.78 mil millones de secuencias de proteínas.

EvolutionaryScale ha cerrado una ronda de financiación semilla de $142 millones (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biology-ai/) para acelerar el desarrollo de modelos de IA generativa entrenados en conjuntos de datos biológicos masivos. La ronda, liderada por Nat Friedman, Daniel Gross y Lux Capital, posiciona a la empresa para tratar la biología como un activo de datos programable, aprovechando su nuevo modelo ESM3 que fue entrenado en un conjunto de datos de 2.78 mil millones de secuencias de proteínas (https://www.evolutionaryscale.ai/blog/esm3-release). Este hito subraya el creciente valor de los datos no textuales y específicos de dominio en la carrera por las capacidades de IA de vanguardia.

El Auge de los Activos de Datos Biológicos

A diferencia de los LLM de propósito general que rastrean la web pública, la propuesta de valor de EvolutionaryScale se basa en la curación y el procesamiento de información biológica especializada. El modelo ESM3 es un modelo generativo multimodal que puede razonar sobre la secuencia, estructura y función de las proteínas. Al procesar billones de puntos de datos (https://www.evolutionaryscale.ai/blog/esm3-release) del mundo natural, la startup tiene como objetivo permitir a los investigadores "programar" nuevas proteínas, acortando potencialmente los plazos de descubrimiento de fármacos de años a semanas. Este enfoque de "ChatGPT para biología" resalta una tendencia de mercado más amplia: la monetización de conjuntos de datos científicos propietarios y de alta fidelidad que no pueden ser replicados fácilmente por rastreadores genéricos.

Licenciamiento vs. Litigio: La Batalla por los Derechos de Datos

La financiación de startups intensivas en datos como EvolutionaryScale se produce en un momento en que el panorama legal para la adquisición de datos está llegando a un punto crítico. OpenAI y Time Magazine finalizaron recientemente un acuerdo de licencia de contenido multianual (https://openai.com/index/openai-and-time-sign-multi-year-content-partnership-and-strategic-alliance/), otorgando a OpenAI acceso al archivo de 101 años de antigüedad de Time. Si bien los términos financieros exactos no se divulgaron, los analistas de la industria señalan el acuerdo estimado de $250 millones de News Corp con OpenAI (https://www.reuters.com/technology/news-corp-strikes-ai-content-licensing-deal-with-openai-2024-05-22/) como un punto de referencia para la prima que ahora se otorga al periodismo humano verificado.

Por el contrario, el costo de la adquisición de datos sin licencia se está volviendo prohibitivamente alto. La RIAA, que representa a sellos importantes como Sony y Universal, está buscando daños legales de hasta $150,000 por obra (https://www.reuters.com/legal/music-labels-sue-suno-udio-ai-copyright-infringement-2024-06-24/) en una demanda contra las startups de música de IA Suno y Udio. Con cientos de miles de grabaciones supuestamente utilizadas sin permiso, la responsabilidad total podría alcanzar un estimado de $13.5 mil millones (https://www.reuters.com/legal/music-labels-sue-suno-udio-ai-copyright-infringement-2024-06-24/). Esta presión legal está forzando una transición de la defensa de "uso justo" a un mercado de datos estructurado donde cada token de entrenamiento tiene una procedencia y un precio claros.

Entrada de Capital en Infraestructura Intensiva en Datos

La demanda de IA lista para datos también ha desencadenado masivas inversiones en infraestructura. Helsing, una empresa europea de IA de defensa, ha asegurado €450 millones (https://www.reuters.com/technology/defense-ai-startup-helsing-raises-450-mln-euro-funding-round-2024-07-04/) en una ronda Serie C, valorando la empresa en un estimado de €5 mil millones (https://www.bloomberg.com/news/articles/2024-06-17/defense-ai-startup-helsing-is-said-to-near-400-million-funding). Los sistemas de defensa definidos por software de Helsing dependen del procesamiento en tiempo real de datos de sensores del campo de batalla, lo que representa un vertical crítico para la monetización de activos de datos en el sector público. De manera similar, Etched.ai recaudó $120 millones (https://techcrunch.com/2024/06/25/etched-raises-120m-to-build-a-chip-that-only-runs-transformer-models/) para construir chips especializados diseñados específicamente para manejar el rendimiento masivo de datos requerido por los modelos Transformer.

En el espacio de la tecnología legal, la startup Harvey está en conversaciones para recaudar nuevo capital con una valoración estimada de $2 mil millones (https://techcrunch.com/2024/06/25/legal-ai-startup-harvey-is-raising-600m-from-google-at-a-2b-valuation/). El activo principal de Harvey es su acceso y procesamiento de datos legales propietarios, lo que demuestra aún más que el mercado está recompensando a las empresas que controlan el "foso de datos" en lugar de solo el algoritmo.

Por qué importa para los propietarios de datos

Para los propietarios de datos institucionales, los acuerdos de EvolutionaryScale y OpenAI-Time confirman que la era del rastreo de datos gratuito está terminando. Los datos ya no son un subproducto de las operaciones comerciales; son una clase de activo principal. Ya sean secuencias biológicas, archivos históricos o precedentes legales, el mercado ahora ofrece dos caminos distintos: acuerdos de licencia multimillonarios para quienes cooperan y litigios multimillonarios para aquellos cuyos activos son tomados sin consentimiento. A medida que los modelos de IA se vuelven más especializados, el valor de los conjuntos de datos de nicho y de alta integridad continuará superando el valor del contenido genérico rastreado de la web.

d-nvest convierte los activos de datos detrás de estos acuerdos en oportunidades puntuadas y accionables.

Explorar el pipeline →
EvolutionaryScale asegura $142M para escalar modelos de datos biológicos | d-nvest