biological aidata acquisitionfunding roundbiotech dataregulation25 de junio de 2026

EvolutionaryScale asegura $142M para entrenar IA en 2.8 mil millones de secuencias de proteínas

Liderada por Lux Capital, la startup de IA biológica apunta al mercado de descubrimiento de fármacos con conjuntos de datos genómicos propietarios.

EvolutionaryScale ha finalizado una ronda de financiación semilla de $142 millones (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/) para comercializar ESM3, un modelo de IA generativa entrenado en un corpus masivo de 2.78 mil millones de secuencias de proteínas (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/). La ronda, liderada por Lux Capital, Nat Friedman y Daniel Gross, con la participación de Amazon y NVentures (el brazo de capital de riesgo de Nvidia), señala un cambio decisivo en el mercado de activos de datos: la transición de los LLM de propósito general a modelos de datos biológicos especializados y de alta fidelidad. ESM3 representa una de las aplicaciones más grandes de datos científicos en la era de la IA, con 98 mil millones de parámetros (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/) y la capacidad de simular 500 millones de años de evolución para diseñar nuevas proteínas.

La Frontera de los Datos Biológicos

A diferencia de los conjuntos de datos predominantemente textuales que impulsaron la primera ola de IA generativa, la propuesta de valor de EvolutionaryScale se basa completamente en la curación y el procesamiento de datos genómicos y proteómicos. Al entrenar con miles de millones de secuencias, la empresa está creando efectivamente una capa de "biología programable". Este movimiento subraya la prima que se otorga ahora a los datos científicos estructurados, que son mucho más escasos y difíciles de ingerir que el texto público de la web. La participación de Amazon y Nvidia (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/) sugiere que los proveedores de infraestructura están ansiosos por asegurar una posición en el pipeline de datos biológicos, que se espera que revolucione el sector de I+D farmacéutica de $1 billón.

Adquisición Estratégica de Datos por OpenAI

La búsqueda de la eficiencia de los datos no se limita a la biología. OpenAI anunció recientemente su adquisición de Rockset (https://openai.com/index/openai-to-acquire-rockset/), una empresa de bases de datos de búsqueda y análisis en tiempo real. Esta adquisición es un movimiento táctico claro para potenciar las capacidades de generación aumentada por recuperación (RAG) de OpenAI. Al integrar la tecnología de Rockset, OpenAI puede indexar y consultar de manera más efectiva los enormes conjuntos de datos proporcionados por sus socios empresariales, convirtiendo los repositorios de datos estáticos en inteligencia dinámica y procesable. Este acuerdo destaca la creciente importancia de la interfaz "datos a modelo", la capa de software que determina la eficiencia con la que una IA puede acceder y razonar sobre los activos empresariales propietarios.

La "Fiebre del Oro" de los Datos Clínicos

Enfatizando aún más el valor de los datos especializados, HEALWELL AI ha llegado a un acuerdo definitivo para adquirir BioPharma Services (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html) por aproximadamente $11.5 millones (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html). BioPharma Services es una Organización de Investigación por Contrato (CRO) de servicio completo que posee profundos activos de datos de ensayos clínicos. Para HEALWELL, esto no es solo una expansión de servicios, sino una adquisición estratégica de un pipeline de datos. El acceso a datos de ensayos clínicos de alta calidad es el principal cuello de botella para el descubrimiento de fármacos impulsado por IA y la medicina personalizada, y la adquisición de una CRO proporciona una fuente directa y propietaria de los datos de "verdad fundamental" necesarios para entrenar modelos de diagnóstico y terapéuticos.

Muros Regulatorios y Portabilidad de Datos

A medida que el valor de los activos de datos aumenta, los reguladores se mueven para garantizar que este valor no quede bloqueado detrás de los "jardines vallados" de las Big Tech. La Comisión Europea emitió recientemente hallazgos preliminares de que Apple está incumpliendo la Ley de Mercados Digitales (DMA) (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433). El foco de la investigación incluye las reglas de dirección de Apple, que impiden a los desarrolladores dirigir libremente a los consumidores hacia ofertas y ecosistemas de datos alternativos. Esta presión regulatoria es parte de una tendencia global más amplia destinada a hacer cumplir la portabilidad e interoperabilidad de los datos. Para los inversores en datos, estas sentencias son críticas: señalan un futuro en el que el control sobre los datos del usuario y la capacidad de monetizarlos a través de licencias secundarias estarán sujetos a un intenso escrutinio antimonopolio.

Por qué importa para los propietarios de datos

Los acuerdos de EvolutionaryScale y Healwell demuestran que los activos de datos más lucrativos ya no se encuentran en la "web abierta", sino en dominios especializados y de alta barrera de entrada como la genómica y la medicina clínica. Para los propietarios de datos, la lección es clara: el mercado se está alejando de la concesión de licencias de datos masivos hacia conjuntos de datos estructurados de alta precisión que pueden ser ingeridos directamente por arquitecturas de IA especializadas. Ya sean secuencias de proteínas o datos empresariales en tiempo real, el valor reside en la capacidad única de los datos para resolver problemas específicos y de alto valor que los modelos de propósito general no pueden abordar. Las estrategias de monetización deben centrarse en la limpieza de datos, el cumplimiento normativo y la capacidad de integrarse con las últimas arquitecturas RAG y generativas.

d-nvest convierte los activos de datos detrás de estos acuerdos en oportunidades puntuadas y accionables.

Explorar el pipeline →