biological aiphysical aifunding rounddata licensing4 de julio de 2026

EvolutionaryScale asegura $142M para IA de Datos Biológicos

Exinvestigadores de Meta lanzan ESM3, un modelo de vanguardia entrenado con 2.7 mil millones de secuencias de proteínas para programar la biología.

EvolutionaryScale ha cerrado una ronda de financiación semilla revelada de $142 millones (https://www.evolutionaryscale.ai/blog/esm3-release) liderada por Nat Friedman, Daniel Gross y Lux Capital para comercializar modelos de IA de vanguardia para datos biológicos. La inyección de capital marca una de las rondas semilla más grandes en la historia de la IA centrada en biotecnología, señalando un apetito agresivo del mercado por la "IA Física", sistemas capaces de comprender y manipular los bloques de construcción del mundo físico. En el centro del acuerdo se encuentra el lanzamiento de ESM3, un modelo generativo entrenado con un conjunto de datos propietario y público que abarca 2.7 mil millones de secuencias de proteínas (https://www.evolutionaryscale.ai/blog/esm3-release), lo que permite a los investigadores "programar" eficazmente la biología simulando miles de millones de años de evolución en un entorno digital.

La Ventaja Multimodal en Activos de Datos Biológicos

A diferencia de las iteraciones anteriores de modelos de lenguaje de proteínas, ESM3 es un modelo de vanguardia multimodal. No se limita a predecir la estructura; razona simultáneamente sobre secuencia, estructura y función. Al procesar un conjunto de datos de 2.7 mil millones de secuencias y sus estructuras 3D correspondientes (https://www.evolutionaryscale.ai/blog/esm3-release), el modelo puede generar proteínas completamente nuevas que no existen en la naturaleza. Esta capacidad transforma los datos biológicos de un registro pasivo de la evolución a un activo activo para el descubrimiento de fármacos, la captura de carbono y la ciencia de materiales. La empresa, fundada por el equipo detrás del proyecto ESM de Meta, se posiciona como el "OpenAI de la biología", ofreciendo una versión del modelo a la comunidad científica mientras retiene versiones de alta capacidad para asociaciones comerciales.

IA Física y el Cambio en la Monetización de Datos

El acuerdo de EvolutionaryScale destaca una tendencia más amplia en la que los activos de datos más valiosos están migrando del texto generado por humanos a las observaciones del mundo físico. Mientras que los LLM para texto enfrentan rendimientos decrecientes y obstáculos legales sobre derechos de autor, los datos biológicos ofrecen una frontera vasta e inexplorada. El modelo ESM3 fue entrenado utilizando aproximadamente 1.0 x 10^24 FLOPS de potencia de cómputo (https://www.evolutionaryscale.ai/blog/esm3-release), una escala previamente reservada para modelos de propósito general de primer nivel. Esta inversión subraya el alto costo, y el alto retorno potencial, del entrenamiento de modelos en datos físicos especializados y de alta fidelidad. A medida que la IA física madura, se espera que la concesión de licencias de conjuntos de datos estructurados biológicos, químicos y robóticos supere a los datos rastreados de la web en general en términos de valor por token.

El Paisaje Competitivo: "Data Moats" en Ciencias de la Vida

EvolutionaryScale entra en un mercado actualmente dominado por AlphaFold 3 de DeepMind, pero con un enfoque distinto en el diseño generativo en lugar de solo la predicción estructural. El "data moat" competitivo en este sector se está alejando de la arquitectura del modelo hacia la escala y calidad del corpus de entrenamiento. Al hacer de código abierto los pesos para una versión de 1.4 mil millones de parámetros de ESM3, la empresa intenta establecer el estándar de la industria para la representación de datos biológicos. Mientras tanto, otros actores del ecosistema están asegurando sus propias tuberías de datos; por ejemplo, Poolside está en conversaciones para recaudar aproximadamente $500 millones, según Bloomberg, para aplicar principios de modelos fundacionales similares a datos de ingeniería de software, lo que ilustra aún más la prisa por dominar dominios de datos verticales específicos.

Regulación y Legalidad de la Adquisición de Datos

A medida que estos modelos escalan, el marco legal sobre cómo se adquieren los datos sigue siendo un punto de pivote crítico para los inversores. En una decisión significativa para la industria de datos, un tribunal de EE. UU. falló recientemente a favor de Bright Data en su larga batalla legal con Meta (https://brightdata.com/blog/court-rules-in-favor-of-bright-data), afirmando que el scraping de datos públicos no viola la Ley de Fraude y Abuso Informático (CFAA) ni incumple contratos cuando los datos no están detrás de un inicio de sesión. Esta decisión proporciona un escudo legal vital para empresas de IA como EvolutionaryScale que dependen de la recolección a gran escala de bases de datos científicas públicas para aumentar sus conjuntos de entrenamiento propietarios. Sin embargo, la presión regulatoria está aumentando en otros lugares; la Comisión Europea informó recientemente a Apple de su opinión preliminar de que las reglas de su App Store infringen la Ley de Mercados Digitales (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433), un recordatorio de que los guardianes de datos están bajo un escrutinio creciente sobre cómo controlan el acceso a los datos del ecosistema.

Infraestructura e Innovaciones de Licenciamiento

La infraestructura necesaria para procesar estos conjuntos de datos biológicos también está evolucionando. Etched anunció recientemente una Serie A revelada de $120 millones (https://www.etched.com/announcing-etched) para construir chips especializados para modelos transformer, con el objetivo de proporcionar la eficiencia de cómputo necesaria para la próxima generación de IA física intensiva en datos. En cuanto al licenciamiento, Perplexity AI ha lanzado un nuevo "Programa de Editores" (https://www.perplexity.ai/hub/blog/perplexity-publishers-program) para crear un modelo de reparto de ingresos con propietarios de datos, incluyendo Time y Der Spiegel. Este movimiento representa una maduración del mercado de datos para IA, alejándose del scraping no autorizado hacia acuerdos de licenciamiento estructurados y multianuales que proporcionan a las empresas de IA tuberías de datos estables y de alta calidad, al tiempo que compensan a los creadores originales.

Por qué importa para los propietarios de datos

Para los propietarios de datos, el acuerdo de EvolutionaryScale demuestra que los conjuntos de datos altamente especializados y no textuales, como secuencias genómicas o estructuras de proteínas, se encuentran ahora entre los activos más valiosos en la economía de la IA. A medida que los modelos fundacionales se adentran en las ciencias físicas, la capacidad de proporcionar datos limpios, estructurados y obtenidos éticamente para la "IA Física" comandará tarifas de licenciamiento premium. Los propietarios de datos deben centrarse en auditar sus conjuntos de datos propietarios para su potencial generativo, ya que el mercado está cambiando rápidamente del simple almacenamiento de datos a la concesión activa de licencias de activos para el entrenamiento y ajuste fino de modelos.

d-nvest convierte los activos de datos detrás de estos acuerdos en oportunidades puntuadas y accionables.

Explorar el pipeline →