OpenAI llega a un acuerdo de licencia de datos por $250M con News Corp
El pacto de cinco años asegura archivos periodísticos premium de WSJ y Barron’s para entrenamiento e inferencia de IA.
OpenAI ha formalizado un acuerdo histórico de licencia de contenido con News Corp, un acuerdo estimado en más de $250 millones (https://www.wsj.com/business/media/openai-news-corp-deal-250-million-4d642b5d) durante un período de cinco años. Esta asociación revelada otorga al gigante de la IA respaldado por Microsoft acceso a contenido actual y de archivo de publicaciones importantes, incluidas The Wall Street Journal, Barron’s, MarketWatch y The Times, convirtiendo efectivamente la producción periodística premium en un flujo de entrenamiento de alta fidelidad para sus modelos mundiales de próxima generación. La medida señala un pivote estratégico de OpenAI para aislar su canal de datos de los crecientes riesgos legales y éticos asociados con el rastreo web no autorizado.
El Valor Estratégico de los Activos Textuales Premium
El acuerdo no es meramente una maniobra legal defensiva; es una apuesta calculada por el rendimiento superior de conjuntos de datos curados y de alta autoridad. A medida que los modelos de vanguardia se acercan a los límites de los datos disponibles públicamente en Internet, la industria está entrando en una fase de "escasez de datos" donde la calidad de los tokens importa más que el volumen bruto. Al asegurar el archivo de News Corp, OpenAI obtiene acceso a décadas de razonamiento humano estructurado, verificado y rico en contexto. Esto es fundamental para mejorar la precisión fáctica y las capacidades de razonamiento de modelos como GPT-5, que tienen como objetivo funcionar como agentes más confiables en entornos profesionales y financieros. El acuerdo está estructurado para proporcionar a OpenAI el derecho de mostrar contenido en respuesta a las consultas de los usuarios, difuminando aún más la línea entre los motores de búsqueda y las interfaces de IA generativa.
Scale AI y la Infraestructura de Abundancia de Datos de $1B
El impulso institucional por datos de alta calidad se evidencia aún más en la reciente ronda de financiación Serie F de Scale AI, que cerró en $1 mil millones (https://techcrunch.com/2024/05/21/scale-ai-raises-1-billion-at-a-13-8-billion-valuation/), valorando a la empresa en $13.8 mil millones (https://www.reuters.com/technology/scale-ai-raises-1-billion-valuation-doubles-138-billion-2024-05-21/). Scale AI sirve como intermediario crítico en la economía de activos de datos, proporcionando el etiquetado con intervención humana (HITL) y el RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) necesarios para convertir datos brutos, como los archivos de News Corp, en conjuntos de entrenamiento listos para máquinas. Esta ronda de financiación, liderada por Accel con la participación de fondos soberanos, subraya que la infraestructura física y humana requerida para procesar datos es ahora tan valiosa como la propia potencia de cálculo. A medida que los modelos mundiales evolucionan para procesar entradas multimodales (video, audio y datos de sensores), la complejidad del etiquetado de estos activos aumenta exponencialmente, creando una barrera de entrada masiva para quienes controlan la cadena de suministro de datos.
DeepL y el Auge de las Barreras de Datos Especializadas
Mientras los modelos de propósito general luchan por los archivos de noticias, las empresas especializadas en IA están demostrando el valor de los activos de datos de nicho. DeepL, el especialista alemán en IA de traducción, recientemente aseguró $300 millones (https://www.reuters.com/technology/ai-startup-deepl-valued-2-billion-after-latest-funding-round-2024-05-22/) en inversión con una valoración de $2 mil millones (https://techcrunch.com/2024/05/22/deepl-the-ai-translation-startup-is-now-valued-at-2b/). El éxito de DeepL se basa en un conjunto de datos propietario de traducciones de alta calidad que supera a modelos más grandes entrenados con datos más ruidosos. Esto confirma una tendencia creciente en el espacio de inteligencia de d-nvest: los propietarios de datos que poseen conjuntos de datos únicos y específicos de la industria (legales, médicos o lingüísticos) ven dispararse la valoración de sus activos a medida que las empresas de IA generalistas buscan adquirir "barreras de conocimiento" especializadas para diferenciar sus ofertas.
Barreras Regulatorias: Finalización de la Ley de IA de la UE
El mercado de acuerdos de datos ahora opera bajo un nuevo estándar global. El Consejo Europeo ha dado oficialmente su aprobación final (https://www.consilium.europa.eu/en/press/press-releases/2024/05/21/artificial-intelligence-ai-act-council-gives-final-green-light-to-the-first-worldwide-rules-on-ai/) a la Ley de IA de la UE, el primer marco integral del mundo para la inteligencia artificial. La regulación introduce estrictos requisitos de transparencia para los modelos de IA de propósito general, incluida la obligación de proporcionar resúmenes detallados de los datos utilizados para el entrenamiento. Se espera que esta claridad regulatoria acelere la tendencia de los acuerdos de licencia formales, ya que las empresas buscan evitar la designación de "alto riesgo" y las posibles multas asociadas con el origen de datos no conforme. Para los inversores en datos, la Ley de IA de la UE transforma la procedencia de los datos de una nota al pie legal a un impulsor de valoración principal.
Por qué importa para los propietarios de datos
Para los propietarios de activos de datos estructurados y de alta calidad, el acuerdo OpenAI-News Corp es un momento decisivo que establece un precio de mercado claro para el contenido premium. Estamos pasando de una era de explotación de datos a una de monetización de datos. A medida que los desarrolladores de IA cambian su enfoque hacia "Modelos Mundiales" que requieren una comprensión contextual profunda y una base fáctica, el poder de negociación regresa a los creadores de contenido. Los propietarios de datos ya no deben ver sus archivos como registros históricos, sino como activos líquidos de alto rendimiento que pueden licenciarse repetidamente en diferentes verticales de IA. La clave para maximizar el valor reside en la preparación de los datos: asegurar que los archivos estén digitalizados, sean ricos en metadatos y estén legalmente autorizados para el entrenamiento de IA.
d-nvest convierte los activos de datos detrás de estos acuerdos en oportunidades puntuadas y accionables.
Explorar el pipeline →