licensingai fundingdata acquisitionregulationworld models2 juli 2026

OpenAI sluit datalicentieovereenkomst van $250 miljoen met News Corp

Het vijfjarige contract verzekert premium journalistieke archieven van WSJ en Barron’s voor AI-training en -inferentie.

OpenAI heeft een baanbrekende contentlicentieovereenkomst geformaliseerd met News Corp, een deal die naar schatting meer dan $250 miljoen (https://www.wsj.com/business/media/openai-news-corp-deal-250-million-4d642b5d) bedraagt over een periode van vijf jaar. Dit bekendgemaakte partnerschap geeft de door Microsoft gesteunde AI-gigant toegang tot actuele en gearchiveerde content van grote publicaties, waaronder The Wall Street Journal, Barron’s, MarketWatch en The Times, waardoor premium journalistieke output effectief wordt omgezet in een hoogwaardige trainingsstroom voor zijn volgende generatie wereldmodellen. De stap signaleert een strategische draai van OpenAI om zijn datapijplijn te beschermen tegen de groeiende juridische en ethische risico's die gepaard gaan met ongeautoriseerde web scraping.

De Strategische Waarde van Premium Tekstuele Activa

De overeenkomst is niet louter een defensieve juridische manoeuvre; het is een berekende gok op de superieure prestaties van samengestelde, hoog-autoritaire datasets. Nu grensmodellen de grenzen van publiek beschikbare internetdata naderen, betreedt de sector een fase van "datashaarste" waarin de kwaliteit van tokens belangrijker is dan het ruwe volume. Door het archief van News Corp veilig te stellen, krijgt OpenAI toegang tot decennia aan gestructureerde, feitelijk geverifieerde en contextueel rijke menselijke redeneringen. Dit is cruciaal voor het verbeteren van de feitelijke nauwkeurigheid en redeneervermogens van modellen zoals GPT-5, die bedoeld zijn om te functioneren als betrouwbaardere agenten in professionele en financiële omgevingen. De deal is zo gestructureerd dat OpenAI het recht krijgt om content weer te geven als reactie op gebruikersvragen, waardoor de grens tussen zoekmachines en generatieve AI-interfaces verder vervaagt.

Scale AI en de $1 miljard Infrastructuur van Data-Overvloed

De institutionele drang naar hoogwaardige data wordt verder onderstreept door de recent gesloten Series F financieringsronde van Scale AI van $1 miljard (https://techcrunch.com/2024/05/21/scale-ai-raises-1-billion-at-a-13-8-billion-valuation/), die het bedrijf waardeerde op $13,8 miljard (https://www.reuters.com/technology/scale-ai-raises-1-billion-valuation-doubles-138-billion-2024-05-21/). Scale AI fungeert als de cruciale tussenpersoon in de data-activa-economie en levert de mens-in-de-lus (HITL) labeling en RLHF (Reinforcement Learning from Human Feedback) die nodig zijn om ruwe data – zoals de archieven van News Corp – om te zetten in machine-klare trainingssets. Deze financieringsronde, geleid door Accel met deelname van staatsinvesteringsfondsen, onderstreept dat de fysieke en menselijke infrastructuur die nodig is om data te verwerken, nu net zo waardevol is als de rekenkracht zelf. Naarmate wereldmodellen evolueren om multimodale inputs – video, audio en sensordata – te verwerken, neemt de complexiteit van het labelen van deze activa exponentieel toe, wat een enorme voorsprong creëert voor degenen die de datatoeleveringsketen beheersen.

DeepL en de Opkomst van Gespecialiseerde Data-Voorsprongen

Terwijl algemene modellen vechten om nieuwsarchieven, bewijzen gespecialiseerde AI-bedrijven de waarde van niche data-activa. DeepL, de Duitse specialist in vertaal-AI, heeft onlangs $300 miljoen (https://www.reuters.com/technology/ai-startup-deepl-valued-2-billion-after-latest-funding-round-2024-05-22/) aan investeringen binnengehaald tegen een waardering van $2 miljard (https://techcrunch.com/2024/05/22/deepl-the-ai-translation-startup-is-now-valued-at-2b/). Het succes van DeepL is gebaseerd op een eigen dataset van hoogwaardige vertalingen die grotere modellen, getraind op ruisigere data, overtreft. Dit bevestigt een groeiende trend in de d-nvest intelligentieruimte: data-eigenaren die unieke, branchespecifieke datasets bezitten (juridisch, medisch of linguïstisch) zien hun activawaarderingen stijgen, aangezien algemene AI-bedrijven gespecialiseerde "kennis-voorsprongen" willen verwerven om hun aanbod te differentiëren.

Regelgevende Randvoorwaarden: De EU AI Act Afgerond

De markt voor data-deals opereert nu onder een nieuwe wereldwijde standaard. De Europese Raad heeft officieel zijn definitieve goedkeuring (https://www.consilium.europa.eu/en/press/press-releases/2024/05/21/artificial-intelligence-ai-act-council-gives-final-green-light-to-the-first-worldwide-rules-on-ai/) gegeven aan de EU AI Act, het eerste uitgebreide kader voor kunstmatige intelligentie ter wereld. De verordening introduceert strikte transparantievereisten voor algemene AI-modellen, waaronder de verplichting om gedetailleerde samenvattingen te verstrekken van de data die voor training is gebruikt. Deze regelgevende duidelijkheid zal naar verwachting de trend van formele licentieovereenkomsten versnellen, aangezien bedrijven "hoog-risico"-classificaties en mogelijke boetes willen vermijden die gepaard gaan met niet-conforme data-acquisitie. Voor data-investeerders transformeert de EU AI Act data-herkomst van een juridische voetnoot naar een primaire waarderingsdriver.

Waarom het ertoe doet voor data-eigenaren

Voor eigenaren van hoogwaardige, gestructureerde data-activa is de deal tussen OpenAI en News Corp een keerpunt dat een duidelijke marktprijs voor premium content vaststelt. We bewegen van een tijdperk van data-exploitatie naar een tijdperk van datamonetisatie. Nu AI-ontwikkelaars hun focus verleggen naar "World Models" die diep contextueel begrip en feitelijke onderbouwing vereisen, verschuift de macht terug naar de contentmakers. Data-eigenaren zouden hun archieven niet langer moeten beschouwen als historische documenten, maar als hoogrentende liquide activa die herhaaldelijk kunnen worden gelicentieerd voor verschillende AI-verticals. De sleutel tot het maximaliseren van waarde ligt in data-gereedheid: zorgen dat archieven gedigitaliseerd, rijk aan metadata en juridisch goedgekeurd zijn voor AI-training.

d-nvest zet de data-activa achter deze deals om in gescoorde, bruikbare kansen.

Verken de pijplijn →