Scale AI haalt $1 miljard op in Series F-ronde om AI-datatoeleveringsketen te verstevigen
Accel leidt een massale financieringsronde van $1 miljard, waarmee de leider in datalabeling wordt gewaardeerd op $13,8 miljard.
Scale AI heeft een financieringsronde van $1 miljard Serie F afgerond, waardoor de waardering is gestegen tot $13,8 miljard, aangezien de wereldwijde vraag naar trainingsdata van hoge kwaliteit een hoogtepunt bereikt. De ronde werd geleid door Accel met significante deelname van de meest agressieve AI-investeerders in de sector, waaronder Nvidia, Amazon en Meta. Deze kapitaalinjectie komt op een cruciaal moment waarop de 'data wall' – het dreigende tekort aan hoogwaardige, door mensen gegenereerde tekst en media – de opschalingswetten die de generatieve AI-boom hebben aangedreven, dreigt te vertragen.
De Industrialisatie van Data Labeling
De nieuwste kapitaalstructuur van Scale AI is specifiek bestemd voor de uitbreiding van zijn Data Engine, de propriëtaire infrastructuur die wordt gebruikt om de ruwe datasets te verfijnen die nodig zijn voor Frontier-modellen. In tegenstelling tot de begindagen van eenvoudige beeldtagging, eist de huidige markt complexe Reinforcement Learning from Human Feedback (RLHF). Scale AI heeft zich gepositioneerd als de essentiële tussenpersoon, die ruwe digitale uitstoot omzet in de gestructureerde, hoog-redenerende tokens die modellen zoals GPT-4 en Claude 3 aandrijven. De betrokkenheid van grote modelbouwers als investeerders suggereert een strategische zet om hun eigen datatoevoerketens tegen concurrenten te beveiligen.
Strategische Licentieverlening en de Real-Time Data Pivot
De Scale AI-ronde maakt deel uit van een bredere structurele verschuiving in hoe data wordt verkregen en gewaardeerd. Nu de sector afstapt van ongeautoriseerde web scraping, worden directe licentieovereenkomsten de norm. Deze verschuiving werd deze week benadrukt door de landmark samenwerking tussen OpenAI en Reddit, die de AI-gigant toegang geeft tot de Data API van Reddit. Door real-time menselijke conversatie te integreren, streeft OpenAI ernaar de relevantie van ChatGPT te verbeteren en tegelijkertijd Reddit te voorzien van AI-gestuurde functies voor zijn gebruikers en moderators. Deze deal weerspiegelt de $60 miljoen jaarlijkse overeenkomst die Google eerder dit jaar met Reddit sloot, waarmee een duidelijke marktprijs voor sociale data met een hoog volume is vastgesteld.
IP-bescherming en de Reglementaire Terugslag
Hoewel sommige platforms zich richten op monetisatie, bouwen anderen defensieve 'moats'. Sony Music Group heeft onlangs een formele waarschuwing uitgegeven aan meer dan 700 technologiebedrijven, waarin expliciet wordt afgezien van ongeautoriseerd gebruik van zijn content voor AI-training. Deze massale inspanning voor intellectuele eigendomsbescherming benadrukt de groeiende wrijving tussen datahongerige AI-ontwikkelaars en de eigenaren van premium creatieve activa. Tegelijkertijd trekken regelgevers de teugels aan voor dataverzamelingspraktijken. Het Britse Information Commissioner's Office (ICO) heeft onlangs zijn richtlijnen voor web scraping bijgewerkt, waarin wordt verduidelijkt dat persoonsgegevens die van het openbare web worden geschraapt voor AI-training, onderworpen blijven aan strikte wetten inzake gegevensbescherming.
Infrastructuur en Gespecialiseerde Datamarkten
Het kapitaal dat naar data vloeit, wordt alleen geëvenaard door de investeringen in de hardware die nodig is om deze te verwerken. CoreWeave heeft onlangs een schuldfaciliteit van $7,5 miljard verkregen, geleid door Blackstone en Magnetar, om zijn AI-gespecialiseerde datacenter-voetafdruk uit te breiden. Aan de softwarekant zien gespecialiseerde datacentrische startups ook aanzienlijke tractie. DeepL, de specialist in taalvertaling, haalde $300 miljoen op bij een waardering van $2 miljard, wat bewijst dat niche, zeer nauwkeurige datasets voor vertaling en zakelijke communicatie zeer waardevol blijven. Bovendien heeft Lamini $25 miljoen opgehaald om bedrijven te helpen modellen te fine-tunen op hun eigen propriëtaire interne data, waardoor de risico's van schaarste aan publieke data worden omzeild.
Waarom het ertoe doet voor data-eigenaren
Voor data-eigenaren bevestigen de waardering van Scale AI en de deal tussen Reddit/OpenAI dat propriëtaire data niet langer een bijproduct is – het is een primaire activaklasse. Nu de 'data wall' nadert, zal de premie voor schone, door mensen geverifieerde en juridisch conforme datasets alleen maar toenemen. Organisaties die grote archieven van gespecialiseerde kennis bezitten, hetzij in sociale media, gezondheidszorg of de creatieve kunsten, hebben nu aanzienlijke hefboomwerking om langetermijnlicentie-inkomstenstromen te onderhandelen in plaats van hun activa te laten commodificeren door generieke webcrawlers.
d-nvest zet de data-activa achter deze deals om in gescoorde, bruikbare kansen.
Verken de pijplijn →