Poolside AI haalt $400 miljoen op tegen een waardering van $2 miljard voor code-data LLM's
Coatue en Dragoneer leiden massale injectie in het Parijse startup om eigen code-generatie assets op te schalen.
Poolside AI nadert een deal om een geschatte $400 miljoen (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation) op te halen in een nieuwe financieringsronde die het bedrijf op $2 miljard (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation) zou waarderen. De ronde, geleid door Coatue Management en Dragoneer Investment Group (https://techcrunch.com/2024/06/27/poolside-the-latest-genai-startup-to-move-to-france-is-nearing-a-400m-raise-at-a-2b-valuation/), signaleert een massale weddenschap op de gespecialiseerde data die nodig is om Large Language Models (LLM's) van algemene conversatie naar autonome software engineering te brengen. Door haar activiteiten in Parijs te centreren, positioneert Poolside zich in het hart van het Europese AI-talent en data-ecosysteem, specifiek gericht op de propriëtaire codebases en ontwikkelaarsworkflows die de volgende grens van productiviteitstools definiëren.
De gespecialiseerde data-moat: voorbij algemene LLM's
De kapitaalinjectie in Poolside AI benadrukt een bredere marktverschuiving naar domeinspecifieke data-assets. Terwijl algemene modellen een plateau van nut hebben bereikt, eisen startups die zich richten op gespecialiseerde datasets met hoge betrouwbaarheid premium waarderingen op. De strategie van Poolside draait om het trainen van modellen op massale, gestructureerde code-repositories, die aanzienlijk hogere precisie vereisen dan standaard tekstgebaseerde datasets. Deze trend wordt weerspiegeld in de biologische sector, waar EvolutionaryScale onlangs een seed-ronde van $142 miljoen (https://www.reuters.com/technology/ai/ai-biology-startup-evolutionaryscale-raises-142-million-2024-06-25/) bekendmaakte om zijn ESM3-model te commercialiseren. ESM3 werd getraind op een verbijsterende 2,7 miljard eiwitsequenties (https://techcrunch.com/2024/06/25/evolutionaryscale-is-biologys-ai-frontier-lab/), wat illustreert dat de meest waardevolle data-assets van vandaag degene zijn die de fundamentele bouwstenen van wetenschap en techniek in kaart brengen.
Licentieoorlogen: archieven versus realtime toegang
Terwijl startups financiering binnenhalen om modellen te bouwen, sluiten gevestigde AI-giganten agressief historische data-archieven af. OpenAI heeft een meerjarige contentlicentieovereenkomst met Time (https://openai.com/index/time-partnership/) afgesloten, waarmee het toegang krijgt tot 101 jaar archiefmateriaal (https://www.theverge.com/2024/6/27/24187515/openai-time-magazine-licensing-deal-ai-training) om zijn modellen te verfijnen en geciteerde antwoorden binnen ChatGPT te bieden. Deze deal volgt een patroon van waardevolle partnerschappen met uitgevers zoals News Corp en Axel Springer, en vestigt een duidelijke marktprijs voor tekstuele data met hoge autoriteit. Voor data-eigenaren vertegenwoordigen deze deals een verschuiving van passieve hosting naar actief assetbeheer, aangezien de vraag naar verifieerbare, door mensen samengestelde informatie direct reageert op de proliferatie van door AI gegenereerde "slop" online.
De regelgevende druk en dataintegriteit
Echter, de race om data stuit op aanzienlijke juridische en regelgevende wrijving. De Recording Industry Association of America (RIAA) heeft rechtszaken aangespannen tegen AI-muziekgeneratoren Suno en Udio (https://www.reuters.com/legal/major-record-labels-sue-ai-firms-suno-udio-over-copyright-infringement-2024-06-24/), waarbij wettelijke schadevergoedingen tot $150.000 per inbreukmakend werk worden geëist (https://www.billboard.com/business/legal/labels-sue-suno-udio-ai-copyright-infringement-1235716182/). Tegelijkertijd kreeg designgigant Figma te maken met backlash over zijn AI-trainingsdata-beleid (https://www.theverge.com/2024/6/27/24187315/figma-ai-tools-config-2024-training-data), waardoor het bedrijf zijn opt-out mechanismen voor zakelijke gebruikers moest verduidelijken. Deze gebeurtenissen suggereren dat, hoewel het kapitaal voor data-intensieve AI overvloedig is, het "wilde westen"-tijdperk van onbetaalde scraping ten einde loopt. Bedrijven zoals Glean, dat in gesprek is om $250 miljoen (https://www.reuters.com/technology/ai-startup-glean-talks-raise-250-mln-45-bln-valuation-source-says-2024-06-25/) op te halen tegen een waardering van $4,5 miljard (https://www.reuters.com/technology/ai-startup-glean-talks-raise-250-mln-45-bln-valuation-source-says-2024-06-25/), slagen door zich te richten op veilige, geprivilegieerde interne bedrijfsdata in plaats van publiek gescrapte inhoud.
Waarom het ertoe doet voor data-eigenaren
De waardering van Poolside AI en de rechtszaken tegen muziekstartups bewijzen dat de markt zich splitst: algemene data wordt gecomodificeerd, terwijl gespecialiseerde, hoogwaardige data-assets de primaire bron van alpha worden. Voor data-eigenaren ligt de kans in de transitie van eenmalige licenties naar terugkerende, gestructureerde data-as-a-service (DaaS) modellen. Naarmate de EU AI Act transparantie in trainingssets begint af te dwingen, wordt de herkomst van data net zo waardevol als de data zelf, waardoor compliance een concurrentievoordeel wordt voor institutionele datahouders.
d-nvest zet de data-activa achter deze deals om in gescoorde, bruikbare kansen.
Verken de pijplijn →