Poolside AI lève 400 millions de dollars à une valorisation de 2 milliards de dollars pour ses LLM de code et de données
Coatue et Dragoneer mènent une injection massive dans la startup parisienne pour développer ses actifs propriétaires de génération de code.
Poolside AI est sur le point de conclure une levée de fonds estimée à 400 millions de dollars (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation) qui valoriserait l'entreprise à 2 milliards de dollars (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation). Cette levée, menée par Coatue Management et Dragoneer Investment Group (https://techcrunch.com/2024/06/27/poolside-the-latest-genai-startup-to-move-to-france-is-nearing-a-400m-raise-at-a-2b-valuation/), signale un pari massif sur les données spécialisées nécessaires pour faire passer les grands modèles linguistiques (LLM) de la conversation générale à l'ingénierie logicielle autonome. En centrant ses opérations à Paris, Poolside se positionne au cœur de l'écosystème européen des talents et des données en IA, ciblant spécifiquement les bases de code propriétaires et les flux de travail des développeurs qui définissent la prochaine frontière des outils de productivité.
Le rempart de données spécialisées : Au-delà des LLM généraux
L'injection de capital dans Poolside AI met en évidence un pivot plus large du marché vers les actifs de données spécifiques à un domaine. Alors que les modèles à usage général ont atteint un plateau d'utilité, les startups axées sur des ensembles de données spécialisés et de haute fidélité obtiennent des valorisations premium. La stratégie de Poolside repose sur l'entraînement de modèles sur des référentiels de code massifs et structurés, qui nécessitent une précision considérablement plus élevée que les ensembles de données textuels standard. Cette tendance se reflète dans le secteur biologique, où EvolutionaryScale a récemment annoncé une levée de fonds de 142 millions de dollars (https://www.reuters.com/technology/ai/ai-biology-startup-evolutionaryscale-raises-142-million-2024-06-25/) pour commercialiser son modèle ESM3. ESM3 a été entraîné sur un nombre stupéfiant de 2,7 milliards de séquences protéiques (https://techcrunch.com/2024/06/25/evolutionaryscale-is-biologys-ai-frontier-lab/), illustrant que les actifs de données les plus précieux aujourd'hui sont ceux qui cartographient les éléments fondamentaux de la science et de l'ingénierie.
Guerres de licences : Archives contre accès en temps réel
Alors que les startups lèvent des fonds pour construire des modèles, les géants établis de l'IA verrouillent agressivement les archives de données historiques. OpenAI a finalisé un accord de licence de contenu pluriannuel avec Time (https://openai.com/index/time-partnership/), obtenant l'accès à 101 ans de contenu d'archives (https://www.theverge.com/2024/6/27/24187515/openai-time-magazine-licensing-deal-ai-training) pour affiner ses modèles et fournir des réponses citées dans ChatGPT. Cet accord s'inscrit dans la lignée de partenariats à haute valeur ajoutée avec des éditeurs tels que News Corp et Axel Springer, établissant un prix de marché clair pour les données textuelles faisant autorité. Pour les propriétaires de données, ces accords représentent un passage de l'hébergement passif à la gestion active des actifs, car la demande d'informations vérifiables et organisées par l'homme croît en réponse directe à la prolifération du "brouillon" généré par l'IA en ligne.
La pression réglementaire et l'intégrité des données
Cependant, la course aux données se heurte à des frictions juridiques et réglementaires importantes. La Recording Industry Association of America (RIAA) a intenté des poursuites contre les générateurs de musique IA Suno et Udio (https://www.reuters.com/legal/major-record-labels-sue-ai-firms-suno-udio-over-copyright-infringement-2024-06-24/), demandant des dommages et intérêts statutaires allant jusqu'à 150 000 $ par œuvre contrefaite (https://www.billboard.com/business/legal/labels-sue-suno-udio-ai-copyright-infringement-1235716182/). Parallèlement, le géant du design Figma a fait face à des critiques concernant ses politiques de données d'entraînement IA (https://www.theverge.com/2024/6/27/24187315/figma-ai-tools-config-2024-training-data), forçant l'entreprise à clarifier ses mécanismes de retrait pour les utilisateurs d'entreprise. Ces événements suggèrent que si le capital pour l'IA axée sur les données est abondant, l'ère du "far west" du scraping non rémunéré touche à sa fin. Des entreprises comme Glean, qui est en pourparlers pour lever 250 millions de dollars (https://www.reuters.com/technology/ai-startup-glean-talks-raise-250-mln-45-bln-valuation-source-says-2024-06-25/) à une valorisation de 4,5 milliards de dollars (https://www.reuters.com/technology/ai-startup-glean-talks-raise-250-mln-45-bln-valuation-source-says-2024-06-25/), réussissent en se concentrant sur les données d'entreprise internes sécurisées et autorisées plutôt que sur le contenu web récupéré publiquement.
Pourquoi cela est important pour les propriétaires de données
La valorisation de Poolside AI et les litiges contre les startups musicales prouvent que le marché se divise : les données générales sont commoditisées, tandis que les actifs de données spécialisés et de haute intégrité deviennent la principale source d'alpha. Pour les propriétaires de données, l'opportunité réside dans la transition de la licence ponctuelle à des modèles récurrents de données en tant que service (DaaS). Alors que le règlement européen sur l'IA commence à imposer la transparence dans les ensembles d'entraînement, la provenance des données deviendra aussi précieuse que les données elles-mêmes, transformant la conformité en un avantage concurrentiel pour les détenteurs de données institutionnels.
d-nvest transforme les actifs de données derrière ces transactions en opportunités évaluées et exploitables.
Explorer le pipeline →