OpenAI et Time concluent un pacte pluriannuel de licence de données
OpenAI obtient l'accès à 101 ans d'archives de Time pour affiner ChatGPT et entraîner les modèles de nouvelle génération.
OpenAI a officiellement conclu un accord de licence de contenu pluriannuel avec Time Magazine, accordant au géant de l'IA l'accès à plus de 101 ans de reportages archivés pour affiner ses modèles génératifs et améliorer les réponses en temps réel de ChatGPT. Bien que les termes financiers spécifiques restent confidentiels, les références du secteur suggèrent que l'accord suit la trajectoire de valorisation du précédent partenariat pluriannuel d'OpenAI avec News Corp, d'une valeur de 250 millions de dollars (https://www.cnbc.com/2024/05/22/news-corp-strikes-multiyear-deal-with-openai.html). Cette dernière acquisition de données éditoriales premium permet à OpenAI d'afficher le journalisme de Time avec une citation et un lien appropriés, tout en utilisant simultanément le dépôt centenaire pour la formation des modèles en arrière-plan.
Le pivot stratégique vers les actifs éditoriaux sous licence
Le partenariat avec Time n'est pas un événement isolé, mais un pilier central de la stratégie d'OpenAI visant à atténuer les risques juridiques tout en sécurisant des données de haute fidélité. En acquérant sous licence des archives remontant à 1923, OpenAI achète effectivement une histoire organisée des 20e et 21e siècles. Cette démarche fait suite à une série d'acquisitions similaires à enjeux élevés, notamment des accords avec Vox Media et The Atlantic, ainsi qu'avec des éditeurs internationaux comme Axel Springer et Le Monde. Le marché des données vérifiées et rédigées par des humains a atteint un point culminant, les développeurs d'IA étant confrontés à une pression croissante pour s'éloigner des pratiques de web-scraping non autorisées qui ont déclenché d'énormes litiges en matière de droits d'auteur.
Pour Time, l'accord représente une monétisation essentielle de ses actifs historiques. La publication aura accès à la technologie d'OpenAI pour développer de nouveaux outils pour ses lecteurs, signalant une intégration plus profonde entre les médias traditionnels et l'infrastructure de l'IA. Cette tendance se reflète ailleurs sur le marché ; par exemple, SoftBank a récemment investi 200 millions de dollars (https://www.bloomberg.com/news/articles/2024-06-24/softbank-invests-200-million-in-ai-medical-firm-tempus-ai) dans Tempus AI, une entreprise axée sur l'exploitation de vastes bibliothèques de données cliniques pour alimenter la médecine de précision. Que ce soit dans le journalisme ou dans les soins de santé, la valeur du jeu de données sous-jacent est désormais le principal moteur de l'allocation de capital.
Pression juridique et fin du scraping gratuit
L'urgence derrière la frénésie de licences d'OpenAI est soulignée par un environnement juridique de plus en plus strict. Cette semaine encore, les plus grands labels de disques du monde, dont Sony Music et Universal Music Group, ont intenté une action en justice majeure contre les startups d'IA Suno et Udio, alléguant l'utilisation non autorisée d'enregistrements protégés par le droit d'auteur pour former leurs systèmes. Les labels demandent des dommages et intérêts allant jusqu'à 150 000 dollars (https://www.reuters.com/legal/major-record-labels-sue-ai-firms-suno-udio-over-copyright-infringement-2024-06-24/) par œuvre contrefaite. Cette litige met en évidence la menace existentielle qui pèse sur les entreprises d'IA qui s'appuient sur des arguments de « fair use » pour l'ingestion de données à grande échelle sans compensation.
Parallèlement, les fournisseurs d'infrastructure lèvent des fonds considérables pour soutenir le traitement de ces jeux de données sous licence. Etched, un fabricant de puces spécialisé, a levé 120 millions de dollars (https://techcrunch.com/2024/06/25/etched-raises-120m-to-build-a-chip-that-only-runs-transformer-models/) en financement de série A pour construire du matériel spécifiquement conçu pour exécuter les modèles Transformer plus efficacement. À mesure que l'industrie mûrit, l'accent se déplace de la puissance de calcul générique vers des systèmes spécialisés capables d'extraire une valeur maximale des silos de données spécifiques et de haute qualité débloqués par des accords comme le pacte OpenAI-Time.
Les garde-fous réglementaires se resserrent à l'échelle mondiale
Le paysage réglementaire impose également une approche plus transparente de l'acquisition de données. Le AI Act de l'Union européenne progresse vers sa pleine mise en œuvre, exigeant des développeurs de modèles d'IA à usage général qu'ils fournissent des résumés détaillés des données utilisées pour la formation. Ce mandat de transparence rend de plus en plus difficile pour les entreprises de dissimuler l'utilisation de contenu extrait ou piraté. Dans ce contexte, un accord de licence directe n'est pas seulement une stratégie de contenu ; c'est une nécessité de conformité.
Le marché connaît une bifurcation entre les modèles « propres » entraînés sur des données sous licence et les modèles « à haut risque » qui continuent de s'appuyer sur le scraping controversé. Les investisseurs privilégient clairement les premiers, comme en témoignent les discussions rapportées entre Apple et Meta concernant l'intégration potentielle des modèles Llama de Meta dans Apple Intelligence — un accord qui nécessiterait probablement des garanties strictes de provenance des données pour satisfaire les normes de confidentialité et juridiques d'Apple.
Pourquoi c'est important pour les propriétaires de données
L'accord OpenAI-Time confirme que l'ère du « données-en-tant-qu'actif » est passée de la théorie à une réalité de plusieurs millions de dollars. Pour les propriétaires de jeux de données propriétaires — qu'il s'agisse d'archives historiques, de dossiers cliniques ou de documentation technique — le marché actuel offre une fenêtre unique pour monétiser des actifs dormants. Alors que les développeurs d'IA épuisent l'offre de données publiques de haute qualité sur le web, la prime sur les jeux de données exclusifs, vérifiés par des humains et légalement approuvés continuera d'augmenter. Les propriétaires de données devraient considérer leurs archives non seulement comme un enregistrement du passé, mais comme le carburant essentiel de la prochaine génération d'intelligence industrielle et grand public.
d-nvest transforme les actifs de données derrière ces transactions en opportunités évaluées et exploitables.
Explorer le pipeline →