La RIAA poursuit Suno et Udio pour 150 000 $ par chanson pour scraping de données

Sony, Universal et Warner Music Group réclament des dommages massifs pour entraînement sans licence sur des ensembles de données audio protégés par le droit d'auteur.

La Recording Industry Association of America (RIAA), représentant les titans de l'industrie Sony Music Entertainment, Universal Music Group et Warner Records, a intenté un procès historique demandant des dommages légaux allant jusqu'à 150 000 $ par œuvre enfreinte (https://www.reuters.com/legal/music-labels-sue-ai-startups-suno-udio-over-copyright-infringement-2024-06-24/) contre les startups d'IA musicales Suno et Udio. La litige, déposé aujourd'hui devant les tribunaux fédéraux du Massachusetts et de New York, marque une escalade critique dans la bataille mondiale pour la valorisation et la protection juridique des actifs de données propriétaires utilisés pour entraîner les modèles d'IA générative.

Le coût élevé de l'entraînement sans licence

Les poursuites allèguent que Suno et Udio se sont livrés à une violation massive du droit d'auteur en récupérant des décennies de musique enregistrée pour entraîner leurs modèles génératifs. Selon les dépôts, Suno aurait enfreint 662 chansons protégées par le droit d'auteur (https://www.theverge.com/2024/6/24/24184792/riaa-suno-udio-ai-music-copyright-lawsuit), tandis qu'Udio est accusé d'avoir détourné 1 670 enregistrements (https://www.billboard.com/business/legal/suno-udio-sued-major-labels-copyright-infringement-1235716123/). Au maximum légal de 150 000 $ par œuvre, les passifs potentiels divulgués pour ces startups pourraient atteindre des centaines de millions de dollars, créant une surpression financière importante pour le secteur de l'audio génératif.

Les plaignants soutiennent que ces sociétés d'IA ne créent pas simplement de nouveaux outils, mais "volent" la valeur expressive des artistes humains pour créer des produits commerciaux concurrents. Ce cas touche au cœur de la défense du "fair use" actuellement invoquée par de nombreux développeurs d'IA, qui affirment que l'entraînement sur des données publiques ou récupérées est transformateur et donc légalement permissible sans licence.

Un virage vers la licence forcée

L'action de la RIAA arrive alors que le marché des données d'entraînement de haute qualité passe du scraping ouvert à la licence structurée. Alors que Suno et Udio font face à des litiges, d'autres acteurs optent pour la voie de l'"accord". À titre de comparaison, OpenAI a récemment conclu un accord de licence pluriannuel avec News Corp, évalué à environ 250 millions de dollars (https://www.nytimes.com/2024/05/22/business/media/openai-news-corp-deal.html) pour accéder à sa vaste archive de contenu journalistique. Cette dichotomie met en évidence une division croissante dans l'écosystème de l'IA : ceux qui paient pour les actifs de données et ceux qui risquent des litiges existentiels en contournant le marché de la licence.

De plus, la demande de données spécialisées entraîne des afflux massifs de capitaux. Formation Bio a récemment annoncé une levée de fonds de série D de 160 millions de dollars (https://www.bloomberg.com/news/articles/2024-06-26/openai-sanofi-back-formation-bio-s-160-million-funding-round) soutenue par Sanofi et OpenAI, spécifiquement pour construire des pipelines de développement de médicaments basés sur l'IA – une mesure qui souligne la prime accordée aux ensembles de données de haute intégrité et spécifiques à un secteur.

Infrastructure et interopérabilité des données

Les risques juridiques entourant l'acquisition de données influencent également l'activité de fusions et acquisitions dans la couche d'infrastructure de données. Databricks a récemment finalisé l'acquisition de la startup de gestion de données Tabular pour plus d'un milliard de dollars (https://www.bloomberg.com/news/articles/2024-06-04/databricks-to-buy-data-management-startup-tabular-for-over-1-billion), une transaction conçue pour unifier les formats de lakehouse de données et fournir aux entreprises des pipelines de données plus propres et plus conformes pour l'entraînement de l'IA. Alors que les régulateurs et les détenteurs de droits resserrent l'étau, la capacité de tracer et de vérifier la provenance des données d'entraînement devient un avantage concurrentiel essentiel.

En Europe, la pression réglementaire s'intensifie également. La Commission européenne a récemment accusé Apple de violation du Digital Markets Act (DMA) (https://www.cnbc.com/2024/06/24/eu-charges-apple-with-breaching-digital-markets-act.html), se concentrant sur la manière dont le géant de la technologie contrôle les données des développeurs et l'accès à l'écosystème. Cette surveillance réglementaire, combinée à la litige agressive de la RIAA, suggère que l'ère de la "récolte de données non réglementée" touche rapidement à sa fin.

Pourquoi c'est important pour les propriétaires de données

Pour les propriétaires d'ensembles de données de grande valeur – que ce soit dans la musique, le journalisme ou la santé – le procès de la RIAA est un signal haussier. Il renforce le principe selon lequel les données propriétaires ont une valeur marchande spécifique et élevée qui ne peut être contournée sous couvert de progrès technologiques. À mesure que les précédents juridiques établissent le plafond de responsabilité de 150 000 $ par œuvre, le plancher des négociations de licence augmentera naturellement. Les propriétaires de données ont maintenant un mandat clair : monétiser leurs actifs par le biais de partenariats structurés ou se préparer à défendre leur valeur devant les tribunaux, où les rendements potentiels des litiges pourraient bientôt rivaliser avec ceux des accords de licence traditionnels.

d-nvest transforme les actifs de données derrière ces transactions en opportunités évaluées et exploitables.

Explorer le pipeline →