OpenAI 与《时代》杂志达成多年数据授权协议
此次合作确保了 101 年的档案数据可用于 AI 训练,巩固了“付费训练”市场。
OpenAI 已与《时代》杂志达成一项多年期授权协议,将其 101 年的档案内容整合到其生成式 AI 模型中(https://openai.com/index/time-and-openai-partnership/)。此次合作使该 AI 实验室能够访问《时代》杂志悠久历史中的数百万篇文章,使其产品(包括 ChatGPT)在利用数据改进模型准确性和事实依据的同时,能够引用和链接回原始报道。尽管财务条款仍未披露,但行业基准表明,该协议遵循了 OpenAI 此前与新闻集团(News Corp)达成的 2.5 亿美元(估算)协议的估值轨迹(https://www.wsj.com/business/media/news-corp-openai-content-licensing-deal-81014532)。
战略性转向授权档案
与《时代》杂志的协议是 OpenAI 战略中的一个关键支柱,旨在使其训练管道免受围绕网络抓取相关的法律和监管波动的影响。通过获得一个世纪以来高质量、人工验证的数据,OpenAI 实际上正在构建一个授权智能的“护城河”。此举不仅仅是为了内容访问;更是为了数据资产的结构完整性。《时代》杂志的档案提供了全球事件的年代顺序数据集,这对于训练模型理解历史背景和长期叙事演变至关重要。这符合一个更广泛的趋势,即出版商不再将他们的档案视为静态历史,而是视为生成式时代动态的训练资产。
诉讼替代方案:16 亿美元的警告
正式授权的紧迫性得到了针对未经授权数据使用的大规模法律压力日益加剧的印证。本周,代表索尼音乐和环球音乐集团等巨头的美国唱片业协会(RIAA)提起了具有里程碑意义的 16 亿美元(估算)版权侵权诉讼,起诉 AI 音乐初创公司 Suno 和 Udio(https://www.reuters.com/legal/major-record-labels-sue-ai-firms-suno-udio-copyright-infringement-2024-06-24/)。原告寻求对每项被侵权作品最高 150,000 美元(披露)的法定损害赔偿(https://www.theverge.com/2024/6/24/24184792/riaa-suno-udio-ai-music-copyright-lawsuit)。这项激进的诉讼是市场信号:‘抓取即道歉’的时代正在结束,未经授权数据的成本现在正被法院以溢价定价。
数据基础设施的整合
除了授权之外,数据中心基础设施市场也正在经历快速整合。OpenAI 最近以未披露的数亿美元(估算)收购了实时搜索和分析数据库公司 Rockset(https://openai.com/index/openai-acquires-rockset/)。此次收购是直接为了增强“检索增强生成”(RAG)能力,使企业用户能够更有效地索引其专有数据资产。与此同时,数据密集型 AI 的投资格局依然强劲;Etched 最近完成了 1.2 亿美元(披露)的 A 轮融资,以开发优化 Transformer 模型数据架构处理的专用芯片(https://techcrunch.com/2024/06/25/etched-raises-120m-to-build-an-ai-chip-that-only-runs-transformers/)。
全球监管与数据挤压
监管机构正在进一步使数据获取格局复杂化。欧盟委员会最近指控苹果公司违反了《数字市场法案》(DMA),特别是针对该科技巨头的“引导”规则,这些规则限制了开发者如何管理其客户数据和关系(https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433)。随着监管机构收紧对数据可移植性和生态系统锁定控制的力度,像《时代》杂志档案这样的“第一方”授权数据的价值只会增加。在当前资本环境下,拥有自身数据管道并对其训练集拥有清晰法律所有权的公司,正发现自己处于显著的竞争优势地位。
这对数据所有者意味着什么
对于机构数据所有者而言,OpenAI 与《时代》杂志的交易以及同期 RIAA 的诉讼证实,高质量、结构化的数据集现在是 AI 供应链中最有价值的商品。我们正朝着一个二元分化的市场迈进:一个高价值的“白市”,用于授权的干净数据;以及一个高风险的“灰市”,用于抓取的内容。数据所有者应优先考虑其档案的策展和法律审计,因为 YouTube 和 OpenAI 开创的“一次性总付”授权模式正成为专有内容资产的标准退出方式。您数据的估值不再与页面浏览量挂钩,而是与其作为基础训练权重的效用挂钩。
d-nvest 将这些交易背后的数据资产转化为有评分、可操作的机会。
探索管道 →