licensingai fundingdata acquisitionregulationworld models2026年7月2日

OpenAI 与新闻集团达成 2.5 亿美元数据许可协议

这项为期五年的协议确保了《华尔街日报》和《巴伦周刊》的优质新闻档案可用于人工智能训练和推理。

OpenAI 已与新闻集团(News Corp)正式签署了一项里程碑式的内容许可协议,该协议估计在五年内价值超过 2.5 亿美元 (https://www.wsj.com/business/media/openai-news-corp-deal-250-million-4d642b5d)。这项已披露的合作关系使这家由微软支持的人工智能巨头能够访问《华尔街日报》、《巴伦周刊》、《市场观察》和《泰晤士报》等主要出版物的当前和存档内容,有效地将优质新闻产出转化为下一代世界模型的高保真训练流。此举标志着 OpenAI 战略性地转向,以规避与未经授权的网络抓取相关的日益增长的法律和道德风险,从而保护其数据管道。

优质文本资产的战略价值

该协议不仅仅是一项防御性法律举措;它更是对精选的高权威数据集的卓越性能的战略性押注。随着前沿模型接近公开可用互联网数据的极限,行业正进入一个“数据稀缺”的阶段,在这个阶段,令牌的质量比原始数量更重要。通过获得新闻集团的档案,OpenAI 获得了数十年来结构化、事实核查和具有丰富上下文的人类推理的访问权。这对于提高 GPT-5 等模型的准确性和推理能力至关重要,这些模型旨在成为专业和金融环境中更可靠的代理。该协议的结构旨在允许 OpenAI 在响应用户查询时显示内容,进一步模糊了搜索引擎和生成式人工智能界面之间的界限。

Scale AI 和 10 亿美元的数据丰富基础设施

对高质量数据的机构推动进一步体现在 Scale AI 最近完成的 10 亿美元 F 轮融资 (https://techcrunch.com/2024/05/21/scale-ai-raises-1-billion-at-a-13-8-billion-valuation/),该公司估值为 $138 亿美元 (https://www.reuters.com/technology/scale-ai-raises-1-billion-valuation-doubles-138-billion-2024-05-21/)。Scale AI 在数据资产经济中充当关键的中间人,提供必要的人工干预(HITL)标记和人类反馈强化学习(RLHF),将原始数据(如新闻集团的档案)转化为机器可用的训练集。本轮融资由 Accel 领投,并有主权财富基金参与,这表明处理数据所需的物理和人力基础设施现在与计算能力本身一样有价值。随着世界模型发展到处理多模态输入(视频、音频和传感器数据),标记这些资产的复杂性呈指数级增长,为那些控制数据供应链的人创造了巨大的护城河。

DeepL 和专业数据护城河的兴起

虽然通用模型在争夺新闻档案,但专业人工智能公司正在证明细分数据资产的价值。德国翻译人工智能专家 DeepL 最近在 最新一轮融资 (https://www.reuters.com/technology/ai-startup-deepl-valued-2-billion-after-latest-funding-round-2024-05-22/) 中获得了 3 亿美元投资,估值为 20 亿美元 (https://techcrunch.com/2024/05/22/deepl-the-ai-translation-startup-is-now-valued-at-2b/)。DeepL 的成功建立在其专有的高质量翻译数据集之上,该数据集的性能优于在更嘈杂的数据上训练的大型模型。这证实了 d-nvest 智能领域日益增长的趋势:拥有独特、行业特定数据集(法律、医疗或语言)的数据所有者,随着通用人工智能公司寻求收购专业化的“知识护城河”来区分其产品,其资产估值正在飙升。

监管保障:欧盟人工智能法案最终确定

数据交易市场现已在一个新的全球标准下运作。欧洲理事会已正式给予 欧盟人工智能法案 (https://www.consilium.europa.eu/en/press/press-releases/2024/05/21/artificial-intelligence-ai-act-council-gives-final-green-light-to-the-first-worldwide-rules-on-ai/) 最终批准,这是全球首个全面的人工智能框架。该法规对通用人工智能模型提出了严格的透明度要求,包括提供用于训练的数据的详细摘要的义务。预计这种监管清晰度将加速正式许可协议的趋势,因为公司寻求避免与不合规的数据来源相关的“高风险”认定和潜在罚款。对于数据投资者而言,欧盟人工智能法案将数据来源从法律脚注转变为主要的估值驱动因素。

这对数据所有者意味着什么

对于高质量、结构化数据资产的所有者来说,OpenAI-新闻集团的交易是一个分水岭时刻,它为优质内容确立了明确的市场价格。我们正从数据剥削时代迈向数据货币化时代。随着人工智能开发人员将重点转向需要深度上下文理解和事实依据的“世界模型”,杠杆作用又回到了内容创作者手中。数据所有者不应再将自己的档案视为历史记录,而应视为高收益的流动资产,可以跨不同的 AI 垂直领域进行重复许可。最大化价值的关键在于数据就绪性:确保档案已数字化、包含丰富的元数据,并且在法律上已获准用于人工智能训练。

d-nvest 将这些交易背后的数据资产转化为有评分、可操作的机会。

探索管道 →
OpenAI 与新闻集团达成 2.5 亿美元数据许可协议 | d-nvest