Scale AI 完成 10 亿美元 F 轮融资,巩固其人工智能数据供应链
Accel 领投 10 亿美元巨额融资,数据标注领导者估值达 138 亿美元。
Scale AI 已完成 10 亿美元的 F 轮融资,估值达到 138 亿美元,全球对高保真训练数据的需求达到了顶峰。本轮融资由 Accel 领投,包括 Nvidia、Amazon 和 Meta 在内的行业内最具活力的 AI 投资者也参与其中。此次注资正值关键时刻,‘数据墙’——即高质量、人类生成文本和媒体的迫在眉睫的短缺——威胁着阻碍推动生成式 AI 繁荣的规模定律。
数据标注的工业化
Scale AI 最新的资本结构专门用于扩展其 Data Engine,这是用于精炼前沿模型所需原始数据集的专有基础设施。与早期简单的图像标注不同,当前市场需要复杂的人类反馈强化学习 (RLHF)。Scale AI 已将自己定位为关键的中间商,将原始数字信息转化为驱动 GPT-4 和 Claude 3 等模型的高推理结构化代币。主要模型构建者作为投资者的参与表明,他们正在采取战略举措,以确保自身数据供应链免受竞争对手的影响。
战略许可和实时数据转向
Scale AI 的融资是数据来源和价值评估方式更广泛结构性转变的一部分。随着行业逐渐摆脱未经授权的网络抓取,直接许可协议正成为标准。本周,OpenAI 与 Reddit 的里程碑式合作标志着这一转变,该合作使这家 AI 巨头能够访问 Reddit 的数据 API。通过整合实时人类对话,OpenAI 旨在提高 ChatGPT 的相关性,同时为 Reddit 用户和版主提供 AI 驱动的功能。此交易与 谷歌今年早些时候与 Reddit 达成的每年约 6000 万美元的协议相呼应,为海量社交数据确立了明确的市场价格。
知识产权保护和监管反弹
虽然一些平台正在转向货币化,但另一些平台则在建立防御壁垒。 索尼音乐集团最近向 700 多家科技公司发出了正式警告,明确禁止任何未经授权使用其内容进行 AI 训练的行为。这项大规模的知识产权保护工作凸显了数据饥渴的 AI 开发商与优质创意资产所有者之间日益增长的摩擦。与此同时,监管机构正在收紧数据收集实践。英国信息专员办公室 (ICO) 最近更新了其关于网络抓取的数据指南,明确表示从公共网络抓取用于 AI 训练的个人数据仍受严格的数据保护法约束。
基础设施和专业数据市场
流入数据领域的资金仅次于处理这些数据所需的硬件投资。 CoreWeave 最近获得了由 Blackstone 和 Magnetar 牵头的 75 亿美元债务融资,以扩大其 AI 专用数据中心的规模。在软件方面,专业的数据中心初创公司也获得了显著的关注。语言翻译专家 DeepL 以 20 亿美元的估值筹集了 3 亿美元,证明了用于翻译和企业通信的细分、高精度数据集仍然非常有价值。此外,Lamini 获得了 2500 万美元的融资,以帮助企业在其专有的内部数据上微调模型,从而规避公共数据稀缺的风险。
对数据所有者的意义
对于数据所有者而言,Scale AI 的估值以及 Reddit/OpenAI 的交易证实,专有数据不再是副产品,而是主要资产类别。随着“数据墙”的临近,对干净、经过人类验证且合规的数据集的溢价只会增加。拥有大量专业知识档案的组织,无论是在社交媒体、医疗保健还是创意艺术领域,现在都拥有了重要的议价能力,可以协商长期的许可收入流,而不是允许其资产被通用网络爬虫商品化。
d-nvest 将这些交易背后的数据资产转化为有评分、可操作的机会。
探索管道 →