ai fundingdata licensingcode generationventure capitalregulation2026年6月28日

Poolside AI 以 20 亿美元估值完成 4 亿美元融资,用于代码-数据大语言模型

Coatue 和 Dragoneer 领投巨额注资,助力这家总部位于巴黎的初创公司扩展专有代码生成资产。

Poolside AI 即将达成一项协议,通过一项新的融资轮筹集约 4 亿美元 (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation),公司估值将达到 20 亿美元 (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation)。本轮融资由 Coatue Management 和 Dragoneer Investment Group (https://techcrunch.com/2024/06/27/poolside-the-latest-genai-startup-to-move-to-france-is-nearing-a-400m-raise-at-a-2b-valuation/) 领投,表明市场对将大型语言模型 (LLM) 从通用对话推向自主软件工程所需的专业数据进行了巨额押注。通过将运营中心设在巴黎,Poolside 将自己定位在欧洲人工智能人才和数据生态系统的核心,专门针对定义下一代生产力工具的专有代码库和开发人员工作流程。

专业数据护城河:超越通用大语言模型

对 Poolside AI 的资本注入凸显了市场对领域特定数据资产的更广泛转变。虽然通用模型已经达到了效用的平台期,但专注于高保真、专业数据集的初创公司正在获得高估值。Poolside 的战略围绕着在海量、结构化的代码存储库上训练模型,这比标准的基于文本的数据集需要更高的精度。这一趋势在生物领域也有体现,EvolutionaryScale 最近披露了 1.42 亿美元的种子轮融资 (https://www.reuters.com/technology/ai/ai-biology-startup-evolutionaryscale-raises-142-million-2024-06-25/),用于商业化其 ESM3 模型。ESM3 在惊人的 27 亿个蛋白质序列上进行了训练 (https://techcrunch.com/2024/06/25/evolutionaryscale-is-biologys-ai-frontier-lab/),这说明了如今最有价值的数据资产是那些描绘科学和工程基本构建模块的数据。

许可大战:档案 vs. 实时访问

随着初创公司获得资金来构建模型,成熟的人工智能巨头正在积极锁定历史数据档案。OpenAI 已与 Time 达成一项 多年内容许可协议 (https://openai.com/index/time-partnership/),获得了 101 年的档案内容访问权 (https://www.theverge.com/2024/6/27/24187515/openai-time-magazine-licensing-deal-ai-training),以改进其模型并在 ChatGPT 中提供引用的回复。此交易遵循了与 News Corp 和 Axel Springer 等出版商建立高价值合作伙伴关系的模式,为高权威文本数据确立了明确的市场价格。对于数据所有者而言,这些交易代表着从被动托管到主动资产管理的转变,因为对可验证的、人类策划的信息的需求正在直接响应在线上人工智能生成“垃圾”的泛滥。

监管压力和数据完整性

然而,对数据的争夺正面临重大的法律和监管阻力。美国唱片业协会 (RIAA) 已对人工智能音乐生成器 Suno 和 Udio (https://www.reuters.com/legal/major-record-labels-sue-ai-firms-suno-udio-over-copyright-infringement-2024-06-24/) 提起诉讼,寻求对每项侵权作品最高 150,000 美元的法定损害赔偿 (https://www.billboard.com/business/legal/labels-sue-suno-udio-ai-copyright-infringement-1235716182/)。与此同时,设计巨头 Figma 因其人工智能训练数据政策 (https://www.theverge.com/2024/6/27/24187315/figma-ai-tools-config-2024-training-data) 而面临强烈反对,迫使该公司澄清其对企业用户的选择退出机制。这些事件表明,尽管数据密集型人工智能的资金充裕,“狂野西部”时代未经补偿的抓取正在结束。像 Glean 这样正在洽谈以 45 亿美元估值筹集 2.5 亿美元 (https://www.reuters.com/technology/ai-startup-glean-talks-raise-250-mln-45-bln-valuation-source-says-2024-06-25/) 的公司之所以成功,是因为它们专注于安全、已授权的企业内部数据,而不是公开的网络抓取内容。

这对数据所有者意味着什么

Poolside AI 的估值以及对音乐初创公司的诉讼证明,市场正在分化:通用数据正在商品化,而专业、高完整性的数据资产正成为主要的 Alpha 来源。对于数据所有者而言,机会在于从一次性许可转向经常性的、结构化的数据即服务 (DaaS) 模型。随着欧盟人工智能法案开始强制执行训练集的透明度,数据的来源将与数据本身一样有价值,从而使合规性成为机构数据持有者的竞争优势。

d-nvest 将这些交易背后的数据资产转化为有评分、可操作的机会。

探索管道 →
Poolside AI 以 20 亿美元估值完成 4 亿美元融资,用于代码-数据大语言模型 | d-nvest