EvolutionaryScale 融资 1.42 亿美元用于构建生物学“世界模型”
英伟达和亚马逊支持 1.42 亿美元种子轮融资,用于在包含 2.78 亿个蛋白质的数据集上训练 ESM3 模型。
EvolutionaryScale 已完成一项披露的 1.42 亿美元种子轮融资(https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai-model/),以加速能够模拟和工程化生物系统的 AI“世界模型”的开发。本轮融资由 Lux Capital、Nat Friedman 和 Daniel Gross 领投,英伟达和 亚马逊参投,使该公司处于“数据驱动生物学”军备竞赛的最前沿。这笔资金将用于改进 ESM3,这是一个面向生物学的最前沿语言模型,拥有 980 亿个参数(https://www.evolutionaryscale.ai/blog/esm3-release),并在包含 2.78 亿个蛋白质(https://www.evolutionaryscale.ai/blog/esm3-release)的海量数据集上进行了训练。
生物学世界模型的兴起
与专注于文本或像素的传统生成式 AI 不同,EvolutionaryScale 正在为生命科学构建研究人员称之为“世界模型”的东西。通过将遗传密码视为一种语言,ESM3 模型已证明能够生成与自然界中发现的荧光蛋白显著不同的全新荧光蛋白——有效地在数字环境中模拟了 5 亿年的进化(https://www.evolutionaryscale.ai/blog/esm3-release)。这一能力标志着数据资产市场的一个转变,其中最有价值的数据集不再仅仅是网络抓取的文本,而是高度专业化、结构化的生物序列,可用于“编程”物质。
数据许可的转变:从合理使用到付费资产
EvolutionaryScale 的融资恰逢数据高完整性许可的更广泛市场转变。虽然生物数据正在被代币化以用于药物发现,但媒体巨头正在保护自己的档案。OpenAI 最近与 《时代》杂志签署了一项多年内容许可协议(https://time.com/6992661/time-openai-partnership/),允许 AI 实验室访问超过 100 年的新闻档案。尽管财务条款仍 未披露(https://www.reuters.com/technology/openai-time-strike-multi-year-content-licensing-deal-2024-06-27/),但该协议遵循了 News Corp 协议设定的 已披露的 2.5 亿美元基准(https://www.reuters.com/technology/news-corp-signs-multi-year-ai-content-deal-with-openai-2024-05-22/)。同样,据报道,YouTube 正在与索尼和环球音乐等主要唱片公司谈判(https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2),以提供 估计数百万美元的一次性付款(https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2),用于合法访问音乐目录以进行 AI 训练。
监管阻力和数据来源
随着训练数据价值的飙升,监管机构和创作者正在抵制未经授权的使用。Figma 最近在其“Make Design”AI 功能(https://www.theverge.com/2024/7/1/24189917/figma-disables-ai-design-tool-apple-weather-app-copying)被指控使用了现有应用程序设计进行训练后,禁用了该功能,这凸显了不透明数据管道的法律风险。此外,据报道,软银向 Perplexity AI 投资了 1000 万至 2000 万美元(https://www.bloomberg.com/news/articles/2024-06-27/softbank-to-invest-in-search-startup-perplexity-ai/),而此时出版商发出了大量版权侵权通知,这表明即使是高增长的 AI 初创公司现在也必须为数据合规和和解支付巨额费用。Harvey 估计的 1 亿美元融资(https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/)进一步证明了这一趋势,该交易使这家法律数据专家估值达到 约 15 亿美元(https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/)——这一溢价源于其对专有、高风险法律数据集的访问。
这对数据所有者意味着什么
EvolutionaryScale 的这笔交易证明,数据货币化的最有利可图的前沿正从通用网络内容转向“领域特定世界模型”。对于生物学、法律和音乐领域的数据所有者来说,市场已经超越了简单的许可,进入了一个战略合作伙伴关系模式,数据是科学和创意突破的主要催化剂。随着 OpenAI 和 Anthropic 等 AI 实验室耗尽公开网络数据,对干净、专有且经过合法清理的数据集的溢价将继续上涨,将被动档案转化为高收益的金融资产。
d-nvest 将这些交易背后的数据资产转化为有评分、可操作的机会。
探索管道 →