biological dataai fundingdata licensingdefense airegulation2026年7月1日

EvolutionaryScale 融资 1.42 亿美元以扩展生物数据模型

这家初创公司完成种子轮融资,以构建使用 27.8 亿个蛋白质序列数据集的生成式 AI。

EvolutionaryScale 已完成披露的 1.42 亿美元(https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biology-ai/)种子轮融资,以加速基于海量生物数据集训练的生成式 AI 模型开发。此轮融资由 Nat Friedman、Daniel Gross 和 Lux Capital 领投,使公司能够将生物学视为一种可编程的数据资产,并利用其新的 ESM3 模型,该模型是在一个包含 27.8 亿个蛋白质序列(https://www.evolutionaryscale.ai/blog/esm3-release)的数据集上训练的。这一里程碑凸显了非文本、领域特定数据在争夺前沿 AI 能力方面的价值日益增长。

生物数据资产的兴起

与抓取公共网络的通用 LLM 不同,EvolutionaryScale 的价值主张建立在专业生物信息的策划和处理之上。ESM3 模型是一种多模态生成模型,可以对蛋白质的序列、结构和功能进行推理。通过处理来自自然界的数万亿个数据点(https://www.evolutionaryscale.ai/blog/esm3-release),这家初创公司旨在使研究人员能够“编程”新的蛋白质,有可能将药物发现时间从数年缩短到数周。这种“生物学领域的 ChatGPT”方法突显了一个更广泛的市场趋势:专有的、高保真的科学数据集的货币化,这些数据集不易被通用爬虫复制。

许可 vs. 诉讼:数据权利之争

随着数据获取的法律格局达到白热化,像 EvolutionaryScale 这样的数据密集型初创公司获得了资金。OpenAI 和《时代》杂志最近达成了一项多年内容许可协议(https://openai.com/index/openai-and-time-sign-multi-year-content-partnership-and-strategic-alliance/),允许 OpenAI 访问《时代》杂志 101 年的历史档案。虽然具体的财务条款未披露,但行业分析师指出,OpenAI 与新闻集团(News Corp)估计价值 2.5 亿美元的交易(https://www.reuters.com/technology/news-corp-strikes-ai-content-licensing-deal-with-openai-2024-05-22/)是经过验证的人类新闻业当前价值的基准。

相反,未经许可的数据获取成本正变得高得令人望而却步。代表索尼和环球音乐等主要唱片公司的 RIAA,在起诉 AI 音乐初创公司 Suno 和 Udio 的诉讼中,寻求对每部作品高达 15 万美元的法定损害赔偿(https://www.reuters.com/legal/music-labels-sue-suno-udio-ai-copyright-infringement-2024-06-24/)。据称,由于未经许可使用了数十万首录音,总责任可能达到估计的 135 亿美元(https://www.reuters.com/legal/music-labels-sue-suno-udio-ai-copyright-infringement-2024-06-24/)。这种法律压力正迫使从“合理使用”辩护转向一个结构化的数据市场,在这个市场中,每个训练令牌都有清晰的来源和价格标签。

资本流入数据密集型基础设施

对数据就绪 AI 的需求也引发了大规模的基础设施投资。欧洲国防 AI 公司 Helsing 在 C 轮融资中获得了披露的 4.5 亿欧元(https://www.reuters.com/technology/defense-ai-startup-helsing-raises-450-mln-euro-funding-round-2024-07-04/),公司估值达到估计的 50 亿欧元(https://www.bloomberg.com/news/articles/2024-06-17/defense-ai-startup-helsing-is-said-to-near-400-million-funding)。Helsing 的软件定义国防系统依赖于战场传感器数据的实时处理,代表了公共部门数据资产货币化的关键垂直领域。同样,Etched.ai 获得了披露的 1.2 亿美元(https://techcrunch.com/2024/06/25/etched-raises-120m-to-build-a-chip-that-only-runs-transformer-models/)用于构建专门用于处理 Transformer 模型所需的海量数据吞吐量的专用芯片。

在法律科技领域,初创公司 Harvey 据报道正在洽谈以估计的 20 亿美元估值(https://techcrunch.com/2024/06/25/legal-ai-startup-harvey-is-raising-600m-from-google-at-a-2b-valuation/)筹集新资金。Harvey 的核心资产是其访问和处理专有法律数据的能力,这进一步证明了市场正在奖励那些控制“数据护城河”而非仅仅算法的公司。

对数据所有者的意义

对于机构数据所有者而言,EvolutionaryScale 和 OpenAI-Time 的交易证实了免费数据抓取时代即将结束。数据不再是业务运营的副产品;它是一种主要资产类别。无论是生物序列、历史档案还是法律先例,市场现在提供了两条截然不同的道路:对于合作者而言,是数百万美元的许可合作伙伴关系;对于未经同意而被侵占资产者而言,是数十亿美元的诉讼。随着 AI 模型变得越来越专业化,小众、高完整性数据集的价值将继续超过通用网络抓取内容的价值。

d-nvest 将这些交易背后的数据资产转化为有评分、可操作的机会。

探索管道 →
EvolutionaryScale 融资 1.42 亿美元以扩展生物数据模型 | d-nvest