数据集的价值是多少?4种估值方法
成本、市场、买家价值、未来现金流:根据方法不同,同一文件的价值可相差25倍。学习如何交叉验证这些方法。
数据集的价值是多少?
4种估值方法
10 张幻灯片 · 滑动或使用方向键核心议题
价值并非账面可见
标普500指数公司约90%的价值是无形资产(1975年为17%)——但数据几乎从未在资产负债表中体现。
┌ Ocean Tomo, 2020 · Laney, Infonomics, 2017
方法一
重置成本
重新创建该数据需要多少成本?可作为参考。局限性:衡量的是支出,而非价值。
┌ OCDE, Measuring the Value of Data 2022
方法二
市场/可比数据
类似数据能卖多少钱?局限性:可比数据稀少且不透明 → 主要用于一致性检查。
方法三
买方价值(增值)
该数据能为买方带来多少收益?(避免的版税,额外利润)。局限性:难以分离出数据本身带来的价值。
方法四
未来现金流折现(DCF)
归因于数据的未来收入的现值。是“买方价值”方法的量化形式。
┌ Cheong et al., JRFM/MDPI 2023
溢价或折价?
推高(或拉低)价格的因素
- 时效性、独特性、数量、粒度
- GDPR合规性:无合法基础,价值≈0
- 供需关系优先于内在价值
┌ Laney/Gartner (IVI) · DAMA-DMBOK
价格参考
数量级(非合同)
- 市场中位数约1400美元/月 或约2200美元/次
- B2B联系方式约0.01–1.50美元(数据时效性约30%/年)
- AI文本许可=打包价(Reddit 6000万美元/年)
┌ Azcoitia et al., arXiv 2021
证据(量化)
方法决定一切:×25
一个B2B客户文件(可归因年收入100万美元):成本≈15万美元,避免的版税≈13.3万美元,超额收益≈380万美元。→ 方法使价值变化约25倍。
┌ 教学示例(Eton VS / Deloitte)
要点
交叉验证,而非选择
d-nvest的估值报告正是这样做的。
- 没有单一方法能给出“唯一”价格
- 交叉验证方法 + 真实可比数据
- 置信度指数用于界定估值范围
关于数据变现或采购有疑问?
与专家交流 — 无任何约束。
完整指南
一个数据集值多少钱?这个问题很棘手,因为数据的价值并非账面可见:如今标普500指数公司约90%的价值是无形资产(相比之下,1975年为17%,Ocean Tomo),但数据几乎从未在资产负债表中体现(Laney, Infonomics)。有四种方法可以估算其价值。
成本法衡量重新创建数据所需的成本:简单明了,可作为参考,但它衡量的是支出而非价值(OCDE, 2022)。市场法将其与在其他地方出售的类似数据进行比较;由于可比数据稀少且不透明,它主要用于一致性检查。买方价值法(增值、避免版税、有/无数据对比)量化了数据为买方带来的收益;其难点在于分离出真正归因于数据的价值部分。最后,未来现金流折现法(DCF)计算归因于数据的未来收入的现值——这是买方价值方法的量化形式(Cheong et al., 2023)。公认的框架通常只包含三种(成本/市场/收入),DCF是第三种方法的变体。
随后,有几个因素会影响溢价或折价:时效性、独特性、数量、粒度、准确性、权利/许可,尤其是GDPR合规性——没有合法基础,价值几乎为零。主导规则是:供需关系优先于内在价值。在价格参考方面,市场中位数约为每月1400美元(或单次约2200美元,arXiv 2021),B2B联系方式价值几美分到1.50美元,AI文本许可采用打包价(Reddit,约每年6000万美元)。
关键启示:一个产生每年100万美元可归因收入的B2B客户文件,通过成本法估值约为15万美元,通过避免版税估值约为13.3万美元,通过超额收益估值约为380万美元——根据方法不同,倍数约为25倍。因此结论是:我们不选择一种方法,而是交叉验证它们,将其与真实可比数据进行对比,并用置信度指数来界定结果。这正是d-nvest估值报告所产生的。
来源
- Deloitte — Valuing Data Assets (2025)
- OCDE — Measuring the Value of Data (2022)
- Azcoitia et al. — Data marketplace prices (arXiv, 2021)
- Cheong et al. — DCF for data (JRFM/MDPI, 2023)
教育内容 — 非法律或财务建议。每个数据均标注来源和年份。