Скільки коштує ваш набір даних? 4 методи оцінки даних для ШІ
Опануйте чотири фреймворки, щоб подолати розрив у 25 разів між вартістю даних та їхньою корисністю.
На бурхливому ринку штучного інтелекту дані перетворилися з побічного продукту операцій на основний актив балансу. Однак, на відміну від товарів, таких як нафта чи золото, дані не мають стандартизованої спотової ціни. Один набір даних — наприклад, колекція з 50 000 анонімізованих медичних записів — може коштувати 10 000 доларів США на основі витрат на його збір, але при цьому коштувати понад 250 000 доларів США, якщо він надає «відсутню ланку» для точності діагностичного ШІ. Ця різниця у 25 разів не є аномалією; це результат використання різних лінз оцінки.
Розрив в оцінці: Чому ціноутворення на дані не є лінійним
Оцінка даних є суб'єктивною та залежить від контексту. Для власника даних цінність часто полягає в зусиллях, витрачених на їх отримання. Для покупця цінність полягає в граничній корисності, яку дані надають конкретній моделі. Подолання цього розриву вимагає багатометодологічного підходу. Для глибшого занурення в математичні фреймворки зверніться до нашого вичерпного посібника про те, скільки коштує набір даних та методи його оцінки.
Метод 1: Підхід «Витрати на відтворення»
Цей метод встановлює «підлогу» для оцінки. Він розраховує загальні витрати, необхідні для збору, очищення, маркування та зберігання даних з нуля. Це включає витрати на оплату праці науковців даних та витрати на інфраструктуру зберігання та обчислень. Хоча цей метод є об'єктивним, він часто недооцінює унікальні або історичні дані, які неможливо відтворити. Для контексту, середня вартість витоку даних — часто використовується як показник базової «замінної вартості» конфіденційних корпоративних даних — становила 4,45 мільйона доларів США у світі у 2023 році (https://www.ibm.com/reports/data-breach).
Метод 2: Ринкові порівняння та бенчмаркінг
З розвитком вторинного ринку даних ми можемо звертатися до розкритих угод для встановлення орієнтирів. Цей метод розглядає, за скільки були продані подібні набори даних за останні місяці. Щоб побачити, як подібні активи позиціонуються на ринку, перегляньте каталог наборів даних на нашій платформі. Нещодавні гучні орієнтири включають:
- Контент соціальних мереж: Ліцензійна угода Reddit з Google була розкрита приблизно на 60 мільйонів доларів США на рік (https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/).
- Новини та текст: Багаторічне партнерство News Corp з OpenAI оцінюється більш ніж у 250 мільйонів доларів США протягом п'яти років (https://www.wsj.com/business/media/openai-news-corp-strike-content-deal-valued-at-over-250-million-07353903).
- Візуальний медіаконтент: Shutterstock повідомив про дохід від ліцензування даних у розмірі 104 мільйонів доларів США лише за 2023 рік (https://investor.shutterstock.com/news-releases/news-release-details/shutterstock-reports-fourth-quarter-and-full-year-2023-financial).
Метод 3: Оцінка на основі доходу та корисності
Це найбільш агресивний і часто найточніший метод для покупців з високими намірами. Він розраховує чисту теперішню вартість (NPV) майбутніх грошових потоків, які очікується генерувати від даних. Якщо набір даних покращує точність моделі прогнозованого технічного обслуговування на 5%, а ці 5% зменшують операційні простої на 1 мільйон доларів США щорічно, корисність даних безпосередньо пов'язана з цією економією в 1 мільйон доларів США. Згідно з дослідженням EY, компанії, керовані даними, які успішно монетизують ці утиліти, часто оцінюються з премією від 15% до 20% порівняно зі своїми конкурентами (https://www.ey.com/en_gl/strategy/how-to-value-your-data).
Метод 4: Економічна додана вартість (EVA) у продуктивності моделі
При навчанні ШІ цінність набору даних часто є логарифмічною. Перші 1 мільйон рядків є цінними, але 1000 рядків, що охоплюють «крайні випадки» (рідкісні події), можуть коштувати в 100 разів більше. Покупці використовують «A/B тестування» на моделях: вони навчають модель без нових даних, а потім з ними. «Дельта» в продуктивності — виміряна за показником F1, точністю або повнотою — визначає ціну. Якщо ваші дані вирішують проблему «холодного старту» для нового продукту ШІ, їхня цінність досягає піку.
Контрольний список: Фактори, що множать цінність даних
- Ексклюзивність: Чи доступні дані деінде? Дані, зібрані з загальнодоступного веб-сайту, мають майже нульову граничну цінність; пропрієтарні дані датчиків мають високу цінність.
- Швидкість розпаду: Чи втрачають дані цінність з часом? Фінансові дані в реальному часі втрачають цінність за секунди; дані медичної візуалізації залишаються актуальними десятиліттями.
- Відповідність: Чи є дані «чистими» щодо GDPR або Закону ЄС про дані? Невідповідні дані є зобов'язанням, а не активом.
- Щільність: Чи містять дані високосигнальну інформацію, чи це переважно шум?
Що це означає для вас
Для власників даних мета полягає в тому, щоб перевести розмову з Методу 1 (Витрати) на Метод 3 (Дохід). Розуміючи конкретні випадки використання ШІ, які дозволяють ваші дані, ви можете обґрунтувати оцінку, яка в 10-25 разів перевищує ваші внутрішні витрати на придбання. Для покупців Метод 4 (EVA) забезпечує необхідну дисципліну, щоб переконатися, що ви не переплачуєте за надлишкову інформацію. Незалежно від того, чи бажаєте ви виставити на продаж пропрієтарний архів, чи придбати високосигнальний навчальний набір, d-nvest надає рівень інтелекту для подолання цих розривів в оцінці.
d-nvest перетворює активи даних, що стоять за цими угодами, на оцінені, дієві можливості.
Дослідити конвеєр →