OpenAI та Time уклали багаторічну угоду про ліцензування даних
OpenAI отримує доступ до 101 року архівів Time для вдосконалення ChatGPT та навчання моделей наступного покоління.
OpenAI офіційно уклала багаторічну угоду про ліцензування контенту з Time Magazine, надавши ШІ-гіганту доступ до понад 101 року архівних матеріалів для вдосконалення своїх генеративних моделей та покращення відповідей ChatGPT у реальному часі. Хоча конкретні фінансові умови залишаються нерозголошеними, галузеві показники свідчать про те, що угода відповідає траєкторії оцінки попереднього багаторічного партнерства OpenAI з News Corp на суму 250 мільйонів доларів (https://www.cnbc.com/2024/05/22/news-corp-strikes-multiyear-deal-with-openai/). Це останнє придбання преміальних редакційних даних дозволяє OpenAI відображати журналістику Time з належним цитуванням та посиланнями, одночасно використовуючи столітній репозиторій для тренування моделей на бекенді.
Стратегічний поворот до ліцензованих редакційних активів
Партнерство з Time не є поодинокою подією, а ключовим стовпом стратегії OpenAI щодо мінімізації юридичних ризиків та забезпечення високоякісних даних. Ліцензуючи архіви, що охоплюють період з 1923 року, OpenAI фактично купує куровану історію 20-го та 21-го століть. Цей крок слідує за низкою подібних висококласних придбань, включаючи угоди з Vox Media та The Atlantic, а також з міжнародними видавцями, такими як Axel Springer та Le Monde. Ринок перевірених, створених людиною даних досяг піку, оскільки розробники ШІ стикаються зі зростаючим тиском щодо відмови від несанкціонованого веб-скрейпінгу, який спричинив масові судові позови щодо авторських прав.
Для Time ця угода є критичною монетизацією її спадкових активів. Видання отримає доступ до технологій OpenAI для розробки нових інструментів для своїх читачів, що свідчить про глибшу інтеграцію між традиційними медіа та інфраструктурою ШІ. Ця тенденція відображається і в інших сферах ринку; наприклад, SoftBank нещодавно інвестував 200 мільйонів доларів (https://www.bloomberg.com/news/articles/2024-06-24/softbank-invests-200-million-in-ai-medical-firm-tempus-ai) у Tempus AI, компанію, що спеціалізується на використанні величезних бібліотек клінічних даних для розвитку прецизійної медицини. Незалежно від того, чи йдеться про журналістику, чи про охорону здоров'я, цінність базового набору даних є основним драйвером розподілу капіталу.
Юридичний тиск та кінець безкоштовного скрейпінгу
Нагальність ліцензійної кампанії OpenAI підкреслюється жорсткішим юридичним середовищем. Саме цього тижня найбільші світові музичні лейбли, включаючи Sony Music та Universal Music Group, подали великий позов проти стартапів у сфері ШІ Suno та Udio, стверджуючи про несанкціоноване використання захищених авторським правом записів для тренування їхніх систем. Лейбли вимагають відшкодування збитків у розмірі до 150 000 доларів США (https://www.reuters.com/legal/major-record-labels-sue-ai-firms-suno-udio-over-copyright-infringement-2024-06-24/) за кожний порушений твір. Це судове провадження висвітлює екзистенційну загрозу для компаній ШІ, які покладаються на аргументи "добросовісного використання" для великомасштабного введення даних без компенсації.
Водночас постачальники інфраструктури залучають значні кошти для підтримки обробки цих ліцензованих наборів даних. Etched, спеціалізований виробник мікросхем, залучив 120 мільйонів доларів (https://techcrunch.com/2024/06/25/etched-raises-120m-to-build-a-chip-that-only-runs-transformer-models/) у рамках фінансування Серії А для створення обладнання, спеціально розробленого для більш ефективного запуску трансформерних моделей. З розвитком галузі фокус зміщується з загальної обчислювальної потужності на спеціалізовані системи, здатні витягувати максимальну цінність із специфічних, високоякісних даних, що розблоковуються угодами, подібними до пакту OpenAI-Time.
Регуляторні обмеження посилюються в усьому світі
Регуляторне середовище також вимагає більш прозорого підходу до придбання даних. Закон ЄС про ШІ наближається до повного впровадження, вимагаючи від розробників загальних моделей ШІ надавати детальні резюме даних, використаних для тренування. Ця вимога щодо прозорості ускладнює приховування компаніями використання зібраного або піратського контенту. У цьому контексті пряма ліцензійна угода є не просто контентною стратегією; це необхідність для дотримання нормативних вимог.
Ринок спостерігає розшарування між "чистими" моделями, навченими на ліцензованих даних, та "високоризикованими" моделями, які продовжують покладатися на суперечливий скрейпінг. Інвестори явно віддають перевагу першим, про що свідчать обговорення між Apple та Meta щодо потенційної інтеграції моделей Llama від Meta в Apple Intelligence — угода, яка, ймовірно, вимагатиме суворих гарантій походження даних для задоволення стандартів конфіденційності та юридичних стандартів Apple.
Чому це важливо для власників даних
Угода OpenAI-Time підтверджує, що ера "дані як актив" перейшла від теорії до реальності вартістю в мільйони доларів. Для власників пропрієтарних наборів даних — чи то історичні архіви, клінічні записи, чи технічна документація — поточний ринок пропонує унікальне вікно для монетизації неактивних активів. Оскільки розробники ШІ вичерпують запаси високоякісних загальнодоступних веб-даних, премія за ексклюзивні, перевірені людиною та юридично очищені набори даних продовжуватиме зростати. Власники даних повинні розглядати свої архіви не просто як запис минулого, а як необхідне паливо для наступного покоління промислового та споживчого інтелекту.
d-nvest перетворює активи даних, що стоять за цими угодами, на оцінені, дієві можливості.
Дослідити конвеєр →