Scale AI залучила 1 мільярд доларів у рамках раунду серії F для зміцнення ланцюга постачання даних для ШІ
Accel очолив масштабний раунд фінансування на 1 мільярд доларів, оцінивши лідера в галузі маркування даних у 13,8 мільярда доларів.
Компанія Scale AI завершила раунд фінансування серії F на суму 1 мільярд доларів США, підвищивши свою оцінку до 13,8 мільярда доларів США на тлі стрімкого зростання глобального попиту на високоякісні навчальні дані. Раунд очолила компанія Accel за значної участі найбільш активних інвесторів у сфері ШІ, зокрема Nvidia, Amazon та Meta. Це вливання капіталу відбувається в критичний момент, коли «стіна даних» — загроза нестачі високоякісних текстових даних та медіа, створених людьми — може зупинити масштабування, яке стимулювало бум генеративного ШІ.
Індустріалізація маркування даних
Новий капітал Scale AI призначений для розширення її Data Engine — пропрієтарної інфраструктури, що використовується для доопрацювання сирих наборів даних, необхідних для передових моделей. На відміну від ранніх днів простого тегування зображень, сучасний ринок вимагає складного навчання з підкріпленням на основі зворотного зв'язку від людини (RLHF). Scale AI позиціонує себе як необхідного посередника, перетворюючи сирі цифрові дані на структуровані токени з високим рівнем міркувань, які живлять такі моделі, як GPT-4 та Claude 3. Участь великих розробників моделей як інвесторів свідчить про стратегічний крок із забезпечення власних ланцюжків постачання даних проти конкурентів.
Стратегічне ліцензування та перехід до даних у реальному часі
Раунд Scale AI є частиною ширшої структурної зміни у способах отримання та оцінки даних. Оскільки галузь відмовляється від несанкціонованого веб-скрейпінгу, прямі ліцензійні угоди стають стандартом. Цей зсув був підкреслений цього тижня істотною партнерською угодою OpenAI з Reddit, яка надає гіганту ШІ доступ до API даних Reddit. Інтегруючи людські розмови в реальному часі, OpenAI прагне підвищити актуальність ChatGPT, одночасно надаючи Reddit функції на основі ШІ для своїх користувачів та модераторів. Ця угода відображає річну угоду на суму близько 60 мільйонів доларів США, яку Google уклав з Reddit раніше цього року, встановлюючи чітку ринкову ціну на соціальні дані у великих обсягах.
Захист інтелектуальної власності та регуляторний відгук
У той час як деякі платформи зосереджуються на монетизації, інші будують захисні рови. Sony Music Group нещодавно видала офіційне попередження понад 700 технологічним компаніям, явно відмовляючись від будь-якого несанкціонованого використання свого контенту для навчання ШІ. Ці масштабні зусилля із захисту інтелектуальної власності підкреслюють зростаюче тертя між розробниками ШІ, які потребують даних, та власниками преміальних творчих активів. Водночас регулятори посилюють контроль за практиками збору даних. Управління комісара з питань інформації Великобританії (ICO) нещодавно оновило свої рекомендації щодо веб-скрейпінгу, уточнивши, що персональні дані, отримані з загальнодоступної мережі для навчання ШІ, залишаються під дією суворих законів про захист даних.
Інфраструктура та спеціалізовані ринки даних
Капітал, що надходить у сферу даних, поступається лише інвестиціям у апаратне забезпечення, необхідне для їх обробки. CoreWeave нещодавно отримала боргове фінансування на суму 7,5 мільярда доларів США від Blackstone та Magnetar для розширення своєї інфраструктури центрів обробки даних, спеціалізованих на ШІ. З боку програмного забезпечення значний успіх також спостерігається у стартапів, орієнтованих на дані. DeepL, спеціаліст з перекладу мов, залучив 300 мільйонів доларів США при оцінці в 2 мільярди доларів США, доводячи, що нішеві, високоточні набори даних для перекладу та корпоративного спілкування залишаються дуже цінними. Крім того, Lamini залучила 25 мільйонів доларів США, щоб допомогти підприємствам доопрацьовувати моделі на основі власних пропрієтарних внутрішніх даних, уникаючи ризиків дефіциту загальнодоступних даних.
Чому це важливо для власників даних
Для власників даних оцінка Scale AI та угода між Reddit та OpenAI підтверджують, що пропрієтарні дані більше не є побічним продуктом — це першокласний клас активів. З наближенням «стіни даних» премія за чисті, перевірені людьми та юридично відповідні набори даних буде лише зростати. Організації, які володіють великими архівами спеціалізованих знань, будь то в соціальних мережах, охороні здоров'я чи мистецтві, тепер мають значний важіль для переговорів щодо довгострокових ліцензійних доходів, а не дозволяти своїм активам бути товаром для загальних веб-сканерів.
d-nvest перетворює активи даних, що стоять за цими угодами, на оцінені, дієві можливості.
Дослідити конвеєр →