Poolside AI залучила $400 млн при оцінці в $2 млрд для LLM для коду та даних
Coatue та Dragoneer очолили масштабне вливання коштів у паризький стартап для масштабування пропрієтарних активів для генерації коду.
Poolside AI наближається до угоди про залучення приблизно $400 мільйонів (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation) у новому раунді фінансування, який оцінить компанію в $2 мільярди (https://www.bloomberg.com/news/articles/2024-06-27/ai-coding-startup-poolside-is-raising-400-million-at-2-billion-valuation). Раунд, очолюваний Coatue Management та Dragoneer Investment Group (https://techcrunch.com/2024/06/27/poolside-the-latest-genai-startup-to-move-to-france-is-nearing-a-400m-raise-at-a-2b-valuation/), сигналізує про масштабну ставку на спеціалізовані дані, необхідні для переходу великих мовних моделей (LLM) від загальної розмови до автономного програмного інжинірингу. Центруючи свою діяльність у Парижі, Poolside позиціонує себе в серці європейської екосистеми талантів та даних у сфері ШІ, зокрема націлюючись на пропрієтарні кодові бази та робочі процеси розробників, які визначають наступний рубіж інструментів продуктивності.
Спеціалізований захист даних: за межами загальних LLM
Капіталовкладення в Poolside AI підкреслюють ширший ринковий зсув у бік специфічних для домену активів даних. У той час як загальні моделі досягли плато корисності, стартапи, що зосереджуються на високоточних, спеціалізованих наборах даних, отримують преміальні оцінки. Стратегія Poolside обертається навколо навчання моделей на масивних, структурованих репозиторіях коду, які вимагають значно вищої точності, ніж стандартні текстові набори даних. Ця тенденція відображається в біологічному секторі, де EvolutionaryScale нещодавно оголосив про раунд посівного фінансування на суму $142 мільйони (https://www.reuters.com/technology/ai/ai-biology-startup-evolutionaryscale-raises-142-million-2024-06-25/) для комерціалізації своєї моделі ESM3. ESM3 навчалася на вражаючих 2,7 мільярдах послідовностей білків (https://techcrunch.com/2024/06/25/evolutionaryscale-is-biologys-ai-frontier-lab/), ілюструючи, що найціннішими активами даних сьогодні є ті, що відображають фундаментальні будівельні блоки науки та інженерії.
Ліцензійні війни: архіви проти доступу в реальному часі
Поки стартапи залучають фінансування для створення моделей, відомі ШІ-гіганти агресивно блокують доступ до історичних архівів даних. OpenAI уклала багаторічну угоду про ліцензування контенту з Time (https://openai.com/index/time-partnership/), отримавши доступ до 101 року архівного контенту (https://www.theverge.com/2024/6/27/24187515/openai-time-magazine-licensing-deal-ai-training) для вдосконалення своїх моделей та надання цитованих відповідей у ChatGPT. Ця угода відповідає моделі високоцінних партнерств з видавцями, такими як News Corp та Axel Springer, встановлюючи чітку ринкову ціну на текстові дані високої авторитетності. Для власників даних ці угоди представляють собою перехід від пасивного хостингу до активного управління активами, оскільки попит на перевірену, куровану людиною інформацію зростає у прямій відповіді на поширення згенерованого ШІ "сміття" в Інтернеті.
Регуляторний тиск та цілісність даних
Однак гонка за даними стикається зі значними юридичними та регуляторними перешкодами. Асоціація звукозаписної індустрії Америки (RIAA) подала позови проти генераторів ШІ-музики Suno та Udio (https://www.reuters.com/legal/major-record-labels-sue-ai-firms-suno-udio-over-copyright-infringement-2024-06-24/), вимагаючи відшкодування збитків у розмірі до $150 000 за кожну порушену роботу (https://www.billboard.com/business/legal/labels-sue-suno-udio-ai-copyright-infringement-1235716182/). Одночасно дизайнерський гігант Figma зіткнувся з негативною реакцією щодо своєї політики щодо даних для навчання ШІ (https://www.theverge.com/2024/6/27/24187315/figma-ai-tools-config-2024-training-data), що змусило компанію уточнити свої механізми відмови для корпоративних користувачів. Ці події свідчать про те, що хоча капітал для ШІ, що базується на даних, є надлишковим, ера "дикого заходу" несанкціонованого скрейпінгу закінчується. Такі компанії, як Glean, яка веде переговори про залучення $250 мільйонів (https://www.reuters.com/technology/ai-startup-glean-talks-raise-250-mln-45-bln-valuation-source-says-2024-06-25/) при оцінці в $4,5 мільярда (https://www.reuters.com/technology/ai-startup-glean-talks-raise-250-mln-45-bln-valuation-source-says-2024-06-25/), досягають успіху, зосереджуючись на безпечних, дозволених внутрішніх корпоративних даних, а не на контенті, зібраному з загальнодоступного веб-сайту.
Чому це важливо для власників даних
Оцінка Poolside AI та судові процеси проти музичних стартапів доводять, що ринок біфуркується: загальні дані стають товаром, тоді як спеціалізовані активи даних високої цілісності стають основним джерелом альфи. Для власників даних можливість полягає у переході від одноразового ліцензування до моделей даних як послуги (DaaS) на основі підписки. Оскільки Закон ЄС про ШІ починає забезпечувати прозорість навчальних наборів, походження даних стане таким же цінним, як і самі дані, перетворюючи відповідність нормативним вимогам на конкурентну перевагу для інституційних власників даних.
d-nvest перетворює активи даних, що стоять за цими угодами, на оцінені, дієві можливості.
Дослідити конвеєр →