EvolutionaryScale залучила 142 млн доларів для навчання ШІ на 2,8 мільярдах послідовностей білків
Біологічний стартап зі штучним інтелектом, очолюваний Lux Capital, націлений на ринок розробки ліків за допомогою пропрієтарних геномних наборів даних.
EvolutionaryScale завершила раунд посівного фінансування на суму 142 мільйони доларів (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/) для комерціалізації ESM3, генеративної моделі ШІ, навченої на величезному корпусі з 2,78 мільярдів послідовностей білків (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/). Раунд, очолюваний Lux Capital, Nat Friedman та Daniel Gross, за участю Amazon та NVentures (венчурний підрозділ Nvidia), сигналізує про рішучий зсув на ринку даних-активів: перехід від загальних LLM до спеціалізованих біологічних моделей даних високої точності. ESM3 є одним із найбільших застосувань наукових даних в епоху ШІ, маючи 98 мільярдів параметрів (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/) та здатність симулювати 500 мільйонів років еволюції для розробки нових білків.
Фронтир біологічних даних
На відміну від текстових наборів даних, які живили першу хвилю генеративного ШІ, ціннісна пропозиція EvolutionaryScale повністю побудована на курації та обробці геномних та протеомних даних. Навчаючись на мільярдах послідовностей, компанія фактично створює шар "програмованої біології". Цей крок підкреслює премію, яка зараз надається структурованим науковим даним, які набагато рідкісніші та складніші для обробки, ніж загальнодоступний веб-текст. Участь Amazon та Nvidia (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/) свідчить про те, що постачальники інфраструктури прагнуть закріпитися в конвеєрі біологічних даних, який, як очікується, революціонізує фармацевтичний сектор R&D вартістю 1 трильйон доларів.
Стратегічне придбання даних OpenAI
Прагнення до ефективності даних не обмежується біологією. OpenAI нещодавно оголосила про придбання Rockset (https://openai.com/index/openai-to-acquire-rockset/), компанії, що займається базами даних для пошуку та аналітики в реальному часі. Це придбання є чітким тактичним кроком для посилення можливостей OpenAI з генерації, доповненої пошуком (RAG). Інтегруючи технологію Rockset, OpenAI може ефективніше індексувати та запитувати величезні набори даних, надані її корпоративними партнерами, перетворюючи статичні сховища даних на динамічну, дієву розвідку. Ця угода підкреслює зростаюче значення інтерфейсу "дані-модель" — програмного шару, який визначає, наскільки ефективно ШІ може отримувати доступ до пропрієтарних корпоративних активів та міркувати над ними.
Захоплення клінічних даних
Ще більше підкреслюючи цінність спеціалізованих даних, HEALWELL AI уклала остаточну угоду про придбання BioPharma Services (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html) приблизно за 11,5 мільйонів доларів (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html). BioPharma Services є повносервісною контрактною дослідницькою організацією (CRO), яка володіє глибокими активами даних клінічних випробувань. Для HEALWELL це не просто розширення послуг, а стратегічне придбання конвеєра даних. Доступ до високоякісних даних клінічних випробувань є основним вузьким місцем для розробки ліків за допомогою ШІ та персоналізованої медицини, а придбання CRO надає пряме, пропрієтарне джерело даних "істини" (ground truth), необхідних для навчання діагностичних та терапевтичних моделей.
Регуляторні стіни та портативність даних
Зі зростанням цінності даних регулятори вживають заходів для забезпечення того, щоб ця цінність не була замкнена за "стінами" великих технологічних компаній. Європейська Комісія нещодавно опублікувала попередні висновки про те, що Apple порушує Закон про цифрові ринки (DMA) (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433). Розслідування зосереджено на правилах Apple щодо спрямування, які забороняють розробникам вільно спрямовувати споживачів до альтернативних пропозицій та екосистем даних. Цей регуляторний тиск є частиною ширшої глобальної тенденції, спрямованої на забезпечення портативності та взаємосумісності даних. Для інвесторів у дані ці рішення є критично важливими: вони сигналізують про майбутнє, де контроль над даними користувачів та можливість їх монетизації через вторинне ліцензування будуть підлягати інтенсивному антимонопольному контролю.
Чому це важливо для власників даних
Угоди EvolutionaryScale та Healwell демонструють, що найприбутковіші активи даних більше не знаходяться у "відкритому вебі", а в спеціалізованих доменах з високими бар'єрами для входу, таких як геноміка та клінічна медицина. Для власників даних урок очевидний: ринок відходить від ліцензування великих обсягів даних до високоточних, структурованих наборів даних, які можуть бути безпосередньо оброблені спеціалізованими архітектурами ШІ. Чи то послідовності білків, чи то корпоративні дані в реальному часі, цінність полягає в унікальній здатності даних вирішувати специфічні, високоцінні проблеми, які не можуть вирішити загальні моделі. Стратегії монетизації повинні зосереджуватися на чистоті даних, відповідності нормативним вимогам та здатності інтегруватися з найновішими архітектурами RAG та генеративними архітектурами.
d-nvest перетворює активи даних, що стоять за цими угодами, на оцінені, дієві можливості.
Дослідити конвеєр →