EvolutionaryScale залучила $142 млн для ШІ в галузі біологічних даних
Колишні дослідники Meta запускають ESM3, передову модель, навчену на 2,7 мільярдах послідовностей білків для програмування біології.
EvolutionaryScale закрила раунд початкового фінансування на суму $142 мільйони (https://www.evolutionaryscale.ai/blog/esm3-release), очолюваний Нейтом Фрідманом, Даніелем Гроссом та Lux Capital, для комерціалізації передових моделей ШІ для біологічних даних. Цей приплив капіталу є одним з найбільших початкових раундів в історії біотехнологічного ШІ, що свідчить про агресивний ринковий попит на "Фізичний ШІ" — системи, здатні розуміти та маніпулювати будівельними блоками фізичного світу. В основі угоди лежить випуск ESM3, генеративної моделі, навченої на пропрієтарному та загальнодоступному наборі даних, що охоплює 2,7 мільярда послідовностей білків (https://www.evolutionaryscale.ai/blog/esm3-release), що дозволяє дослідникам ефективно "програмувати" біологію, симулюючи мільярди років еволюції в цифровому середовищі.
Багатомодальна перевага в активах біологічних даних
На відміну від попередніх ітерацій білкових мовних моделей, ESM3 є багатомодальною передовою моделлю. Вона не просто прогнозує структуру; вона одночасно міркує про послідовність, структуру та функцію. Обробляючи набір даних з 2,7 мільярда послідовностей та їх відповідних 3D-структур (https://www.evolutionaryscale.ai/blog/esm3-release), модель може генерувати абсолютно нові білки, яких не існує в природі. Ця можливість перетворює біологічні дані з пасивного запису еволюції на активний актив для відкриття ліків, уловлювання вуглецю та матеріалознавства. Компанія, заснована командою, що стояла за проектом ESM від Meta, позиціонує себе як "OpenAI біології", пропонуючи версію моделі науковій спільноті, зберігаючи при цьому високопродуктивні версії для комерційних партнерств.
Фізичний ШІ та зміна монетизації даних
Угода EvolutionaryScale підкреслює ширшу тенденцію, коли найцінніші активи даних зміщуються від тексту, створеного людиною, до спостережень за фізичним світом. У той час як великі мовні моделі для тексту стикаються зі зменшенням віддачі та юридичними перешкодами щодо авторського права, біологічні дані пропонують величезний, невикористаний простір. Модель ESM3 була навчена з використанням приблизно 1,0 x 10^24 FLOPS обчислювальної потужності (https://www.evolutionaryscale.ai/blog/esm3-release), масштабу, який раніше був зарезервований для передових загальних моделей. Ця інвестиція підкреслює високу вартість — і високий потенційний прибуток — навчання моделей на спеціалізованих, високоточних фізичних даних. З розвитком фізичного ШІ очікується, що ліцензування структурованих біологічних, хімічних та роботизованих наборів даних перевершить загальні дані, зібрані з Інтернету, за вартістю за токен.
Конкурентне середовище: Дані як конкурентна перевага в науках про життя
EvolutionaryScale виходить на ринок, який наразі домінує AlphaFold 3 від DeepMind, але з чітким фокусом на генеративному дизайні, а не лише на прогнозуванні структури. Конкурентна перевага в цьому секторі зміщується від архітектури моделі до масштабу та якості навчального корпусу. Відкриваючи ваги для версії ESM3 з 1,4 мільярда параметрів, компанія намагається встановити галузевий стандарт для представлення біологічних даних. Тим часом інші гравці в екосистемі забезпечують власні конвеєри даних; наприклад, Poolside, за повідомленнями Bloomberg, веде переговори про залучення приблизно $500 мільйонів для застосування подібних принципів фундаментальних моделей до даних програмної інженерії, що ще більше ілюструє гонку за домінування в конкретних вертикальних доменах даних.
Регулювання та законність придбання даних
Зі зростанням масштабів цих моделей правова база щодо того, як придбаваються дані, залишається критичним переломним моментом для інвесторів. У знаковому рішенні для індустрії даних суд США нещодавно виніс рішення на користь Bright Data у її тривалій судовій боротьбі з Meta (https://brightdata.com/blog/court-rules-in-favor-of-bright-data), підтвердивши, що парсинг загальнодоступних даних не порушує Закон про шахрайство та зловживання комп'ютерами (CFAA) або не порушує контракти, коли дані не захищені логіном. Це рішення надає життєво важливий юридичний щит для компаній ШІ, таких як EvolutionaryScale, які покладаються на великомасштабний збір загальнодоступних наукових баз даних для доповнення своїх пропрієтарних навчальних наборів. Однак, регуляторний тиск зростає в іншому місці; Європейська комісія нещодавно повідомила Apple про свій попередній висновок, що правила її App Store порушують Закон про цифрові ринки (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433), нагадуючи, що контролери даних перебувають під зростаючим наглядом щодо того, як вони контролюють доступ до даних екосистеми.
Інновації в інфраструктурі та ліцензуванні
Інфраструктура, необхідна для обробки цих біологічних наборів даних, також розвивається. Etched нещодавно оголосила про раунд фінансування Series A на суму $120 мільйонів (https://www.etched.com/announcing-etched) для створення спеціалізованих чіпів для трансформерних моделей, спрямованих на забезпечення обчислювальної ефективності, необхідної для наступного покоління фізичного ШІ, що інтенсивно використовує дані. Щодо ліцензування, Perplexity AI запустила нову "Програму для видавців" (https://www.perplexity.ai/hub/blog/perplexity-publishers-program) для створення моделі розподілу доходів з власниками даних, включаючи Time та Der Spiegel. Цей крок свідчить про дозрівання ринку даних для ШІ, відмовляючись від несанкціонованого парсингу на користь структурованих, багаторічних ліцензійних угод, які надають компаніям ШІ стабільні, високоякісні конвеєри даних, одночасно компенсуючи оригінальних творців.
Чому це важливо для власників даних
Для власників даних угода EvolutionaryScale доводить, що високоспеціалізовані, нетекстові набори даних — такі як геномні послідовності або структури білків — тепер є одними з найцінніших активів в економіці ШІ. Оскільки фундаментальні моделі проникають у фізичні науки, здатність надавати чисті, структуровані та етично отримані дані для "Фізичного ШІ" буде вимагати преміальних ліцензійних платежів. Власники даних повинні зосередитися на аудиті своїх пропрієтарних наборів даних на предмет їх генеративного потенціалу, оскільки ринок швидко зміщується від простого зберігання даних до активного ліцензування активів для навчання та доналаштування моделей.
d-nvest перетворює активи даних, що стоять за цими угодами, на оцінені, дієві можливості.
Дослідити конвеєр →