biological aiphysical aifunding rounddata licensing4. Juli 2026

EvolutionaryScale sichert sich 142 Mio. $ für KI für biologische Daten

Ehemalige Meta-Forscher starten ESM3, ein Frontier-Modell, das auf 2,7 Milliarden Proteinsequenzen trainiert wurde, um Biologie zu programmieren.

EvolutionaryScale hat eine bekannt gegebene Seed-Finanzierungsrunde in Höhe von 142 Millionen US-Dollar (https://www.evolutionaryscale.ai/blog/esm3-release) unter der Leitung von Nat Friedman, Daniel Gross und Lux Capital abgeschlossen, um fortschrittliche KI-Modelle für biologische Daten zu kommerzialisieren. Die Kapitalzuführung stellt eine der größten Seed-Finanzierungsrunden in der Geschichte der auf Biotech fokussierten KI dar und signalisiert eine aggressive Marktnachfrage nach „Physical AI“ – Systemen, die in der Lage sind, die Bausteine der physischen Welt zu verstehen und zu manipulieren. Im Mittelpunkt der Transaktion steht die Veröffentlichung von ESM3, einem generativen Modell, das auf einem proprietären und öffentlichen Datensatz von 2,7 Milliarden Proteinsequenzen (https://www.evolutionaryscale.ai/blog/esm3-release) trainiert wurde und es Forschern ermöglicht, Biologie effektiv zu „programmieren“, indem Milliarden von Evolutionsjahren in einer digitalen Umgebung simuliert werden.

Der Multi-Modale Vorteil bei biologischen Datenassets

Im Gegensatz zu früheren Iterationen von Protein-Sprachmodellen ist ESM3 ein multimodales Frontier-Modell. Es sagt nicht nur die Struktur voraus; es schließt von Sequenz, Struktur und Funktion gleichzeitig. Durch die Verarbeitung eines Datensatzes von 2,7 Milliarden Sequenzen und ihren entsprechenden 3D-Strukturen (https://www.evolutionaryscale.ai/blog/esm3-release) kann das Modell völlig neue Proteine generieren, die in der Natur nicht vorkommen. Diese Fähigkeit verwandelt biologische Daten von einer passiven Aufzeichnung der Evolution in ein aktives Asset für die Arzneimittelentwicklung, Kohlenstoffabscheidung und Materialwissenschaft. Das Unternehmen, das vom Team hinter Metas ESM-Projekt gegründet wurde, positioniert sich als das „OpenAI der Biologie“ und bietet der wissenschaftlichen Gemeinschaft eine Version des Modells an, während es Hochleistungsversionen für kommerzielle Partnerschaften behält.

Physical AI und der Wandel der Datenmonetarisierung

Die Transaktion von EvolutionaryScale unterstreicht einen breiteren Trend, bei dem die wertvollsten Datenassets von menschengenerierten Texten zu Beobachtungen der physischen Welt übergehen. Während LLMs für Text mit abnehmenden Erträgen und rechtlichen Hürden bezüglich des Urheberrechts konfrontiert sind, bieten biologische Daten eine riesige, unerschlossene Grenze. Das ESM3-Modell wurde mit etwa 1,0 x 10^24 FLOPS Rechenleistung (https://www.evolutionaryscale.ai/blog/esm3-release) trainiert, eine Skala, die bisher Spitzenmodellen für allgemeine Zwecke vorbehalten war. Diese Investition unterstreicht die hohen Kosten – und das hohe potenzielle Ertragspotenzial – des Trainings von Modellen auf spezialisierten, hochauflösenden physischen Daten. Mit der Reifung von Physical AI wird erwartet, dass die Lizenzierung von strukturierten biologischen, chemischen und robotischen Datensätzen hinsichtlich des Wertes pro Token die allgemeinen Web-Crawling-Daten übertreffen wird.

Die Wettbewerbslandschaft: Daten-Moats in den Life Sciences

EvolutionaryScale tritt in einen Markt ein, der derzeit von DeepMinds AlphaFold 3 dominiert wird, jedoch mit einem deutlichen Fokus auf generatives Design und nicht nur auf strukturelle Vorhersagen. Der Wettbewerbsvorteil in diesem Sektor verlagert sich von der Modellarchitektur hin zur Skalierung und Qualität des Trainingskorpus. Durch die Open-Source-Veröffentlichung der Gewichte für eine 1,4-Milliarden-Parameter-Version von ESM3 versucht das Unternehmen, den Industriestandard für die Darstellung biologischer Daten zu setzen. Unterdessen sichern sich andere Akteure im Ökosystem ihre eigenen Datenpipelines; so soll Poolside laut Bloomberg in Gesprächen sein, um schätzungsweise 500 Millionen US-Dollar aufzubringen, um ähnliche Foundation-Modellprinzipien auf Software-Engineering-Daten anzuwenden, was den Ansturm zur Beherrschung spezifischer vertikaler Datenbereiche weiter verdeutlicht.

Regulierung und die Rechtmäßigkeit der Datenbeschaffung

Mit zunehmender Skalierung dieser Modelle bleibt der rechtliche Rahmen für die Datenbeschaffung ein kritischer Dreh- und Angelpunkt für Investoren. In einer bedeutenden Entscheidung für die Datenbranche hat ein US-Gericht kürzlich zugunsten von Bright Data in seinem langjährigen Rechtsstreit mit Meta (https://brightdata.com/blog/court-rules-in-favor-of-bright-data) entschieden und bestätigt, dass das Scraping öffentlicher Daten nicht gegen den Computer Fraud and Abuse Act (CFAA) verstößt oder Verträge verletzt, wenn die Daten nicht hinter einem Login liegen. Diese Entscheidung bietet einen wichtigen rechtlichen Schutzschild für KI-Unternehmen wie EvolutionaryScale, die auf die groß angelegte Erfassung öffentlicher wissenschaftlicher Datenbanken angewiesen sind, um ihre proprietären Trainingsdatensätze zu ergänzen. Allerdings nimmt der regulatorische Druck anderswo zu; die Europäische Kommission hat Apple kürzlich darüber informiert, dass ihre vorläufige Ansicht ist, dass ihre App-Store-Regeln gegen den Digital Markets Act (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433) verstoßen, eine Erinnerung daran, dass Datengatekeeper zunehmend unter die Lupe genommen werden, wie sie den Zugang zu Ökosystemdaten kontrollieren.

Infrastruktur- und Lizenzinnovationen

Auch die Infrastruktur, die zur Verarbeitung dieser biologischen Datensätze erforderlich ist, entwickelt sich weiter. Etched hat kürzlich eine bekannt gegebene Series A-Finanzierung in Höhe von 120 Millionen US-Dollar (https://www.etched.com/announcing-etched) angekündigt, um spezialisierte Chips für Transformer-Modelle zu entwickeln und die Recheneffizienz für die nächste Generation datenintensiver Physical AI bereitzustellen. Im Bereich der Lizenzierung hat Perplexity AI ein neues „Publishers Program“ (https://www.perplexity.ai/hub/blog/perplexity-publishers-program) gestartet, um ein Umsatzbeteiligungsmodell mit Dateneigentümern, darunter Time und Der Spiegel, zu schaffen. Dieser Schritt stellt eine Reifung des Daten-für-KI-Marktes dar, weg vom unbefugten Scraping hin zu strukturierten, mehrjährigen Lizenzvereinbarungen, die KI-Unternehmen stabile, qualitativ hochwertige Datenpipelines bieten und gleichzeitig die ursprünglichen Ersteller entschädigen.

Warum es für Dateneigentümer wichtig ist

Für Dateneigentümer beweist die Transaktion von EvolutionaryScale, dass hochspezialisierte, nicht-textuelle Datensätze – wie Genomsequenzen oder Proteinstrukturen – heute zu den wertvollsten Assets in der KI-Wirtschaft gehören. Da Foundation-Modelle in die Naturwissenschaften vordringen, wird die Fähigkeit, saubere, strukturierte und ethisch einwandfreie Daten für „Physical AI“ bereitzustellen, Premium-Lizenzgebühren erzielen. Dateneigentümer sollten sich darauf konzentrieren, ihre proprietären Datensätze auf ihr generatives Potenzial zu prüfen, da sich der Markt schnell von der einfachen Datenspeicherung hin zur aktiven Lizenzierung von Assets für das Modelltraining und Fine-Tuning verlagert.

d-nvest verwandelt die Datenbestände hinter diesen Deals in bewertete, umsetzbare Möglichkeiten.

Pipeline erkunden →