EvolutionaryScale sichert sich 142 Mio. US-Dollar für das Training von KI auf 2,8 Milliarden Proteinsequenzen
Der von Lux Capital angeführte Startup für biologische KI zielt mit proprietären genomischen Datensätzen auf den Markt für Medikamentenentdeckung.
EvolutionaryScale hat eine Seed-Finanzierungsrunde in Höhe von 142 Millionen US-Dollar abgeschlossen (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/), um ESM3 zu kommerzialisieren, ein generatives KI-Modell, das auf einem riesigen Korpus von 2,78 Milliarden Proteinsequenzen trainiert wurde (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/). Die Runde, angeführt von Lux Capital, Nat Friedman und Daniel Gross, mit Beteiligung von Amazon und NVentures (dem Venture-Arm von Nvidia), signalisiert eine entscheidende Verschiebung auf dem Markt für Datenwerte: den Übergang von allgemeinen LLMs zu spezialisierten, hochpräzisen biologischen Datenmodellen. ESM3 stellt eine der größten Anwendungen wissenschaftlicher Daten in der KI-Ära dar, mit 98 Milliarden Parametern (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai/) und der Fähigkeit, 500 Millionen Jahre Evolution zu simulieren, um neue Proteine zu entwerfen.
Die biologische Datengrenze
Im Gegensatz zu textlastigen Datensätzen, die die erste Welle generativer KI antrieben, basiert das Wertversprechen von EvolutionaryScale vollständig auf der Kuratierung und Verarbeitung genomischer und proteomischer Daten. Durch das Training mit Milliarden von Sequenzen schafft das Unternehmen effektiv eine "programmierbare Biologie"-Schicht. Dieser Schritt unterstreicht die Prämie, die nun auf strukturierte wissenschaftliche Daten gelegt wird, welche weitaus knapper und schwieriger zu verarbeiten sind als öffentliche Webinhalte. Die Beteiligung von Amazon und Nvidia (https://techcrunch.com/2024/06/25/evolutionaryscale-is-building-a-chatgpt-for-biology-with-142m-from-nat-friedman-and-lux-capital/) deutet darauf hin, dass die Infrastrukturanbieter bestrebt sind, sich eine Position in der biologischen Datenpipeline zu sichern, die voraussichtlich den 1 Billion US-Dollar schweren Sektor der pharmazeutischen F&E revolutionieren wird.
OpenAIs strategische Datenakquisition
Die Suche nach Dateneffizienz beschränkt sich nicht auf die Biologie. OpenAI kündigte kürzlich die Übernahme von Rockset (https://openai.com/index/openai-to-acquire-rockset/) an, einem Unternehmen für Echtzeit-Such- und Analyse-Datenbanken. Diese Übernahme ist ein klarer taktischer Schritt zur Stärkung der Retrieval-Augmented Generation (RAG)-Fähigkeiten von OpenAI. Durch die Integration der Technologie von Rockset kann OpenAI die von seinen Unternehmenskunden bereitgestellten riesigen Datensätze effektiver indizieren und abfragen, wodurch statische Datenspeicher in dynamische, umsetzbare Erkenntnisse umgewandelt werden. Dieser Deal unterstreicht die wachsende Bedeutung der "Daten-zu-Modell"-Schnittstelle – der Softwareschicht, die bestimmt, wie effizient eine KI auf proprietäre Unternehmenswerte zugreifen und diese verarbeiten kann.
Der Wettlauf um klinische Daten
Um den Wert spezialisierter Daten weiter zu betonen, hat HEALWELL AI eine endgültige Vereinbarung zur Übernahme von BioPharma Services (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html) für rund 11,5 Millionen US-Dollar (https://www.globenewswire.com/news-release/2024/06/24/2903058/0/en/HEALWELL-AI-to-Acquire-BioPharma-Services-a-Leading-Full-Service-Contract-Research-Organization.html) getroffen. BioPharma Services ist eine Full-Service Contract Research Organization (CRO), die über tiefgreifende klinische Studiendaten verfügt. Für HEALWELL ist dies nicht nur eine Erweiterung der Dienstleistungen, sondern eine strategische Akquisition einer Datenpipeline. Der Zugang zu qualitativ hochwertigen klinischen Studiendaten ist die primäre Engstelle für KI-gestützte Medikamentenentwicklung und personalisierte Medizin. Die Übernahme einer CRO bietet eine direkte, proprietäre Quelle für die "Ground Truth"-Daten, die für das Training von diagnostischen und therapeutischen Modellen erforderlich sind.
Regulierungsbarrieren und Datenportabilität
Mit steigendem Wert von Datenwerten bewegen sich die Regulierungsbehörden, um sicherzustellen, dass dieser Wert nicht hinter den "geschlossenen Gärten" der Big Tech-Unternehmen eingesperrt bleibt. Die Europäische Kommission hat kürzlich vorläufige Feststellungen veröffentlicht, dass Apple gegen den Digital Markets Act (DMA) verstößt (https://ec.europa.eu/commission/presscorner/detail/en/ip_24_3433). Im Fokus der Untersuchung stehen die Lenkungsregeln von Apple, die Entwickler daran hindern, Verbraucher frei zu alternativen Angeboten und Datenökosystemen zu leiten. Dieser regulatorische Druck ist Teil eines breiteren globalen Trends, der auf die Durchsetzung von Datenportabilität und Interoperabilität abzielt. Für Dateninvestoren sind diese Entscheidungen entscheidend: Sie signalisieren eine Zukunft, in der die Kontrolle über Nutzerdaten und die Fähigkeit, diese durch Sekundärlizenzierung zu monetarisieren, einer intensiven kartellrechtlichen Prüfung unterliegen werden.
Warum das für Dateneigentümer wichtig ist
Die Deals von EvolutionaryScale und Healwell zeigen, dass die lukrativsten Datenwerte nicht mehr im "offenen Web" zu finden sind, sondern in spezialisierten Domänen mit hohen Eintrittsbarrieren wie Genomik und klinischer Medizin. Für Dateneigentümer ist die Lektion klar: Der Markt bewegt sich weg von der Lizenzierung von Massendaten hin zu hochpräzisen, strukturierten Datensätzen, die direkt von spezialisierten KI-Architekturen verarbeitet werden können. Ob Proteinsequenzen oder Echtzeit-Unternehmensdaten, der Wert liegt in der einzigartigen Fähigkeit der Daten, spezifische, hochkarätige Probleme zu lösen, die allgemeine Modelle nicht bewältigen können. Monetarisierungsstrategien sollten sich auf Datenbereinigung, regulatorische Konformität und die Fähigkeit zur Integration mit den neuesten RAG- und generativen Architekturen konzentrieren.
d-nvest verwandelt die Datenbestände hinter diesen Deals in bewertete, umsetzbare Möglichkeiten.
Pipeline erkunden →