EvolutionaryScale sichert sich 142 Mio. USD für biologische "Weltenmodelle"
Nvidia und Amazon unterstützen eine Seed-Runde über 142 Mio. USD für das Training des ESM3-Modells auf einem Datensatz von 278 Millionen Proteinen.
EvolutionaryScale hat eine bekannt gegebene Seed-Finanzierungsrunde über 142 Millionen US-Dollar (https://www.forbes.com/sites/alexkonrad/2024/06/25/evolutionaryscale-raises-142-million-for-biological-ai-model/) abgeschlossen, um die Entwicklung von KI-"Weltenmodellen" zu beschleunigen, die biologische Systeme simulieren und entwickeln können. Die Runde, angeführt von Lux Capital, Nat Friedman und Daniel Gross, mit Beteiligung von Nvidia und Amazon, positioniert das Startup an der Spitze des "Data-for-Biology"-Wettrüstens. Das Kapital ist für die Verfeinerung von ESM3 bestimmt, einem fortschrittlichen Sprachmodell für die Biologie, das 98 Milliarden Parameter (https://www.evolutionaryscale.ai/blog/esm3-release) aufweist und auf einem riesigen Datensatz von 278 Millionen Proteinen (https://www.evolutionaryscale.ai/blog/esm3-release) trainiert wurde.
Der Aufstieg biologischer Weltenmodelle
Im Gegensatz zur traditionellen generativen KI, die sich auf Text oder Pixel konzentriert, entwickelt EvolutionaryScale, was Forscher als "Weltenmodell" für die Biowissenschaften bezeichnen. Indem der genetische Code als Sprache behandelt wird, hat das ESM3-Modell die Fähigkeit gezeigt, völlig neue fluoreszierende Proteine zu generieren, die sich signifikant von natürlich vorkommenden unterscheiden – und damit effektiv 500 Millionen Jahre Evolution (https://www.evolutionaryscale.ai/blog/esm3-release) in einer digitalen Umgebung simuliert. Diese Fähigkeit signalisiert eine Verschiebung auf dem Markt für Datenassets, wo die wertvollsten Datensätze nicht mehr nur aus dem Web gescrapter Text sind, sondern hochspezialisierte, strukturierte biologische Sequenzen, die zur "Programmierung" von Materie verwendet werden können.
Der Pivot zur Datenlizenzierung: Von Fair Use zu bezahlten Assets
Die Runde von EvolutionaryScale fällt mit einer breiteren Marktentwicklung hin zu hochintegritäts Datenlizenzierung zusammen. Während biologische Daten für die Medikamentenentwicklung tokenisiert werden, sichern sich Medienriesen ihre eigenen Archive. OpenAI hat kürzlich eine mehrjährige Content-Lizenzvereinbarung (https://time.com/6992661/time-openai-partnership/) mit Time Magazine abgeschlossen, die dem KI-Labor Zugang zu über 100 Jahren journalistischer Archive gewährt. Obwohl die finanziellen Bedingungen nicht bekannt gegeben (https://www.reuters.com/technology/openai-time-strike-multi-year-content-licensing-deal-2024-06-27/) wurden, folgt die Vereinbarung dem bekannt gegebenen Benchmark von 250 Millionen US-Dollar (https://www.reuters.com/technology/news-corp-signs-multi-year-ai-content-deal-with-openai-2024-05-22/), der durch die Vereinbarung mit News Corp gesetzt wurde. Ähnlich verhandelt YouTube Berichten zufolge (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) mit großen Plattenlabels, darunter Sony und Universal, um geschätzte mehrstellige Millionenbeträge (https://www.ft.com/content/22759e6f-479e-41a4-9e7b-f947702f23b2) für den rechtlichen Zugang zu Musikkatalogen für das KI-Training anzubieten.
Regulatorische Gegenwinde und Datenherkunft
Da der Wert von Trainingsdaten in die Höhe schnellt, wehren sich Regulierungsbehörden und Urheber gegen unbefugte Nutzung. Figma hat kürzlich seine "Make Design" KI-Funktion (https://www.theverge.com/2024/7/1/24189917/figma-disables-ai-design-tool-apple-weather-app-copying) deaktiviert, nachdem behauptet wurde, sie sei auf bestehenden App-Designs trainiert worden, was die rechtlichen Risiken intransparenter Datenpipelines hervorhebt. Darüber hinaus kommt SoftBanks berichtete Investition von 10 bis 20 Millionen US-Dollar (https://www.bloomberg.com/news/articles/2024-06-27/softbank-to-invest-in-search-startup-perplexity-ai/) in Perplexity AI inmitten einer Flut von Urheberrechtsverletzungshinweisen von Verlagen, was darauf hindeutet, dass selbst wachstumsstarke KI-Startups nun stark für Datenkonformität und -abwicklung budgetieren müssen. Dieser Trend wird durch Harvey's geschätzte Finanzierungsrunde von 100 Millionen US-Dollar (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/) weiter untermauert, die den Spezialisten für juristische Daten mit geschätzten 1,5 Milliarden US-Dollar (https://techcrunch.com/2024/06/26/legal-ai-startup-harvey-is-raising-100m-at-a-1-5b-valuation/) bewertet – ein Aufschlag, der durch den Zugang zu proprietären, hochriskanten juristischen Datensätzen getrieben wird.
Warum es für Dateneigentümer wichtig ist
Der Deal von EvolutionaryScale beweist, dass sich die lukrativste Grenze für die Datenmonetarisierung von allgemeinen Webinhalten hin zu "domänenspezifischen Weltenmodellen" verschiebt. Für Dateneigentümer in den Bereichen Biologie, Recht und Musik hat sich der Markt über einfache Lizenzierung hinaus zu einem strategischen Partnerschaftsmodell entwickelt, bei dem die Daten der primäre Katalysator für wissenschaftliche und kreative Durchbrüche sind. Da KI-Labore wie OpenAI und Anthropic öffentliche Webdaten erschöpfen, wird der Aufschlag für saubere, proprietäre und rechtlich geklärte Datensätze weiter steigen und passive Archive in ertragreiche Finanzanlagen verwandeln.
d-nvest verwandelt die Datenbestände hinter diesen Deals in bewertete, umsetzbare Möglichkeiten.
Pipeline erkunden →