Für Verkäufer3 Min. Lesezeit

Ihr Korpus in seltenen Sprachen ist für KI nicht auffindbar

KI spricht Englisch. Für unterrepräsentierte Sprachen, Dialekte und Gebärdensprachen fehlen Daten – und ihre Erstellung ist teuer. Ihr Korpus hat Wert.

3 Min. Lesezeit ⏱

Ihre seltene Sprache ist für KI nicht auffindbar

Die Lücke bei unterrepräsentierten Sprachen

9 Folien · wischen oder Pfeiltasten verwenden

d-nvest.com1/9

Die blinde Fleck

KI ist standardmäßig englischsprachig

Modelle werden von wenigen großen Sprachen dominiert. Dialekte, Regionalsprachen und Gebärdensprachen sind nach wie vor massiv unterversorgt.

d-nvest.com2/9

Warum es selten ist

Kaum etwas zum scrapen

Für eine wenig geschriebene oder digitalisierte Sprache bietet das Web fast nichts. Daten müssen manuell erstellt und transkribiert werden.

d-nvest.com3/9

Die Ziffer des Einsatzes

Bis zu 36 Stunden Arbeit pro Stunde Audio

Die Transkription einer Stunde Audio in einer unterversorgten Sprache kann 30 bis 36 Stunden menschliche Arbeit erfordern – im Vergleich zu einem Bruchteil für Englisch.

┌ arXiv, 2025 (2510.12781)

d-nvest.com4/9

Die Seltenheitsprämie (Audio)

3 bis 6x der englische Tarif

Qualitativ hochwertiges annotiertes Audio kostet in englischer Sprache 90 bis 180 $/Audio-Stunde, mit einer Prämie von 3 bis 6x für spezialisierte oder seltene Sprachen.

┌ arXiv, 2025 (2510.12781)

d-nvest.com5/9

Sie sind betroffen, wenn...

Sie seltene Sprache produzieren

Mehrsprachiges / dialektales Callcenter
Regionale Medien, Radio, lokale Produktion
Gehörlosenverband, LSF-Dolmetscher
Bildung, Übersetzung, Sprachgemeinschaft

d-nvest.com6/9

Was Wert hat

Audio/Video + seine Transkription

Aufnahmen in seltener Sprache/Dialekt
Annotiertes Gebärdensprachvideo
Spontane Sprache (Kinder, Ältere, Feld)

d-nvest.com7/9

Der richtige Rahmen

Einwilligung und Respekt vor der Gemeinschaft

Sprachdaten berühren Menschen und Gemeinschaften. Ein ethischer Rahmen (Einwilligung, Anonymisierung) ist nicht verhandelbar – und wertsteigernd.

d-nvest.com8/9

Zu merken

Ihre Sprache ist ein seltener Vermögenswert

Erster Schritt: herausfinden, ob Ihr Korpus wertvoll ist.

Unterversorgten Sprachen fehlen KI-Daten
Produktionskosten treiben den Wert nach oben
Seltenheit zahlt sich aus (3-6x Prämie auf Audio)

d-nvest.com9/9

Bewerten Sie Ihren Sprachkorpus – kostenlos

Fragen zur Monetarisierung oder zum Kauf von Daten?

Sprechen Sie mit einem Experten — unverbindlich.

Kostenloses 30-Minuten-Gespräch buchen

Der vollständige Leitfaden

Künstliche Intelligenzen sind standardmäßig englischsprachig: Sie wurden mit einem Web gefüttert, das von einer Handvoll großer Sprachen dominiert wird. Für Dialekte, Regionalsprachen und Gebärdensprachen sind die Trainingsdaten nach wie vor massiv unzureichend. Und im Gegensatz zum Englischen gibt es für eine wenig geschriebene oder digitalisierte Sprache fast nichts online zu finden: Die Daten müssen manuell erstellt, aufgenommen und dann transkribiert werden.

Dieser Aufwand hat Kosten, und genau das macht den Wert aus. Die Transkription einer Stunde Audio in einer unterversorgten Sprache kann etwa 30 bis 36 Stunden menschliche Arbeit erfordern, während Englisch nur einen Bruchteil dieser Zeit benötigt (arXiv, 2025). Preislich liegt qualitativ hochwertiges annotiertes Audio bei etwa 90 bis 180 Dollar pro Audio-Stunde in englischer Sprache, mit einer Prämie von 3 bis 6 Mal für spezialisierte oder seltene Sprachen.

Betroffene Akteure produzieren oft unwissentlich seltene Sprache: mehrsprachige oder dialektale Callcenter, regionale Medien und lokale Radiosender, Gehörlosenverbände und Gebärdensprachdolmetscherdienste, aber auch der Bildungssektor, die Übersetzung und Sprachgemeinschaften. Wertvoll sind die Audio- oder Videoaufnahmen mit ihrer Transkription: Sprache in seltener Sprache oder Dialekt, annotiertes Gebärdensprachvideo, spontane Sprache von Kindern, Älteren oder aus dem Feld.

Sprachdaten berühren Menschen und Gemeinschaften: Ein ethischer Rahmen – ausdrückliche Einwilligung, Anonymisierung, Respekt vor der Gemeinschaft – ist keine Option, und das macht die Daten auch übertragbar und somit wertvoll. Der erste konkrete Schritt ist herauszufinden, ob Ihr Korpus wertvoll ist: Starten Sie eine kostenlose Diagnose auf d-nvest.

Quellen

Bildungsinhalt — keine Rechts- oder Finanzberatung. Alle Zahlen tragen ihre Quelle und ihr Jahr.