Ihr Korpus in seltenen Sprachen ist für KI nicht auffindbar
KI spricht Englisch. Für unterrepräsentierte Sprachen, Dialekte und Gebärdensprachen fehlen Daten – und ihre Erstellung ist teuer. Ihr Korpus hat Wert.
Ihre seltene Sprache ist für KI nicht auffindbar
Die Lücke bei unterrepräsentierten Sprachen
9 Folien · wischen oder Pfeiltasten verwendenDie blinde Fleck
KI ist standardmäßig englischsprachig
Modelle werden von wenigen großen Sprachen dominiert. Dialekte, Regionalsprachen und Gebärdensprachen sind nach wie vor massiv unterversorgt.
Warum es selten ist
Kaum etwas zum scrapen
Für eine wenig geschriebene oder digitalisierte Sprache bietet das Web fast nichts. Daten müssen manuell erstellt und transkribiert werden.
Die Ziffer des Einsatzes
Bis zu 36 Stunden Arbeit pro Stunde Audio
Die Transkription einer Stunde Audio in einer unterversorgten Sprache kann 30 bis 36 Stunden menschliche Arbeit erfordern – im Vergleich zu einem Bruchteil für Englisch.
┌ arXiv, 2025 (2510.12781)
Die Seltenheitsprämie (Audio)
3 bis 6x der englische Tarif
Qualitativ hochwertiges annotiertes Audio kostet in englischer Sprache 90 bis 180 $/Audio-Stunde, mit einer Prämie von 3 bis 6x für spezialisierte oder seltene Sprachen.
┌ arXiv, 2025 (2510.12781)
Sie sind betroffen, wenn...
Sie seltene Sprache produzieren
- Mehrsprachiges / dialektales Callcenter
- Regionale Medien, Radio, lokale Produktion
- Gehörlosenverband, LSF-Dolmetscher
- Bildung, Übersetzung, Sprachgemeinschaft
Was Wert hat
Audio/Video + seine Transkription
- Aufnahmen in seltener Sprache/Dialekt
- Annotiertes Gebärdensprachvideo
- Spontane Sprache (Kinder, Ältere, Feld)
Der richtige Rahmen
Einwilligung und Respekt vor der Gemeinschaft
Sprachdaten berühren Menschen und Gemeinschaften. Ein ethischer Rahmen (Einwilligung, Anonymisierung) ist nicht verhandelbar – und wertsteigernd.
Zu merken
Ihre Sprache ist ein seltener Vermögenswert
Erster Schritt: herausfinden, ob Ihr Korpus wertvoll ist.
- Unterversorgten Sprachen fehlen KI-Daten
- Produktionskosten treiben den Wert nach oben
- Seltenheit zahlt sich aus (3-6x Prämie auf Audio)
Fragen zur Monetarisierung oder zum Kauf von Daten?
Sprechen Sie mit einem Experten — unverbindlich.
Der vollständige Leitfaden
Künstliche Intelligenzen sind standardmäßig englischsprachig: Sie wurden mit einem Web gefüttert, das von einer Handvoll großer Sprachen dominiert wird. Für Dialekte, Regionalsprachen und Gebärdensprachen sind die Trainingsdaten nach wie vor massiv unzureichend. Und im Gegensatz zum Englischen gibt es für eine wenig geschriebene oder digitalisierte Sprache fast nichts online zu finden: Die Daten müssen manuell erstellt, aufgenommen und dann transkribiert werden.
Dieser Aufwand hat Kosten, und genau das macht den Wert aus. Die Transkription einer Stunde Audio in einer unterversorgten Sprache kann etwa 30 bis 36 Stunden menschliche Arbeit erfordern, während Englisch nur einen Bruchteil dieser Zeit benötigt (arXiv, 2025). Preislich liegt qualitativ hochwertiges annotiertes Audio bei etwa 90 bis 180 Dollar pro Audio-Stunde in englischer Sprache, mit einer Prämie von 3 bis 6 Mal für spezialisierte oder seltene Sprachen.
Betroffene Akteure produzieren oft unwissentlich seltene Sprache: mehrsprachige oder dialektale Callcenter, regionale Medien und lokale Radiosender, Gehörlosenverbände und Gebärdensprachdolmetscherdienste, aber auch der Bildungssektor, die Übersetzung und Sprachgemeinschaften. Wertvoll sind die Audio- oder Videoaufnahmen mit ihrer Transkription: Sprache in seltener Sprache oder Dialekt, annotiertes Gebärdensprachvideo, spontane Sprache von Kindern, Älteren oder aus dem Feld.
Sprachdaten berühren Menschen und Gemeinschaften: Ein ethischer Rahmen – ausdrückliche Einwilligung, Anonymisierung, Respekt vor der Gemeinschaft – ist keine Option, und das macht die Daten auch übertragbar und somit wertvoll. Der erste konkrete Schritt ist herauszufinden, ob Ihr Korpus wertvoll ist: Starten Sie eine kostenlose Diagnose auf d-nvest.
Quellen
- arXiv — coût d'annotation audio multilingue (2510.12781, 2025)
- PMC — corpus de langue des signes (Shorouk, 2025)
- NVIDIA / ASDC — Signs sign-language dataset
Bildungsinhalt — keine Rechts- oder Finanzberatung. Alle Zahlen tragen ihre Quelle und ihr Jahr.