Untertitel sind in vielen Märkten vorgeschrieben und eine kritische Barrierefreiheitsfunktion. In der EU verpflichtet der European Accessibility Act (EAA) zur Untertitelung von Videoinhalten. Untertitel erhöhen zudem die Content-Interaktion um 40%.
Wie KI-Untertitelgenerierung funktioniert
Moderne KI-Untertitelgenerierung verwendet Large-Scale Automatic Speech Recognition (ASR) Modelle — primär Whisper (OpenAI), Gemini Speech und Amazon Transcribe. Prozess: (1) Audio wird aus der Videodatei extrahiert. (2) Das ASR-Modell transkribiert Wörter mit Zeitstempel-Ausrichtung. (3) Text wird in Untertitelblöcke segmentiert. (4) Optional: Übersetzung in Zielsprachen via LLM.
Genauigkeitsbenchmarks 2026
- Whisper Large v3: 3–6% WER bei sauberem Studioton
- Google Speech-to-Text v2: 4–7% WER
- Amazon Transcribe: 5–9% WER
Kostenvergleich: Mensch vs. KI
- Professionelle menschliche Untertitelung: 10–20 $ pro Videominute
- KI-Untertitelgenerierung: 0,002–0,01 $ pro Videominute — 99% günstiger
- KI + menschliche QC-Überprüfung: 1–3 $ pro Videominute — 85% günstiger
So funktioniert MwareTVs KI-Untertitelmodul
In MwareTVs TVMS können Sie die KI-Untertitelgenerierung direkt über die Content-Management-Oberfläche auslösen. Wählen Sie Quellsprache, Zielübersetzungssprachen und Untertitelformat. Das Modul verarbeitet Audio, generiert Quelluntertitel, übersetzt in alle ausgewählten Sprachen und hängt die Untertitelspuren an das Content-Asset an.
Bei 0,005 $ pro KI-Untertitelminute gibt es kein Kostenargument mehr für die Veröffentlichung von Inhalten ohne Untertitel. Die Barrierefreiheits- und SEO-Vorteile rechtfertigen die Investition viele Male.