Seit 28. Juni 2025 gilt der European Accessibility Act (EAA) verbindlich in der gesamten EU. In Deutschland umgesetzt als Barrierefreiheitsstarkungsgesetz (BFSG). Wer digitale Dienste verkauft — E-Commerce, Banking, E-Learning, Streaming, Verkehr, E-Books — braucht barrierefreie Untertitel in Videos. Keine Empfehlung: Bussgelder bis 100.000 EUR in Deutschland und bis 600.000 EUR in Spanien.
Aber "barrierefreie Untertitel" sind nicht dasselbe wie "Untertitel". WCAG 2.2 verlangt Captions mit Sprecherkennung, Gerauschbeschreibung und Mindestkontrast. YouTube-Auto-Untertitel erfullen das nicht. Dieser Leitfaden zeigt den Workflow mit KI + manueller Prufung.
Rechtsrahmen: EAA/BFSG + WCAG + EN 301 549
Drei Normen uberschneiden sich. Kenne jede — Prufer schauen sich alle drei an:
- European Accessibility Act (Richtlinie EU 2019/882) / BFSG: verbindlich seit 28. Juni 2025 fur digitale B2C-Dienste. In DE als Barrierefreiheitsstarkungsgesetz und BFSGV umgesetzt.
- WCAG 2.2 (W3C): der technische Standard. Relevante Kriterien fur Video: 1.2.2 (Captions Aufzeichnung), 1.2.4 (Captions Live) und 1.2.5 (Audiodeskription). Level AA ist Mindestanforderung.
- EN 301 549 v3.2.1: harmonisierte europaische Norm, die WCAG referenziert. Wird von offentlichen Prufern zitiert.
Wer ist betroffen: Unternehmen mit mehr als 10 Mitarbeitern oder mehr als 2 Mio. EUR Jahresumsatz, die E-Commerce, Banking, Streaming, E-Learning, E-Books, Verkehrstickets oder Telekommunikation in der EU verkaufen. Kleinstunternehmen sind bei Diensten ausgenommen, NICHT bei Produkten.
Untertitel vs Closed Captions (SDH)
Die haufigste Verwechslung, die bei Audits durchfallt:
EINFACHE UNTERTITEL: - Nur Dialog oder Ubersetzung - Keine Sprecherkennung - Keine Gerauschbeschreibung - Erfullen WCAG 1.2.2 NICHT - Fur Fremdsprache gedacht
CLOSED CAPTIONS / SDH: - Dialog + relevante Gerausche - Sprecher gekennzeichnet (Name oder Farbe) - [Musik], [Lachen], [Telefon] - Erfullen WCAG 1.2.2 Level A - Fur Gehorlose und Schwerhorige - Closed Caption (umschaltbar)
Fur WCAG Level AA brauchst du immer SDH Closed Captions, niemals einfache Untertitel. Der Kostenunterschied ist gering, wenn du KI-Auto-Untertitel nutzt und sie nachbearbeitest.
KI-Workflow Schritt fur Schritt
1. Mit Zeitmarken transkribieren (5 Min): Lade das Video in VOCAP und erhalte wortgenaue Timestamps. Ohne prazises Timing kein vernunftiger Untertitel. Siehe Transkription mit Timestamps.
2. In Blocke segmentieren (10 Min): Jeder Block dauert 1-3 Sekunden und hat max. 2 Zeilen mit 37-42 Zeichen. Blocke folgen naturlichen Pausen und syntaktischen Einheiten.
3. Sprecher identifizieren (5 Min): Bei mehreren Sprechern Namensprefix oder Farbwechsel. Die automatische Diarisierung erledigt 80% der Arbeit.
4. Nonverbale Beschreibungen einfugen (5 Min): Audio durchgehen und relevante Gerausche markieren: [Spannungsmusik], [Tur knallt], [nervoses Lachen], [Stille]. Irrelevante Umgebungsgerausche weglassen.
5. SRT oder WebVTT exportieren (1 Min): SRT fur YouTube/Vimeo; WebVTT fur eigenen HTML5-Player. Beide sind editierbare Textdateien.
6. Validieren und hochladen (5 Min): Mit WAVE, axe DevTools oder dem CMS-Accessibility-Evaluator prufen. Als geschlossene Spur hochladen, niemals einbrennen.
Technisches Format: SRT, VTT, Timing
Die technischen Regeln fur die Pruferin:
Technische Spezifikation
TIMING: - Blockdauer: 1-3 Sek. (max 6s) - Lesegeschwindigkeit: 160-180 W/Min - Lucke zwischen Blocken: min 80ms - Sync: max 100ms Versatz TEXTFORMAT: - Max 2 Zeilen pro Block - Max 37-42 Zeichen pro Zeile - Keine Worttrennung uber Zeilen - Vollstandige Interpunktion - Grossbuchstaben nur fur wichtige Betonung VISUELL: - Min Kontrast 4.5:1 zum Hintergrund - Halbtransparent dunkler Hintergrund - Sans-serif, min 4% Videohohe - Kritische Bildschirmtexte nicht uberdecken - Position: unteres Drittel zentriert
Das Format WebVTT ist machtiger als SRT — es unterstutzt Positionierung, CSS-Stile und Metadaten. Wenn dein Player es unterstutzt, nutze es. Fur die Untertitelerstellung Schritt fur Schritt siehe den KI-Untertitel-Leitfaden.
Nonverbale Beschreibungen und Sprecher
Das ist der Block, der die meisten Audits durchfallen lasst. Die Regel: alles, was ein Horender ohne Bild wahrnimmt, muss eine gehorlose Person lesen konnen.
Musik
[Spannungsmusik], [frohliche Musik], [traurige Musik]. Niemals nur "[Musik]" — die Emotion ist wichtig.
Narrative Gerausche
[Tur knallt], [Telefon klingelt], [Schritte nahern sich]. Nur narrationsrelevante.
Tonfall
(flusternd), (schreiend), (sarkastisch). Markieren, wenn der Ton die Bedeutung andert.
Sprecher
"MARIA: Hallo" oder Farbe pro Sprecher. Unverzichtbar bei 2+ Stimmen ausserhalb des Bildes.
Starte mit prazisem Transkript: VOCAP liefert wortgenaue Timestamps und Diarisierung.
VOCAP kostenlos testenCheckliste WCAG 2.2 AA
Pro-Video-Checkliste vor Veroffentlichung
WCAG 1.2.2 - Captions (Aufzeichnung): [ ] Caption vorhanden (kein rohes Auto-Caption) [ ] Sync < 100ms Versatz [ ] Sprecherkennung [ ] Relevante Gerausche beschrieben [ ] Closed (umschaltbar) WCAG 1.4.3 - Kontrast: [ ] Min 4.5:1 vs Hintergrund [ ] Opaker oder halbtransparenter dunkler Hintergrund WCAG 1.4.4 - Textgrosse: [ ] Untertitel auf 200% skalierbar WCAG 1.2.5 - Audiodeskription (AAA): [ ] AD bei kritischer visueller Info [ ] Separate AD-Spur oder AD-Version FORMAT: [ ] SRT oder WebVTT, nicht eingebrannt [ ] Sprache deklariert (lang="de") [ ] Geschwindigkeit < 180 W/Min
Fur die Validierung des gesamten Videos (nicht nur Untertitel) nutze den allgemeinen Barrierefreiheits-Leitfaden.
Fehler, die gegen das Gesetz Verstossen
VERMEIDEN: - YouTube-Auto-Captions ohne Review - Eingebrannte Untertitel (Open Caption) - Nur Dialog, keine Gerauschbeschreibung - Keine Sprecher-ID bei 2+ Stimmen - Eine Zeile mit 80 Zeichen - Kein Kontrast bei hellem Hintergrund - Versatz uber 100ms - Sprache nicht deklariert - "Barrierefrei" im Marketing ohne SDH
TUN: - KI + manuelle Prufung immer - Closed Caption SRT oder WebVTT - SDH: Sprecher + relevante Gerausche - 2 Zeilen max mit 37-42 Zeichen - 4.5:1 Kontrast vs Hintergrund - Wortgenaue Sync - Sprache im VTT deklariert - Max 160-180 W/Min - Quartalsweise interne Prufung + Log
Haufige Fragen
Was unterscheidet Untertitel von Closed Captions (SDH)?
Einfache Untertitel transkribieren oder ubersetzen nur den Dialog. Closed Captions oder SDH enthalten zusatzlich Beschreibungen relevanter Gerausche [Spannungsmusik], Sprecherkennung und Emotionen [nervoses Lachen]. WCAG 1.2.2 verlangt Captions, keine einfachen Untertitel.
Zwingt mich das BFSG/EAA zu Untertiteln?
Wenn dein Unternehmen mehr als 10 Mitarbeiter oder mehr als 2 Mio. EUR Umsatz hat und digitale B2C-Dienste in der EU verkauft (E-Commerce, Banking, Streaming, E-Learning, Verkehr, E-Books), musst du seit 28. Juni 2025 EN 301 549 erfullen, die auf WCAG 2.1 Level AA verweist. In Deutschland Bussgelder bis 100.000 EUR (BFSG), in Spanien bis 600.000 EUR (Gesetz 11/2023). Kleinstunternehmen in Dienstleistungen sind ausgenommen, NICHT bei digitalen Produkten.
Reichen YouTube-Auto-Untertitel?
Nein. WCAG 1.2.2 verlangt Captions mit ausreichender Genauigkeit zum Verstehen des Inhalts. YouTube-Auto-Untertitel haben Fehler bei Eigennamen, Fachbegriffen, gemischten Sprachen und markieren keine Gerausche oder Sprecher. Bei einer Prufung fallen sie durch. KI-Transkription + manuelle Prufung + SDH-Anreicherung sind Pflicht.
Welches Format: SRT, VTT oder eingebrannt?
SRT fur breite Kompatibilitat (YouTube, Vimeo, fast alle). WebVTT fur HTML5-Web mit CSS-Stilen und Positionierung. Brenne Untertitel niemals ein (Open Caption), wenn du Barrierefreiheit erfullen willst: Nutzer mussen sie ein-/ausschalten konnen. Immer Closed Caption.
Was kostet ein barrierefreies Video mit KI?
Mit VOCAP kostet 1h Video-Transkription ab 1 EUR. SDH-Bearbeitung + Validierung ergeben 30-45 Min. pro 10-Min-Video. Bei 20 Videos/Monat mit Freelance-Editor (25-35 EUR/h) etwa 250-350 EUR/Monat vs 1.500-2.500 EUR/Monat fur klassisches Pro-Captioning. Klarer ROI gegenuber dem Risiko von 100.000 EUR Bussgeld.
Barrierefreiheit ist nicht optional. Und Transkription ist Schritt 1.
Erzeuge Transkriptionen mit prazisen Zeitmarken und Diarisierung, um SDH-Untertitel zu produzieren, die WCAG 2.2 Level AA erfullen.
15 Minuten kostenlos · Ohne Kreditkarte · Ab 1€/Stunde
Kostenlos starten