Ein Video ohne Untertitel im Jahr 2026 hochzuladen bedeutet, 85 % der Zuschauer auszuschließen, die Inhalte stumm in der U-Bahn, im Büro oder im Bett ansehen. Und Untertitel von Hand zu erstellen ist nach wie vor eine der mühsamsten Aufgaben im Bearbeitungs-Workflow: Zeiten markieren, Sätze trennen, Zeilenumbrüche anpassen, in andere Sprachen übersetzen. KI verändert die Gleichung: Eine gut gemachte SRT- oder VTT-Datei aus einem 20-minütigen Video wird jetzt in unter fünf Minuten generiert.
Dieser Leitfaden erklärt, wie man SRT- und VTT-Dateien mit KI aus beliebigem Audio oder Video erstellt: technische Unterschiede zwischen den beiden Formaten, Codebeispiele, Tools, Kontrolle von Synchronisation und Zeilenumbrüchen, Übersetzung der Untertitel in mehrere Sprachen unter Beibehaltung der Zeitstempel und das Hochladen in YouTube, Vimeo, Premiere und HTML5-Player.
Artikelinhalt
- SRT vs. VTT: technische Unterschiede
- Wann welches Format verwenden
- Interne Struktur von SRT und VTT
- SRT und VTT mit VOCAP erstellen
- VTT in HTML5 mit <track> laden
- SRT/VTT zu YouTube und Vimeo hochladen
- SRT in Premiere und Final Cut importieren
- Untertitel in andere Sprachen übersetzen
- Best Practices: Länge, Zeiten, Lesegeschwindigkeit
- Häufig gestellte Fragen
SRT vs. VTT: technische Unterschiede
Beide sind reine Textdateien, die Sätze mit Zeitstempeln verknüpfen, gehören aber unterschiedlichen Generationen an. SRT (SubRip Text) entstand 2000 als Ausgabeformat des Programms SubRip zum Extrahieren von DVD-Untertiteln. VTT (WebVTT) ist der moderne W3C-Standard, entwickelt für HTML5-Player und das semantische Web.
| Merkmal | SRT | VTT |
|---|---|---|
| Jahr des Standards | 2000 (de facto) | 2010 (W3C) |
| Erweiterung | .srt | .vtt |
| Pflichtkopfzeile | Nein | Ja (WEBVTT) |
| Dezimaltrennzeichen | Komma (,) | Punkt (.) |
| HTML5 nativ (<track>) | Nur mit Konvertierung | Ja, offiziell |
| CSS-Stile | Nein | Ja, via ::cue |
| Cue-Positionierung | Nein | Ja (line, position, align) |
| NOTE-Kommentare | Nein | Ja |
| Kapitel / Regionen | Nein | Ja |
| YouTube-Unterstützung | Ja | Ja |
| Premiere/Final Cut-Unterstützung | Ja, nativ | Konvertierung empfohlen |
| Netflix/Disney+-Unterstützung | Via Konvertierung zu IMSC/TTML | Via Konvertierung zu IMSC/TTML |
Wann welches Format verwenden
Praktische Regel: Wenn das Ziel ein HTML5-Player auf einer eigenen Website oder einer modernen Plattform ist, exportieren Sie VTT. Wenn das Ziel ein Videoeditor (Premiere, Final Cut, DaVinci, CapCut), eine soziale Plattform (YouTube, Vimeo, Facebook) oder ein Desktop-Player (VLC, MX Player) ist, exportieren Sie SRT. Im Zweifelsfall exportieren Sie SRT: Es hat mehr historische Kompatibilität und fast jedes Tool kann es konvertieren.
Wann SRT wählen
- Videobearbeitung: Premiere Pro und DaVinci Resolve importieren es als bearbeitbare Untertitelspur in die Timeline
- Desktop-Player: VLC, MPC-HC, MX Player erkennen es automatisch, wenn es denselben Namen wie das .mp4 trägt
- Upload zu YouTube und Vimeo: Beide akzeptieren es ohne Konvertierung
- Verteilung an Kunden: Es ist das Format, das fast jeder öffnen kann
Wann VTT wählen
- Eigener HTML5-Player: Das <track>-Element von <video> akzeptiert offiziell nur VTT
- Kurse und LMS-Plattformen: Moodle, Canvas, Coursera oder Ihr eigener Videoplayer bevorzugen VTT
- Untertitel mit Stil: Wenn Sie Farben, Positionierung oder Kursivschrift benötigen, ohne Text in das Video zu brennen
- Kapitelspuren: VTT unterstützt <track kind="chapters"> für die Navigation über Marker
- Moderne Webanwendungen: React, Vue oder jedes Framework, das den nativen Browser-Player verwendet
Interne Struktur von SRT und VTT
Die Datei von innen zu sehen, hilft zu verstehen, wie die KI das Ergebnis erstellt und wie man es repariert, falls etwas aus dem Ruder läuft.
Beispiel einer .srt-Datei
1 00:00:00,000 --> 00:00:03,200 Willkommen zum heutigen Podcast. 2 00:00:03,500 --> 00:00:07,800 Wir sprechen darüber, wie man Untertitel mit künstlicher Intelligenz erstellt. 3 00:00:08,000 --> 00:00:11,400 In fünf Minuten haben Sie eine einsatzbereite SRT-Datei.
Jeder Cue hat drei Teile: eine Ordnungsnummer, einen Zeitbereich mit dem Pfeil --> und Dezimaltrennzeichen Komma, und den Untertiteltext (maximal ein oder zwei Zeilen). Eine Leerzeile trennt die Cues.
Beispiel einer .vtt-Datei
WEBVTT NOTE Von VOCAP generierte Untertitel 1 00:00:00.000 --> 00:00:03.200 Willkommen zum heutigen Podcast. 2 00:00:03.500 --> 00:00:07.800 line:90% align:center Wir sprechen darüber, wie man Untertitel mit künstlicher Intelligenz erstellt. 3 00:00:08.000 --> 00:00:11.400 <v Speaker1>In fünf Minuten haben Sie eine einsatzbereite VTT-Datei.</v>
VTT erfordert den Header WEBVTT als erste Zeile, verwendet Punkt als Dezimaltrennzeichen und erlaubt Extras: Kommentare mit NOTE, Cue-Positionierung (line, align, position) und Inline-Tags wie <v Speaker> für Sprecher-Diarisierung.
Tipp: Verwenden Sie niemals Word oder Pages, um eine .srt- oder .vtt-Datei zu bearbeiten: Sie fügen rich encoding ein, das Player zerstört. Verwenden Sie immer einen reinen Texteditor (VS Code, Sublime Text, Notepad++, BBEdit) und speichern Sie in UTF-8 ohne BOM.
SRT und VTT mit VOCAP erstellen
VOCAP generiert beide Formate im gleichen Transkriptionsprozess, mit Zeitstempeln auf Satzebene und unter Einhaltung empfohlener Längen.
Audio oder Video hochladen
Gehen Sie zu vocap.io/de/transcribe und ziehen Sie die Datei hinein. VOCAP akzeptiert MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC und OPUS bis 150 MB. Wenn Ihr Video größer ist, extrahieren Sie das Audio mit ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) und laden Sie nur das Audio hoch.
Auf Transkription mit Zeitstempeln warten
VOCAP verwendet OpenAIs Whisper, um zu transkribieren und Zeitstempel auf Satzebene zurückzugeben. Für 20 Minuten Video dauert die Transkription zwischen 3 und 5 Minuten.
Als SRT oder VTT exportieren
Klicken Sie im Ergebnisbereich auf Exportieren und wählen Sie das Format. Die Segmentierung wird automatisch angepasst: maximal 42 Zeichen pro Zeile, maximal 6 Sekunden pro Cue, Schnitte an natürlicher Interpunktion.
In einem Texteditor überprüfen
Öffnen Sie die .srt- oder .vtt-Datei in VS Code oder Sublime Text. Bestätigen Sie, dass die Zeitstempel mit dem Audio synchronisiert sind (Sie können die Datei in einen Player einfügen, der Untertitel lädt, um dies zu überprüfen) und korrigieren Sie alle Eigennamen, die die KI falsch transkribiert hat.
Datei auf Ihre Plattform laden
Gehen Sie zum entsprechenden Abschnitt: YouTube, Vimeo, Premiere oder HTML5. Jeder hat einen anderen Upload-Flow, der in den folgenden Abschnitten beschrieben wird.
Erstellen Sie Ihre erste SRT/VTT-Datei kostenlos
30 Minuten Transkription mit SRT- und VTT-Export inklusive. Ohne Kreditkarte.
VOCAP kostenlos testenVTT in HTML5 mit <track> laden
Der native HTML5-Player unterstützt Untertitel standardmäßig dank des <track>-Elements. Er akzeptiert nur VTT.
<video controls width="720">
<source src="podcast.mp4" type="video/mp4">
<track
label="Deutsch"
kind="subtitles"
srclang="de"
src="podcast-de.vtt"
default>
<track
label="English"
kind="subtitles"
srclang="en"
src="podcast-en.vtt">
<track
label="Kapitel"
kind="chapters"
srclang="de"
src="podcast-chapters.vtt">
</video>
Das Attribut default markiert die Spur, die beim Laden des Videos aktiviert wird. Wenn Sie das HTML von einer Domain und das VTT von einer anderen (z. B. CDN) ausliefern, denken Sie daran, crossorigin="anonymous" am <video> und die Header Access-Control-Allow-Origin auf dem VTT-Server zu konfigurieren.
Häufiger Fehler: die .vtt-Datei mit dem falschen MIME-Typ ausliefern. Konfigurieren Sie Ihren Server so, dass er text/vtt zurückgibt; wenn er text/plain oder application/octet-stream zurückgibt, ignorieren Chrome und Firefox die Datei stillschweigend. In Nginx: types { text/vtt vtt; }. In Apache: AddType text/vtt .vtt. In Vercel oder Netlify wird es im Dashboard konfiguriert.
VTT-Untertitel mit CSS stylen
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffeb3b;
font-family: "Inter", sans-serif;
font-size: 1.1em;
text-shadow: 0 1px 2px #000;
}
video::cue(b) {
color: #ff5252;
}
Nur VTT unterstützt diese Kontrollebene. Wenn Sie SRT exportieren und Stile benötigen, müssen Sie diese mit ffmpeg oder Tools wie HandBrake in das Video brennen.
SRT/VTT zu YouTube und Vimeo hochladen
YouTube
- Gehen Sie zu YouTube Studio > Inhalt > wählen Sie Ihr Video aus
- Tab Untertitel in der linken Leiste
- Sprache hinzufügen > Sprache der Datei auswählen
- Klicken Sie unter "Untertitel" auf Hinzufügen > Datei hochladen
- Wählen Sie "Mit Zeitcodes" und laden Sie die .srt- oder .vtt-Datei hoch
- YouTube aktiviert sie sofort; die CC-Schaltfläche des Players zeigt sie an
YouTube generiert auch automatische Untertitel in seinem eigenen System, aber die Qualität auf Deutsch beträgt 75-85 %. Das Hochladen Ihrer eigenen, von VOCAP generierten SRT-Datei ergibt eine Genauigkeit von über 95 % und verbessert die Indizierung des Videos in der Suchmaschine.
Vimeo
- Öffnen Sie das Video in Vimeo und klicken Sie auf Einstellungen
- Tab Distribution > Abschnitt Untertitel
- Klicken Sie auf + CC/Untertiteldatei hinzufügen
- Laden Sie die .srt- oder .vtt-Datei hoch und wählen Sie die Sprache
- Aktivieren Sie das Kontrollkästchen "Verfügbar", damit der Zuschauer sie auswählen kann
SRT in Premiere und Final Cut importieren
Premiere Pro
Seit 2022 importiert Premiere .srt-Dateien direkt:
- Fenster > Text > Untertitel > Aus SRT importieren
- Wählen Sie die von VOCAP generierte .srt-Datei aus
- Eine neue Untertitelspur erscheint in der Timeline
- Jeder Cue kann einzeln bearbeitet werden; ziehen Sie die Ränder, um die Zeiten anzupassen
- Um das Video mit eingebrannten Untertiteln zu exportieren, aktivieren Sie im Exportbereich "Untertitel ins Video einbrennen"
- Um als separate Untertitelspur (Sidecar) zu exportieren, wählen Sie "Untertiteldatei erstellen"
Final Cut Pro
Final Cut bevorzugt das Format iTT (iTunes Timed Text), akzeptiert aber SRT mit einem Trick:
- Datei > Importieren > Untertitel
- Wählen Sie die .srt-Datei; FCP konvertiert sie intern automatisch in iTT
- Die Spur erscheint in der Timeline mit bearbeitbaren Cues
- Zum Exportieren als CEA-608- oder iTT-Spur verwenden Sie Teilen > Mediendatei > Rollen
DaVinci Resolve und CapCut
DaVinci Resolve importiert SRT seit Version 18 (Bearbeiten > Importieren > Untertitel). CapCut Desktop und Web unterstützen SRT ebenfalls seit 2024 (Timeline > Untertitel > Datei importieren). In CapCut Mobile ist der Import etwas eingeschränkter, und es ist besser, die Untertitel aus der App selbst aus dem Audio zu generieren.
Untertitel in andere Sprachen übersetzen
Der klassische Workflow zur Übersetzung von Untertiteln bestand darin, die SRT durch einen menschlichen Übersetzer oder DeepL zu schicken und Cue für Cue manuell einzufügen. Mit KI reduziert sich der Prozess auf einen einzigen Schritt, da VOCAP unter Beibehaltung der Zeitstempel übersetzt.
Audio in der Originalsprache transkribieren
Zum Beispiel ein Podcast auf Deutsch. VOCAP generiert die SRT/VTT auf Deutsch mit Zeitstempeln.
Übersetzung in die benötigten Sprachen aktivieren
Englisch, Französisch, Spanisch, Italienisch, Portugiesisch oder eine der 90 unterstützten Sprachen. Jede Sprache erzeugt eine eigenständige SRT/VTT-Datei mit denselben Zeitstempeln.
Alternative Spuren zu YouTube oder Ihrem Player hochladen
YouTube erlaubt das Hinzufügen beliebig vieler Sprachen über Untertitel > Sprache hinzufügen. In HTML5 fügen Sie einfach ein <track> pro Sprache mit dem entsprechenden srclang-Attribut hinzu.
Warum die Untertitelübersetzung wichtig ist: Ein Video mit Untertiteln in 3 Sprachen vervielfacht die potenzielle Reichweite um das 3- bis 5-fache. YouTube indiziert nach Untertitelsprache, daher erscheint ein deutscher Podcast mit Untertiteln auf Englisch und Portugiesisch in den Suchen aller drei Märkte. Die Grenzkosten mit KI betragen Cent pro Sprache; die Kosten mit einem menschlichen Übersetzer würden 50-100 EUR betragen.
Best Practices: Länge, Zeiten, Lesegeschwindigkeit
Die Richtlinien von CSA (Frankreich), BBC (UK), Netflix Style Guide und CPL (Captioned Media Program der USA) stimmen in fast allem überein.
| Regel | Empfohlener Wert | Warum |
|---|---|---|
| Zeichen pro Zeile | Max. 42 | Passt auf 16:9-Bildschirme ohne Übersättigung |
| Zeilen pro Cue | Max. 2 | Mehr blockiert das Bild |
| Dauer pro Cue | 1-6 Sekunden | Bequeme Lesezeit |
| Lesegeschwindigkeit | < 17 Zeichen/Sekunde | BBC- und Netflix-Standard |
| Lücke zwischen Cues | ≥ 80 ms | Vermeidet Flackern zwischen Untertiteln |
| Zeilenumbruch | An natürlicher Interpunktion | Keine Phrasen abschneiden |
| Sprecher-Identifikation | Nur bei Verwirrung | Verwenden Sie "- " oder <v> in VTT |
Untertitel von Hand erstellt
- 3-5 Stunden pro Stunde Video
- Häufige Synchronisationsfehler
- Inkonsistenz zwischen Cues
- Übersetzen vervielfacht die Kosten pro Sprache
- Langeweile garantiert
Untertitel mit VOCAP + KI
- 3-5 Minuten pro Stunde Video
- Perfekte Synchronisation auf Satzebene
- CSA/BBC-Regeln standardmäßig angewendet
- Übersetzung in 90 Sprachen im selben Schritt
- Freie Zeit für kreative Bearbeitung
Echte Anwendungsfälle
Video-Podcaster
Sie wandeln YouTube- und Spotify-Video-Episoden in zugängliche und besser indizierte Inhalte um.
- SRT zum Hochladen zu YouTube
- VTT für die eigene Podcast-Website
- Übersetzungen ins Englische und Portugiesische
- Verbessert das Video-SEO
Online-Kurse und Trainer
Sie generieren zugängliche Untertitel für ihre Akademien auf Moodle, Teachable oder eigenen Websites.
- VTT für HTML5-Player
- Kapitel in separater VTT
- WCAG 2.2-Konformität
- Studenten in verschiedenen Sprachen
Reels- und Shorts-Ersteller
Eingebrannte oder Sidecar-Untertitel für Instagram, TikTok und YouTube Shorts.
- SRT als Quelle
- Einbrennen via ffmpeg oder CapCut
- Stile pro Plattform
- 80 % bessere Zuschauerbindung
Unternehmen und Corporate Video
Onboarding, interne Schulungen, mehrsprachige Produktvideos.
- SRT für Premiere
- Übersetzung ins Englische/Französische
- Barrierefreiheit im Intranet
- Internationale Nutzung
Journalisten und Dokumentationen
Aufgezeichnete Interviews mit exakten Untertiteln für die Ausstrahlung.
- SRT kompatibel mit Broadcast-Editoren
- Sprecher-Markierungen in VTT
- Zitate mit exaktem Zeitstempel
- Versionierung in mehreren Sprachen
Streamer und Gaming-Editoren
Twitch- und YouTube-Gaming-VODs mit automatischen Untertiteln.
- SRT aus dem langen VOD
- Übersetzung für globales Publikum
- Besseres YouTube-SEO
- Barrierefreiheit der Community
Generieren Sie Ihre SRT- und VTT-Untertitel in Minuten
Testen Sie VOCAP kostenlos: 30 Minuten Transkription mit SRT- und VTT-Export inklusive. Ohne Karte. Funktioniert auf Mac, Windows, Linux, iPhone und Android von Safari oder Chrome.
Kostenlos startenHäufig gestellte Fragen
Was ist der Unterschied zwischen SRT und VTT?
SRT (SubRip Text) ist das älteste und kompatibelste Format: Es wird von YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix und praktisch jedem Player unterstützt. Es verwendet Zeitstempel mit Komma als Dezimaltrennzeichen. VTT (WebVTT) ist der moderne Web-Standard: Er wird von HTML5-Playern über das <track>-Element verwendet, unterstützt CSS-Stile, Bildschirm-Positionierung und Kommentare. Es verwendet einen Punkt als Dezimaltrennzeichen. Für das moderne Web verwenden Sie VTT, für bearbeitetes Video oder Plattform-Uploads verwenden Sie SRT.
Kann ich direkt aus Audio ohne Video eine SRT-Datei erstellen?
Ja. SRT und VTT sind nur Text mit Zeitstempeln, sie enthalten kein Video. VOCAP generiert die Datei aus jedem MP3, WAV, M4A oder OGG. Das Audio wird mit Whisper transkribiert, automatisch in Sätze von 3-6 Sekunden segmentiert und als .srt oder .vtt exportiert, bereit zur Synchronisation mit dem später erstellten Video oder als Grundlage für Podcast-Untertitel.
Wie funktioniert die automatische Übersetzung einer SRT-Datei in eine andere Sprache?
VOCAP transkribiert das Audio in seiner Originalsprache und kann im selben Prozess das Ergebnis in Englisch, Französisch, Spanisch, Italienisch, Portugiesisch oder 90 weitere Sprachen übersetzen, wobei die Zeitstempel erhalten bleiben. Die Übersetzung erfolgt durch Claude nach der Transkription, Satz für Satz, damit jeder Cue seine zeitliche Position behält. Das Ergebnis sind zwei SRT/VTT-Dateien: Original und übersetzt.
Wie lang sollte jede Untertitelzeile sein?
Die Richtlinien von CSA, BBC und Netflix stimmen überein: maximal 42 Zeichen pro Zeile, maximal 2 Zeilen pro Cue, Dauer zwischen 1 und 6 Sekunden und eine Lesegeschwindigkeit von unter 17 Zeichen pro Sekunde. VOCAP segmentiert automatisch unter Einhaltung dieser Grenzen.
Warum akzeptiert YouTube SRT und VTT, zeigt sie aber unterschiedlich an?
YouTube akzeptiert beide Formate, konvertiert sie aber intern in sein eigenes JSON3-Format. Das visuelle Ergebnis ist für den Zuschauer identisch. Der praktische Unterschied besteht darin, dass VTT das Einbinden von Metadaten (NOTE), Cue-Settings (Position, Ausrichtung) und Formatierung (kursiv, fett) ermöglicht, die SRT standardmäßig nicht unterstützt.
Beginnen Sie noch heute mit der Erstellung professioneller Untertitel
30 Minuten kostenlose Transkription mit SRT- und VTT-Export. Ohne Kreditkarte.
VOCAP kostenlos testen