Was ist der Unterschied zwischen SRT und VTT?

SRT (SubRip Text) ist das älteste und kompatibelste Format: Es wird von YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix und praktisch jedem Player unterstützt. Es verwendet Zeitstempel mit Komma als Dezimaltrennzeichen (00:00:01,500). VTT (WebVTT) ist der moderne Web-Standard: Er wird von HTML5-Playern über das -Element verwendet, unterstützt CSS-Stile, Bildschirm-Positionierung, Regionen, Metadaten und Cue-Settings. Es verwendet einen Punkt als Dezimaltrennzeichen (00:00:01.500). Für das moderne Web verwenden Sie VTT, für bearbeitetes Video oder Plattform-Uploads verwenden Sie SRT.

Kann ich direkt aus Audio ohne Video eine SRT-Datei erstellen?

Ja. SRT und VTT sind nur Text mit Zeitstempeln, sie enthalten kein Video. VOCAP generiert die Datei aus jedem MP3, WAV, M4A oder OGG. Das Audio wird mit Whisper transkribiert, automatisch in Sätze von 3-6 Sekunden segmentiert und als .srt oder .vtt exportiert, bereit zur Synchronisation mit dem später erstellten Video oder als Grundlage für Podcast-Untertitel.

Wie funktioniert die automatische Übersetzung einer SRT-Datei in eine andere Sprache?

VOCAP transkribiert das Audio in seiner Originalsprache und kann im selben Prozess das Ergebnis in Englisch, Französisch, Spanisch, Italienisch, Portugiesisch oder 90 weitere Sprachen übersetzen, wobei die Zeitstempel erhalten bleiben. Die Übersetzung erfolgt durch Claude nach der Transkription, Satz für Satz, damit jeder Cue seine zeitliche Position behält. Das Ergebnis sind zwei SRT/VTT-Dateien: Original und übersetzt, die YouTube und HTML5-Player als alternative Spuren anbieten können.

Wie lang sollte jede Untertitelzeile sein?

Die Richtlinien von CSA, BBC und Netflix stimmen überein: maximal 42 Zeichen pro Zeile, maximal 2 Zeilen pro Cue, Dauer zwischen 1 und 6 Sekunden und eine Lesegeschwindigkeit von unter 17 Zeichen pro Sekunde. VOCAP segmentiert automatisch unter Einhaltung dieser Grenzen, aber wenn Sie einen Cue manuell umschreiben, halten Sie die Regel ein. Zu lange Cues ermüden den Zuschauer; zu kurze Cues flackern.

Warum akzeptiert YouTube SRT und VTT, zeigt sie aber unterschiedlich an?

YouTube akzeptiert beide Formate, konvertiert sie aber intern in sein eigenes JSON3-Format. Das visuelle Ergebnis ist für den Zuschauer identisch. Der praktische Unterschied besteht darin, dass VTT das Einbinden von Metadaten (NOTE), Cue-Settings (Position, Ausrichtung) und Formatierung (kursiv, fett) ermöglicht, die SRT standardmäßig nicht unterstützt. Wenn Sie zu YouTube hochladen und keine Stile benötigen, funktionieren beide; wenn Sie Positionierung oder Markup beibehalten möchten, verwenden Sie VTT.

SRT- und VTT-Untertitel mit KI erstellen [Leitfaden 2026]

Ein Video ohne Untertitel im Jahr 2026 hochzuladen bedeutet, 85 % der Zuschauer auszuschließen, die Inhalte stumm in der U-Bahn, im Büro oder im Bett ansehen. Und Untertitel von Hand zu erstellen ist nach wie vor eine der mühsamsten Aufgaben im Bearbeitungs-Workflow: Zeiten markieren, Sätze trennen, Zeilenumbrüche anpassen, in andere Sprachen übersetzen. KI verändert die Gleichung: Eine gut gemachte SRT- oder VTT-Datei aus einem 20-minütigen Video wird jetzt in unter fünf Minuten generiert.

Dieser Leitfaden erklärt, wie man SRT- und VTT-Dateien mit KI aus beliebigem Audio oder Video erstellt: technische Unterschiede zwischen den beiden Formaten, Codebeispiele, Tools, Kontrolle von Synchronisation und Zeilenumbrüchen, Übersetzung der Untertitel in mehrere Sprachen unter Beibehaltung der Zeitstempel und das Hochladen in YouTube, Vimeo, Premiere und HTML5-Player.

85 % der Videos in sozialen Medien werden ohne Ton angesehen

12 %+ mehr Zuschauerbindung mit Untertiteln

3-5 Min. um SRT/VTT für ein 20-Min.-Video zu generieren

Artikelinhalt

SRT vs. VTT: technische Unterschiede
Wann welches Format verwenden
Interne Struktur von SRT und VTT
SRT und VTT mit VOCAP erstellen
VTT in HTML5 mit <track> laden
SRT/VTT zu YouTube und Vimeo hochladen
SRT in Premiere und Final Cut importieren
Untertitel in andere Sprachen übersetzen
Best Practices: Länge, Zeiten, Lesegeschwindigkeit
Häufig gestellte Fragen

SRT vs. VTT: technische Unterschiede

Beide sind reine Textdateien, die Sätze mit Zeitstempeln verknüpfen, gehören aber unterschiedlichen Generationen an. SRT (SubRip Text) entstand 2000 als Ausgabeformat des Programms SubRip zum Extrahieren von DVD-Untertiteln. VTT (WebVTT) ist der moderne W3C-Standard, entwickelt für HTML5-Player und das semantische Web.

Merkmal	SRT	VTT
Jahr des Standards	2000 (de facto)	2010 (W3C)
Erweiterung	.srt	.vtt
Pflichtkopfzeile	Nein	Ja (WEBVTT)
Dezimaltrennzeichen	Komma (,)	Punkt (.)
HTML5 nativ (<track>)	Nur mit Konvertierung	Ja, offiziell
CSS-Stile	Nein	Ja, via ::cue
Cue-Positionierung	Nein	Ja (line, position, align)
NOTE-Kommentare	Nein	Ja
Kapitel / Regionen	Nein	Ja
YouTube-Unterstützung	Ja	Ja
Premiere/Final Cut-Unterstützung	Ja, nativ	Konvertierung empfohlen
Netflix/Disney+-Unterstützung	Via Konvertierung zu IMSC/TTML	Via Konvertierung zu IMSC/TTML

Wann welches Format verwenden

Praktische Regel: Wenn das Ziel ein HTML5-Player auf einer eigenen Website oder einer modernen Plattform ist, exportieren Sie VTT. Wenn das Ziel ein Videoeditor (Premiere, Final Cut, DaVinci, CapCut), eine soziale Plattform (YouTube, Vimeo, Facebook) oder ein Desktop-Player (VLC, MX Player) ist, exportieren Sie SRT. Im Zweifelsfall exportieren Sie SRT: Es hat mehr historische Kompatibilität und fast jedes Tool kann es konvertieren.

Wann SRT wählen

Videobearbeitung: Premiere Pro und DaVinci Resolve importieren es als bearbeitbare Untertitelspur in die Timeline
Desktop-Player: VLC, MPC-HC, MX Player erkennen es automatisch, wenn es denselben Namen wie das .mp4 trägt
Upload zu YouTube und Vimeo: Beide akzeptieren es ohne Konvertierung
Verteilung an Kunden: Es ist das Format, das fast jeder öffnen kann

Wann VTT wählen

Eigener HTML5-Player: Das <track>-Element von <video> akzeptiert offiziell nur VTT
Kurse und LMS-Plattformen: Moodle, Canvas, Coursera oder Ihr eigener Videoplayer bevorzugen VTT
Untertitel mit Stil: Wenn Sie Farben, Positionierung oder Kursivschrift benötigen, ohne Text in das Video zu brennen
Kapitelspuren: VTT unterstützt <track kind="chapters"> für die Navigation über Marker
Moderne Webanwendungen: React, Vue oder jedes Framework, das den nativen Browser-Player verwendet

Interne Struktur von SRT und VTT

Die Datei von innen zu sehen, hilft zu verstehen, wie die KI das Ergebnis erstellt und wie man es repariert, falls etwas aus dem Ruder läuft.

Beispiel einer .srt-Datei

1
00:00:00,000 --> 00:00:03,200
Willkommen zum heutigen Podcast.

2
00:00:03,500 --> 00:00:07,800
Wir sprechen darüber, wie man
Untertitel mit künstlicher Intelligenz erstellt.

3
00:00:08,000 --> 00:00:11,400
In fünf Minuten haben Sie
eine einsatzbereite SRT-Datei.

Jeder Cue hat drei Teile: eine Ordnungsnummer, einen Zeitbereich mit dem Pfeil --> und Dezimaltrennzeichen Komma, und den Untertiteltext (maximal ein oder zwei Zeilen). Eine Leerzeile trennt die Cues.

Beispiel einer .vtt-Datei

WEBVTT

NOTE Von VOCAP generierte Untertitel

1
00:00:00.000 --> 00:00:03.200
Willkommen zum heutigen Podcast.

2
00:00:03.500 --> 00:00:07.800 line:90% align:center
Wir sprechen darüber, wie man
Untertitel mit künstlicher Intelligenz erstellt.

3
00:00:08.000 --> 00:00:11.400
<v Speaker1>In fünf Minuten haben Sie eine einsatzbereite VTT-Datei.</v>

VTT erfordert den Header WEBVTT als erste Zeile, verwendet Punkt als Dezimaltrennzeichen und erlaubt Extras: Kommentare mit NOTE, Cue-Positionierung (line, align, position) und Inline-Tags wie <v Speaker> für Sprecher-Diarisierung.

Tipp: Verwenden Sie niemals Word oder Pages, um eine .srt- oder .vtt-Datei zu bearbeiten: Sie fügen rich encoding ein, das Player zerstört. Verwenden Sie immer einen reinen Texteditor (VS Code, Sublime Text, Notepad++, BBEdit) und speichern Sie in UTF-8 ohne BOM.

SRT und VTT mit VOCAP erstellen

VOCAP generiert beide Formate im gleichen Transkriptionsprozess, mit Zeitstempeln auf Satzebene und unter Einhaltung empfohlener Längen.

Audio oder Video hochladen

Gehen Sie zu vocap.io/de/transcribe und ziehen Sie die Datei hinein. VOCAP akzeptiert MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC und OPUS bis 150 MB. Wenn Ihr Video größer ist, extrahieren Sie das Audio mit ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) und laden Sie nur das Audio hoch.

Auf Transkription mit Zeitstempeln warten

VOCAP verwendet OpenAIs Whisper, um zu transkribieren und Zeitstempel auf Satzebene zurückzugeben. Für 20 Minuten Video dauert die Transkription zwischen 3 und 5 Minuten.

Als SRT oder VTT exportieren

Klicken Sie im Ergebnisbereich auf Exportieren und wählen Sie das Format. Die Segmentierung wird automatisch angepasst: maximal 42 Zeichen pro Zeile, maximal 6 Sekunden pro Cue, Schnitte an natürlicher Interpunktion.

In einem Texteditor überprüfen

Öffnen Sie die .srt- oder .vtt-Datei in VS Code oder Sublime Text. Bestätigen Sie, dass die Zeitstempel mit dem Audio synchronisiert sind (Sie können die Datei in einen Player einfügen, der Untertitel lädt, um dies zu überprüfen) und korrigieren Sie alle Eigennamen, die die KI falsch transkribiert hat.

Datei auf Ihre Plattform laden

Gehen Sie zum entsprechenden Abschnitt: YouTube, Vimeo, Premiere oder HTML5. Jeder hat einen anderen Upload-Flow, der in den folgenden Abschnitten beschrieben wird.

Erstellen Sie Ihre erste SRT/VTT-Datei kostenlos

30 Minuten Transkription mit SRT- und VTT-Export inklusive. Ohne Kreditkarte.

VOCAP kostenlos testen

VTT in HTML5 mit <track> laden

Der native HTML5-Player unterstützt Untertitel standardmäßig dank des <track>-Elements. Er akzeptiert nur VTT.

<video controls width="720">
  <source src="podcast.mp4" type="video/mp4">

  <track
    label="Deutsch"
    kind="subtitles"
    srclang="de"
    src="podcast-de.vtt"
    default>

  <track
    label="English"
    kind="subtitles"
    srclang="en"
    src="podcast-en.vtt">

  <track
    label="Kapitel"
    kind="chapters"
    srclang="de"
    src="podcast-chapters.vtt">
</video>

Das Attribut default markiert die Spur, die beim Laden des Videos aktiviert wird. Wenn Sie das HTML von einer Domain und das VTT von einer anderen (z. B. CDN) ausliefern, denken Sie daran, crossorigin="anonymous" am <video> und die Header Access-Control-Allow-Origin auf dem VTT-Server zu konfigurieren.

Häufiger Fehler: die .vtt-Datei mit dem falschen MIME-Typ ausliefern. Konfigurieren Sie Ihren Server so, dass er text/vtt zurückgibt; wenn er text/plain oder application/octet-stream zurückgibt, ignorieren Chrome und Firefox die Datei stillschweigend. In Nginx: types { text/vtt vtt; }. In Apache: AddType text/vtt .vtt. In Vercel oder Netlify wird es im Dashboard konfiguriert.

VTT-Untertitel mit CSS stylen

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffeb3b;
  font-family: "Inter", sans-serif;
  font-size: 1.1em;
  text-shadow: 0 1px 2px #000;
}

video::cue(b) {
  color: #ff5252;
}

Nur VTT unterstützt diese Kontrollebene. Wenn Sie SRT exportieren und Stile benötigen, müssen Sie diese mit ffmpeg oder Tools wie HandBrake in das Video brennen.

SRT/VTT zu YouTube und Vimeo hochladen

YouTube

Gehen Sie zu YouTube Studio > Inhalt > wählen Sie Ihr Video aus
Tab Untertitel in der linken Leiste
Sprache hinzufügen > Sprache der Datei auswählen
Klicken Sie unter "Untertitel" auf Hinzufügen > Datei hochladen
Wählen Sie "Mit Zeitcodes" und laden Sie die .srt- oder .vtt-Datei hoch
YouTube aktiviert sie sofort; die CC-Schaltfläche des Players zeigt sie an

YouTube generiert auch automatische Untertitel in seinem eigenen System, aber die Qualität auf Deutsch beträgt 75-85 %. Das Hochladen Ihrer eigenen, von VOCAP generierten SRT-Datei ergibt eine Genauigkeit von über 95 % und verbessert die Indizierung des Videos in der Suchmaschine.

Vimeo

Öffnen Sie das Video in Vimeo und klicken Sie auf Einstellungen
Tab Distribution > Abschnitt Untertitel
Klicken Sie auf + CC/Untertiteldatei hinzufügen
Laden Sie die .srt- oder .vtt-Datei hoch und wählen Sie die Sprache
Aktivieren Sie das Kontrollkästchen "Verfügbar", damit der Zuschauer sie auswählen kann

SRT in Premiere und Final Cut importieren

Premiere Pro

Seit 2022 importiert Premiere .srt-Dateien direkt:

Fenster > Text > Untertitel > Aus SRT importieren
Wählen Sie die von VOCAP generierte .srt-Datei aus
Eine neue Untertitelspur erscheint in der Timeline
Jeder Cue kann einzeln bearbeitet werden; ziehen Sie die Ränder, um die Zeiten anzupassen
Um das Video mit eingebrannten Untertiteln zu exportieren, aktivieren Sie im Exportbereich "Untertitel ins Video einbrennen"
Um als separate Untertitelspur (Sidecar) zu exportieren, wählen Sie "Untertiteldatei erstellen"

Final Cut Pro

Final Cut bevorzugt das Format iTT (iTunes Timed Text), akzeptiert aber SRT mit einem Trick:

Datei > Importieren > Untertitel
Wählen Sie die .srt-Datei; FCP konvertiert sie intern automatisch in iTT
Die Spur erscheint in der Timeline mit bearbeitbaren Cues
Zum Exportieren als CEA-608- oder iTT-Spur verwenden Sie Teilen > Mediendatei > Rollen

DaVinci Resolve und CapCut

DaVinci Resolve importiert SRT seit Version 18 (Bearbeiten > Importieren > Untertitel). CapCut Desktop und Web unterstützen SRT ebenfalls seit 2024 (Timeline > Untertitel > Datei importieren). In CapCut Mobile ist der Import etwas eingeschränkter, und es ist besser, die Untertitel aus der App selbst aus dem Audio zu generieren.

Untertitel in andere Sprachen übersetzen

Der klassische Workflow zur Übersetzung von Untertiteln bestand darin, die SRT durch einen menschlichen Übersetzer oder DeepL zu schicken und Cue für Cue manuell einzufügen. Mit KI reduziert sich der Prozess auf einen einzigen Schritt, da VOCAP unter Beibehaltung der Zeitstempel übersetzt.

Audio in der Originalsprache transkribieren

Zum Beispiel ein Podcast auf Deutsch. VOCAP generiert die SRT/VTT auf Deutsch mit Zeitstempeln.

Übersetzung in die benötigten Sprachen aktivieren

Englisch, Französisch, Spanisch, Italienisch, Portugiesisch oder eine der 90 unterstützten Sprachen. Jede Sprache erzeugt eine eigenständige SRT/VTT-Datei mit denselben Zeitstempeln.

Alternative Spuren zu YouTube oder Ihrem Player hochladen

YouTube erlaubt das Hinzufügen beliebig vieler Sprachen über Untertitel > Sprache hinzufügen. In HTML5 fügen Sie einfach ein <track> pro Sprache mit dem entsprechenden srclang-Attribut hinzu.

Warum die Untertitelübersetzung wichtig ist: Ein Video mit Untertiteln in 3 Sprachen vervielfacht die potenzielle Reichweite um das 3- bis 5-fache. YouTube indiziert nach Untertitelsprache, daher erscheint ein deutscher Podcast mit Untertiteln auf Englisch und Portugiesisch in den Suchen aller drei Märkte. Die Grenzkosten mit KI betragen Cent pro Sprache; die Kosten mit einem menschlichen Übersetzer würden 50-100 EUR betragen.

Best Practices: Länge, Zeiten, Lesegeschwindigkeit

Die Richtlinien von CSA (Frankreich), BBC (UK), Netflix Style Guide und CPL (Captioned Media Program der USA) stimmen in fast allem überein.

Regel	Empfohlener Wert	Warum
Zeichen pro Zeile	Max. 42	Passt auf 16:9-Bildschirme ohne Übersättigung
Zeilen pro Cue	Max. 2	Mehr blockiert das Bild
Dauer pro Cue	1-6 Sekunden	Bequeme Lesezeit
Lesegeschwindigkeit	< 17 Zeichen/Sekunde	BBC- und Netflix-Standard
Lücke zwischen Cues	≥ 80 ms	Vermeidet Flackern zwischen Untertiteln
Zeilenumbruch	An natürlicher Interpunktion	Keine Phrasen abschneiden
Sprecher-Identifikation	Nur bei Verwirrung	Verwenden Sie "- " oder `<v>` in VTT

Untertitel von Hand erstellt

3-5 Stunden pro Stunde Video
Häufige Synchronisationsfehler
Inkonsistenz zwischen Cues
Übersetzen vervielfacht die Kosten pro Sprache
Langeweile garantiert

Untertitel mit VOCAP + KI

3-5 Minuten pro Stunde Video
Perfekte Synchronisation auf Satzebene
CSA/BBC-Regeln standardmäßig angewendet
Übersetzung in 90 Sprachen im selben Schritt
Freie Zeit für kreative Bearbeitung

Echte Anwendungsfälle

Video-Podcaster

Sie wandeln YouTube- und Spotify-Video-Episoden in zugängliche und besser indizierte Inhalte um.

SRT zum Hochladen zu YouTube
VTT für die eigene Podcast-Website
Übersetzungen ins Englische und Portugiesische
Verbessert das Video-SEO

Online-Kurse und Trainer

Sie generieren zugängliche Untertitel für ihre Akademien auf Moodle, Teachable oder eigenen Websites.

VTT für HTML5-Player
Kapitel in separater VTT
WCAG 2.2-Konformität
Studenten in verschiedenen Sprachen

Reels- und Shorts-Ersteller

Eingebrannte oder Sidecar-Untertitel für Instagram, TikTok und YouTube Shorts.

SRT als Quelle
Einbrennen via ffmpeg oder CapCut
Stile pro Plattform
80 % bessere Zuschauerbindung

Unternehmen und Corporate Video

Onboarding, interne Schulungen, mehrsprachige Produktvideos.

SRT für Premiere
Übersetzung ins Englische/Französische
Barrierefreiheit im Intranet
Internationale Nutzung

Journalisten und Dokumentationen

Aufgezeichnete Interviews mit exakten Untertiteln für die Ausstrahlung.

SRT kompatibel mit Broadcast-Editoren
Sprecher-Markierungen in VTT
Zitate mit exaktem Zeitstempel
Versionierung in mehreren Sprachen

Streamer und Gaming-Editoren

Twitch- und YouTube-Gaming-VODs mit automatischen Untertiteln.

SRT aus dem langen VOD
Übersetzung für globales Publikum
Besseres YouTube-SEO
Barrierefreiheit der Community

Generieren Sie Ihre SRT- und VTT-Untertitel in Minuten

Testen Sie VOCAP kostenlos: 30 Minuten Transkription mit SRT- und VTT-Export inklusive. Ohne Karte. Funktioniert auf Mac, Windows, Linux, iPhone und Android von Safari oder Chrome.

Kostenlos starten

Häufig gestellte Fragen

Beginnen Sie noch heute mit der Erstellung professioneller Untertitel

30 Minuten kostenlose Transkription mit SRT- und VTT-Export. Ohne Kreditkarte.