Startseite Preise Blog

SRT- und VTT-Untertitel mit KI erstellen im Jahr 2026

22. Mai 2026 Von VOCAP 12 Min. Lesezeit

Ein Video ohne Untertitel im Jahr 2026 hochzuladen bedeutet, 85 % der Zuschauer auszuschließen, die Inhalte stumm in der U-Bahn, im Büro oder im Bett ansehen. Und Untertitel von Hand zu erstellen ist nach wie vor eine der mühsamsten Aufgaben im Bearbeitungs-Workflow: Zeiten markieren, Sätze trennen, Zeilenumbrüche anpassen, in andere Sprachen übersetzen. KI verändert die Gleichung: Eine gut gemachte SRT- oder VTT-Datei aus einem 20-minütigen Video wird jetzt in unter fünf Minuten generiert.

Dieser Leitfaden erklärt, wie man SRT- und VTT-Dateien mit KI aus beliebigem Audio oder Video erstellt: technische Unterschiede zwischen den beiden Formaten, Codebeispiele, Tools, Kontrolle von Synchronisation und Zeilenumbrüchen, Übersetzung der Untertitel in mehrere Sprachen unter Beibehaltung der Zeitstempel und das Hochladen in YouTube, Vimeo, Premiere und HTML5-Player.

85 % der Videos in sozialen Medien werden ohne Ton angesehen
12 %+ mehr Zuschauerbindung mit Untertiteln
3-5 Min. um SRT/VTT für ein 20-Min.-Video zu generieren

SRT vs. VTT: technische Unterschiede

Beide sind reine Textdateien, die Sätze mit Zeitstempeln verknüpfen, gehören aber unterschiedlichen Generationen an. SRT (SubRip Text) entstand 2000 als Ausgabeformat des Programms SubRip zum Extrahieren von DVD-Untertiteln. VTT (WebVTT) ist der moderne W3C-Standard, entwickelt für HTML5-Player und das semantische Web.

Merkmal SRT VTT
Jahr des Standards 2000 (de facto) 2010 (W3C)
Erweiterung .srt .vtt
Pflichtkopfzeile Nein Ja (WEBVTT)
Dezimaltrennzeichen Komma (,) Punkt (.)
HTML5 nativ (<track>) Nur mit Konvertierung Ja, offiziell
CSS-Stile Nein Ja, via ::cue
Cue-Positionierung Nein Ja (line, position, align)
NOTE-Kommentare Nein Ja
Kapitel / Regionen Nein Ja
YouTube-Unterstützung Ja Ja
Premiere/Final Cut-Unterstützung Ja, nativ Konvertierung empfohlen
Netflix/Disney+-Unterstützung Via Konvertierung zu IMSC/TTML Via Konvertierung zu IMSC/TTML

Wann welches Format verwenden

Praktische Regel: Wenn das Ziel ein HTML5-Player auf einer eigenen Website oder einer modernen Plattform ist, exportieren Sie VTT. Wenn das Ziel ein Videoeditor (Premiere, Final Cut, DaVinci, CapCut), eine soziale Plattform (YouTube, Vimeo, Facebook) oder ein Desktop-Player (VLC, MX Player) ist, exportieren Sie SRT. Im Zweifelsfall exportieren Sie SRT: Es hat mehr historische Kompatibilität und fast jedes Tool kann es konvertieren.

Wann SRT wählen

Wann VTT wählen

Interne Struktur von SRT und VTT

Die Datei von innen zu sehen, hilft zu verstehen, wie die KI das Ergebnis erstellt und wie man es repariert, falls etwas aus dem Ruder läuft.

Beispiel einer .srt-Datei

1
00:00:00,000 --> 00:00:03,200
Willkommen zum heutigen Podcast.

2
00:00:03,500 --> 00:00:07,800
Wir sprechen darüber, wie man
Untertitel mit künstlicher Intelligenz erstellt.

3
00:00:08,000 --> 00:00:11,400
In fünf Minuten haben Sie
eine einsatzbereite SRT-Datei.

Jeder Cue hat drei Teile: eine Ordnungsnummer, einen Zeitbereich mit dem Pfeil --> und Dezimaltrennzeichen Komma, und den Untertiteltext (maximal ein oder zwei Zeilen). Eine Leerzeile trennt die Cues.

Beispiel einer .vtt-Datei

WEBVTT

NOTE Von VOCAP generierte Untertitel

1
00:00:00.000 --> 00:00:03.200
Willkommen zum heutigen Podcast.

2
00:00:03.500 --> 00:00:07.800 line:90% align:center
Wir sprechen darüber, wie man
Untertitel mit künstlicher Intelligenz erstellt.

3
00:00:08.000 --> 00:00:11.400
<v Speaker1>In fünf Minuten haben Sie eine einsatzbereite VTT-Datei.</v>

VTT erfordert den Header WEBVTT als erste Zeile, verwendet Punkt als Dezimaltrennzeichen und erlaubt Extras: Kommentare mit NOTE, Cue-Positionierung (line, align, position) und Inline-Tags wie <v Speaker> für Sprecher-Diarisierung.

Tipp: Verwenden Sie niemals Word oder Pages, um eine .srt- oder .vtt-Datei zu bearbeiten: Sie fügen rich encoding ein, das Player zerstört. Verwenden Sie immer einen reinen Texteditor (VS Code, Sublime Text, Notepad++, BBEdit) und speichern Sie in UTF-8 ohne BOM.

SRT und VTT mit VOCAP erstellen

VOCAP generiert beide Formate im gleichen Transkriptionsprozess, mit Zeitstempeln auf Satzebene und unter Einhaltung empfohlener Längen.

1

Audio oder Video hochladen

Gehen Sie zu vocap.io/de/transcribe und ziehen Sie die Datei hinein. VOCAP akzeptiert MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC und OPUS bis 150 MB. Wenn Ihr Video größer ist, extrahieren Sie das Audio mit ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) und laden Sie nur das Audio hoch.

2

Auf Transkription mit Zeitstempeln warten

VOCAP verwendet OpenAIs Whisper, um zu transkribieren und Zeitstempel auf Satzebene zurückzugeben. Für 20 Minuten Video dauert die Transkription zwischen 3 und 5 Minuten.

3

Als SRT oder VTT exportieren

Klicken Sie im Ergebnisbereich auf Exportieren und wählen Sie das Format. Die Segmentierung wird automatisch angepasst: maximal 42 Zeichen pro Zeile, maximal 6 Sekunden pro Cue, Schnitte an natürlicher Interpunktion.

4

In einem Texteditor überprüfen

Öffnen Sie die .srt- oder .vtt-Datei in VS Code oder Sublime Text. Bestätigen Sie, dass die Zeitstempel mit dem Audio synchronisiert sind (Sie können die Datei in einen Player einfügen, der Untertitel lädt, um dies zu überprüfen) und korrigieren Sie alle Eigennamen, die die KI falsch transkribiert hat.

5

Datei auf Ihre Plattform laden

Gehen Sie zum entsprechenden Abschnitt: YouTube, Vimeo, Premiere oder HTML5. Jeder hat einen anderen Upload-Flow, der in den folgenden Abschnitten beschrieben wird.

Erstellen Sie Ihre erste SRT/VTT-Datei kostenlos

30 Minuten Transkription mit SRT- und VTT-Export inklusive. Ohne Kreditkarte.

VOCAP kostenlos testen

VTT in HTML5 mit <track> laden

Der native HTML5-Player unterstützt Untertitel standardmäßig dank des <track>-Elements. Er akzeptiert nur VTT.

<video controls width="720">
  <source src="podcast.mp4" type="video/mp4">

  <track
    label="Deutsch"
    kind="subtitles"
    srclang="de"
    src="podcast-de.vtt"
    default>

  <track
    label="English"
    kind="subtitles"
    srclang="en"
    src="podcast-en.vtt">

  <track
    label="Kapitel"
    kind="chapters"
    srclang="de"
    src="podcast-chapters.vtt">
</video>

Das Attribut default markiert die Spur, die beim Laden des Videos aktiviert wird. Wenn Sie das HTML von einer Domain und das VTT von einer anderen (z. B. CDN) ausliefern, denken Sie daran, crossorigin="anonymous" am <video> und die Header Access-Control-Allow-Origin auf dem VTT-Server zu konfigurieren.

Häufiger Fehler: die .vtt-Datei mit dem falschen MIME-Typ ausliefern. Konfigurieren Sie Ihren Server so, dass er text/vtt zurückgibt; wenn er text/plain oder application/octet-stream zurückgibt, ignorieren Chrome und Firefox die Datei stillschweigend. In Nginx: types { text/vtt vtt; }. In Apache: AddType text/vtt .vtt. In Vercel oder Netlify wird es im Dashboard konfiguriert.

VTT-Untertitel mit CSS stylen

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffeb3b;
  font-family: "Inter", sans-serif;
  font-size: 1.1em;
  text-shadow: 0 1px 2px #000;
}

video::cue(b) {
  color: #ff5252;
}

Nur VTT unterstützt diese Kontrollebene. Wenn Sie SRT exportieren und Stile benötigen, müssen Sie diese mit ffmpeg oder Tools wie HandBrake in das Video brennen.

SRT/VTT zu YouTube und Vimeo hochladen

YouTube

  1. Gehen Sie zu YouTube Studio > Inhalt > wählen Sie Ihr Video aus
  2. Tab Untertitel in der linken Leiste
  3. Sprache hinzufügen > Sprache der Datei auswählen
  4. Klicken Sie unter "Untertitel" auf Hinzufügen > Datei hochladen
  5. Wählen Sie "Mit Zeitcodes" und laden Sie die .srt- oder .vtt-Datei hoch
  6. YouTube aktiviert sie sofort; die CC-Schaltfläche des Players zeigt sie an

YouTube generiert auch automatische Untertitel in seinem eigenen System, aber die Qualität auf Deutsch beträgt 75-85 %. Das Hochladen Ihrer eigenen, von VOCAP generierten SRT-Datei ergibt eine Genauigkeit von über 95 % und verbessert die Indizierung des Videos in der Suchmaschine.

Vimeo

  1. Öffnen Sie das Video in Vimeo und klicken Sie auf Einstellungen
  2. Tab Distribution > Abschnitt Untertitel
  3. Klicken Sie auf + CC/Untertiteldatei hinzufügen
  4. Laden Sie die .srt- oder .vtt-Datei hoch und wählen Sie die Sprache
  5. Aktivieren Sie das Kontrollkästchen "Verfügbar", damit der Zuschauer sie auswählen kann

SRT in Premiere und Final Cut importieren

Premiere Pro

Seit 2022 importiert Premiere .srt-Dateien direkt:

  1. Fenster > Text > Untertitel > Aus SRT importieren
  2. Wählen Sie die von VOCAP generierte .srt-Datei aus
  3. Eine neue Untertitelspur erscheint in der Timeline
  4. Jeder Cue kann einzeln bearbeitet werden; ziehen Sie die Ränder, um die Zeiten anzupassen
  5. Um das Video mit eingebrannten Untertiteln zu exportieren, aktivieren Sie im Exportbereich "Untertitel ins Video einbrennen"
  6. Um als separate Untertitelspur (Sidecar) zu exportieren, wählen Sie "Untertiteldatei erstellen"

Final Cut Pro

Final Cut bevorzugt das Format iTT (iTunes Timed Text), akzeptiert aber SRT mit einem Trick:

  1. Datei > Importieren > Untertitel
  2. Wählen Sie die .srt-Datei; FCP konvertiert sie intern automatisch in iTT
  3. Die Spur erscheint in der Timeline mit bearbeitbaren Cues
  4. Zum Exportieren als CEA-608- oder iTT-Spur verwenden Sie Teilen > Mediendatei > Rollen

DaVinci Resolve und CapCut

DaVinci Resolve importiert SRT seit Version 18 (Bearbeiten > Importieren > Untertitel). CapCut Desktop und Web unterstützen SRT ebenfalls seit 2024 (Timeline > Untertitel > Datei importieren). In CapCut Mobile ist der Import etwas eingeschränkter, und es ist besser, die Untertitel aus der App selbst aus dem Audio zu generieren.

Untertitel in andere Sprachen übersetzen

Der klassische Workflow zur Übersetzung von Untertiteln bestand darin, die SRT durch einen menschlichen Übersetzer oder DeepL zu schicken und Cue für Cue manuell einzufügen. Mit KI reduziert sich der Prozess auf einen einzigen Schritt, da VOCAP unter Beibehaltung der Zeitstempel übersetzt.

1

Audio in der Originalsprache transkribieren

Zum Beispiel ein Podcast auf Deutsch. VOCAP generiert die SRT/VTT auf Deutsch mit Zeitstempeln.

2

Übersetzung in die benötigten Sprachen aktivieren

Englisch, Französisch, Spanisch, Italienisch, Portugiesisch oder eine der 90 unterstützten Sprachen. Jede Sprache erzeugt eine eigenständige SRT/VTT-Datei mit denselben Zeitstempeln.

3

Alternative Spuren zu YouTube oder Ihrem Player hochladen

YouTube erlaubt das Hinzufügen beliebig vieler Sprachen über Untertitel > Sprache hinzufügen. In HTML5 fügen Sie einfach ein <track> pro Sprache mit dem entsprechenden srclang-Attribut hinzu.

Warum die Untertitelübersetzung wichtig ist: Ein Video mit Untertiteln in 3 Sprachen vervielfacht die potenzielle Reichweite um das 3- bis 5-fache. YouTube indiziert nach Untertitelsprache, daher erscheint ein deutscher Podcast mit Untertiteln auf Englisch und Portugiesisch in den Suchen aller drei Märkte. Die Grenzkosten mit KI betragen Cent pro Sprache; die Kosten mit einem menschlichen Übersetzer würden 50-100 EUR betragen.

Best Practices: Länge, Zeiten, Lesegeschwindigkeit

Die Richtlinien von CSA (Frankreich), BBC (UK), Netflix Style Guide und CPL (Captioned Media Program der USA) stimmen in fast allem überein.

Regel Empfohlener Wert Warum
Zeichen pro Zeile Max. 42 Passt auf 16:9-Bildschirme ohne Übersättigung
Zeilen pro Cue Max. 2 Mehr blockiert das Bild
Dauer pro Cue 1-6 Sekunden Bequeme Lesezeit
Lesegeschwindigkeit < 17 Zeichen/Sekunde BBC- und Netflix-Standard
Lücke zwischen Cues ≥ 80 ms Vermeidet Flackern zwischen Untertiteln
Zeilenumbruch An natürlicher Interpunktion Keine Phrasen abschneiden
Sprecher-Identifikation Nur bei Verwirrung Verwenden Sie "- " oder <v> in VTT

Untertitel von Hand erstellt

  • 3-5 Stunden pro Stunde Video
  • Häufige Synchronisationsfehler
  • Inkonsistenz zwischen Cues
  • Übersetzen vervielfacht die Kosten pro Sprache
  • Langeweile garantiert

Untertitel mit VOCAP + KI

  • 3-5 Minuten pro Stunde Video
  • Perfekte Synchronisation auf Satzebene
  • CSA/BBC-Regeln standardmäßig angewendet
  • Übersetzung in 90 Sprachen im selben Schritt
  • Freie Zeit für kreative Bearbeitung

Echte Anwendungsfälle

Video-Podcaster

Sie wandeln YouTube- und Spotify-Video-Episoden in zugängliche und besser indizierte Inhalte um.

  • SRT zum Hochladen zu YouTube
  • VTT für die eigene Podcast-Website
  • Übersetzungen ins Englische und Portugiesische
  • Verbessert das Video-SEO

Online-Kurse und Trainer

Sie generieren zugängliche Untertitel für ihre Akademien auf Moodle, Teachable oder eigenen Websites.

  • VTT für HTML5-Player
  • Kapitel in separater VTT
  • WCAG 2.2-Konformität
  • Studenten in verschiedenen Sprachen

Reels- und Shorts-Ersteller

Eingebrannte oder Sidecar-Untertitel für Instagram, TikTok und YouTube Shorts.

  • SRT als Quelle
  • Einbrennen via ffmpeg oder CapCut
  • Stile pro Plattform
  • 80 % bessere Zuschauerbindung

Unternehmen und Corporate Video

Onboarding, interne Schulungen, mehrsprachige Produktvideos.

  • SRT für Premiere
  • Übersetzung ins Englische/Französische
  • Barrierefreiheit im Intranet
  • Internationale Nutzung

Journalisten und Dokumentationen

Aufgezeichnete Interviews mit exakten Untertiteln für die Ausstrahlung.

  • SRT kompatibel mit Broadcast-Editoren
  • Sprecher-Markierungen in VTT
  • Zitate mit exaktem Zeitstempel
  • Versionierung in mehreren Sprachen

Streamer und Gaming-Editoren

Twitch- und YouTube-Gaming-VODs mit automatischen Untertiteln.

  • SRT aus dem langen VOD
  • Übersetzung für globales Publikum
  • Besseres YouTube-SEO
  • Barrierefreiheit der Community

Generieren Sie Ihre SRT- und VTT-Untertitel in Minuten

Testen Sie VOCAP kostenlos: 30 Minuten Transkription mit SRT- und VTT-Export inklusive. Ohne Karte. Funktioniert auf Mac, Windows, Linux, iPhone und Android von Safari oder Chrome.

Kostenlos starten

Häufig gestellte Fragen

Was ist der Unterschied zwischen SRT und VTT?

SRT (SubRip Text) ist das älteste und kompatibelste Format: Es wird von YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix und praktisch jedem Player unterstützt. Es verwendet Zeitstempel mit Komma als Dezimaltrennzeichen. VTT (WebVTT) ist der moderne Web-Standard: Er wird von HTML5-Playern über das <track>-Element verwendet, unterstützt CSS-Stile, Bildschirm-Positionierung und Kommentare. Es verwendet einen Punkt als Dezimaltrennzeichen. Für das moderne Web verwenden Sie VTT, für bearbeitetes Video oder Plattform-Uploads verwenden Sie SRT.

Kann ich direkt aus Audio ohne Video eine SRT-Datei erstellen?

Ja. SRT und VTT sind nur Text mit Zeitstempeln, sie enthalten kein Video. VOCAP generiert die Datei aus jedem MP3, WAV, M4A oder OGG. Das Audio wird mit Whisper transkribiert, automatisch in Sätze von 3-6 Sekunden segmentiert und als .srt oder .vtt exportiert, bereit zur Synchronisation mit dem später erstellten Video oder als Grundlage für Podcast-Untertitel.

Wie funktioniert die automatische Übersetzung einer SRT-Datei in eine andere Sprache?

VOCAP transkribiert das Audio in seiner Originalsprache und kann im selben Prozess das Ergebnis in Englisch, Französisch, Spanisch, Italienisch, Portugiesisch oder 90 weitere Sprachen übersetzen, wobei die Zeitstempel erhalten bleiben. Die Übersetzung erfolgt durch Claude nach der Transkription, Satz für Satz, damit jeder Cue seine zeitliche Position behält. Das Ergebnis sind zwei SRT/VTT-Dateien: Original und übersetzt.

Wie lang sollte jede Untertitelzeile sein?

Die Richtlinien von CSA, BBC und Netflix stimmen überein: maximal 42 Zeichen pro Zeile, maximal 2 Zeilen pro Cue, Dauer zwischen 1 und 6 Sekunden und eine Lesegeschwindigkeit von unter 17 Zeichen pro Sekunde. VOCAP segmentiert automatisch unter Einhaltung dieser Grenzen.

Warum akzeptiert YouTube SRT und VTT, zeigt sie aber unterschiedlich an?

YouTube akzeptiert beide Formate, konvertiert sie aber intern in sein eigenes JSON3-Format. Das visuelle Ergebnis ist für den Zuschauer identisch. Der praktische Unterschied besteht darin, dass VTT das Einbinden von Metadaten (NOTE), Cue-Settings (Position, Ausrichtung) und Formatierung (kursiv, fett) ermöglicht, die SRT standardmäßig nicht unterstützt.

Beginnen Sie noch heute mit der Erstellung professioneller Untertitel

30 Minuten kostenlose Transkription mit SRT- und VTT-Export. Ohne Kreditkarte.

VOCAP kostenlos testen
VOCAP kostenlos testen 15 Min Transkription
Jetzt starten →