Startseite Preise Blog

Audio mit Zeitstempeln (Timestamps) per KI transkribieren: Leitfaden 2026

Formate SRT, VTT, JSON und Klartext mit [00:00:00]. Wofür sie dienen, wie sie erzeugt werden und wo sie 2026 versagen.

Schnelle Antwort: Ein Zeitstempel (Timestamp) ist die Zeitmarke (HH:MM:SS), die den genauen Moment im Audio markiert, an dem etwas gesagt wird. 2026 erzeugen Engines wie Whisper oder gpt-4o-mini-transcribe sie automatisch mit ±0,5-2 Sekunden Genauigkeit auf Segment-Ebene und ±100-300 ms auf Wort-Ebene. Die häufigsten Formate sind SRT und VTT für Untertitel, JSON für Automation und Klartext mit Markierungen wie [00:01:23] für Zitate und menschliche Prüfung. VOCAP liefert alle vier aus demselben Audio.

Wer schon einmal in einer zweistündigen Aufnahme einen bestimmten Satz suchen musste, kennt das Problem: Text ohne Zeitstempel ist unbequemer Text. Man kann nicht zur exakten Minute springen, nicht präzise zitieren, keine Untertitel erzeugen. Zeitstempel lösen all das auf einmal.

Dieser Leitfaden erklärt, was sie sind, welches Format wann gebraucht wird, wie sie 2026 mit KI erzeugt werden und welche Fehler zu vermeiden sind.

Was ein Zeitstempel in einer Transkription ist

Ein Zeitstempel (auch Timestamp oder Zeitmarke) ist ein Wert, der den Moment im Audio markiert, an dem ein Wort oder Satz gesprochen wird. Üblicherweise in einem dieser Formate:

Jeder Zeitstempel kann start, end oder beides sein. Professionelle Formate tragen immer beides: Der Untertitel erscheint bei start und verschwindet bei end.

Wofür Zeitstempel dienen (reale Fälle)

1. Synchronisierte Untertitel

Der offensichtlichste Fall: Untertitelung von YouTube-Videos, Online-Kursen, Webinaren, Social-Media-Inhalten, Barrierefreiheit. Ohne Zeitstempel keine Untertitel. Formate: SRT (universell) oder VTT (Web HTML5).

2. Video- und Audioschnitt

Profi-Editoren (Premiere, DaVinci Resolve, Final Cut) importieren zeitgestempelte Transkripte für textbasierten Schnitt: Wort im Transkript löschen, Videoclip wird automatisch geschnitten. Descript hat diesen Workflow popularisiert, heute ist er Standard.

3. Präzise Zitate in Forschung, Journalismus und Recht

Wenn ein Journalist zitiert „wie der Minister bei 14:23 der Pressekonferenz erklärte…" oder ein Anwalt auf „siehe Aussage, Audio der Zeugin, 00:42:18" verweist, ist diese Präzision nur mit Zeitstempeln möglich. Qualitative Forscher nutzen sie, um Verbatims in Interview- und Fokusgruppen-Aufnahmen zu verankern.

4. Suche und Navigation im Audio

Eine zeitgestempelte Transkription verwandelt eine dreistündige Aufnahme in eine navigierbare Spur: Schlüsselwort suchen, sehen bei welcher Minute es gesagt wurde, dorthin springen. Essenziell für lange Podcasts, Schulungen, Meeting-Archive.

5. Automatische Kapitel für Podcasts und YouTube

YouTube erlaubt Kapitel mit Markierungen 00:05:30 Thema X in der Beschreibung. Spotify und Apple Podcasts unterstützen Kapitel in einigen Formaten. Manuell sind sie langsam zu erstellen; mit Zeitstempeln + KI-Inhaltsanalyse in Sekunden.

6. Sprecheranalyse und Beteiligung

Kombiniert man Zeitstempel mit Diarisierung (Sprechertrennung), kann man berechnen, wie viel jede Person in einem Meeting, HR-Interview oder Fokusgruppe gesprochen hat. Nützlich für Vertriebs-Coaching, Meeting-Balance, Forschung.

Zeitstempel pro Segment vs pro Wort

Nicht alle Zeitstempel haben dieselbe Granularität. Es gibt zwei Ebenen, und die richtige Wahl ist wichtig.

Typ Granularität Wann einsetzen Beispiel
Pro Segment 5-15 Sekunden pro Block (Satz oder kurzer Absatz) Untertitel, navigierbarer Text, menschliche Zitate, Kapitel [00:01:23] Hallo, willkommen zum Podcast.
Pro Wort Jedes Wort mit start/end in Millisekunden Textbasierter Videoschnitt, Karaoke, animierte Captions, quantitative Analyse {"word":"Hallo","start":1.23,"end":1.45}

Faustregel: Wer nur die Transkription lesen oder klassische Untertitel erzeugen will, braucht nur Segment-Zeitstempel. Wer textbasierten Videoschnitt macht oder Wort-für-Wort animierte Captions im TikTok-Stil erstellt, braucht word-level.

Ausgabeformate mit Zeitstempeln

SRT (SubRip Subtitle)

Der universelle Untertitel-Standard. Verstanden von YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix und praktisch jedem Player.

1
00:00:01,200 --> 00:00:04,800
Hallo, willkommen zum Podcast.

2
00:00:05,000 --> 00:00:09,500
Heute sprechen wir über Zeitstempel in Transkriptionen.

VTT (WebVTT)

HTML5-Variante (im <track>-Tag). Unterstützt Positionierung, Stile und zusätzliche Metadaten. Wenn das Video auf einer Webseite eingebettet ist, ist VTT die natürliche Wahl.

WEBVTT

00:00:01.200 --> 00:00:04.800
Hallo, willkommen zum Podcast.

00:00:05.000 --> 00:00:09.500
Heute sprechen wir über Zeitstempel in Transkriptionen.

JSON (strukturiert)

Wird von APIs und Automationen genutzt. Whisper liefert etwa:

{
  "text": "Hallo, willkommen zum Podcast.",
  "segments": [
    {
      "id": 0,
      "start": 1.20,
      "end": 4.80,
      "text": "Hallo, willkommen zum Podcast."
    }
  ]
}

Klartext mit [HH:MM:SS]-Markierungen

Am bequemsten zum Lesen, Zitieren und Teilen. Bevorzugt von Journalisten, Forschern und Protokollteams.

[00:00:01] Hallo, willkommen zum Podcast.
[00:00:05] Heute sprechen wir über Zeitstempel in Transkriptionen.
[00:00:14] Erster Punkt: Unterschied zwischen Segment- und Wort-Ebene.

TSV / CSV

Nützlich, wenn die Transkription nach Excel, BigQuery oder eine tabellarische Analyse soll. Jede Zeile ist ein Segment mit Spalten start, end, text.

Wie Zeitstempel 2026 erzeugt werden

Drei Wege:

  1. Whisper direkt (OpenAI oder lokal). Sowohl die OpenAI-API als auch die Open-Source-Varianten (whisper.cpp, faster-whisper) liefern Segment-Zeitstempel standardmäßig und Wort-Zeitstempel mit word_timestamps=True. Das ist die technische Basis der meisten modernen Tools.
  2. SaaS-Tools auf Whisper-Basis oder ähnlichem. VOCAP, Otter, Descript, Riverside etc. Sie verarbeiten das Audio mit Whisper oder Eigenengines und stellen Zeitstempel in der Oberfläche zur Verfügung, mit SRT/VTT/JSON-Export ohne Code.
  3. Manuell mit Untertitelungs-Software. Aegisub, Subtitle Edit, Kapwing. Erlauben das händische Setzen von Zeitstempeln auf einer bestehenden Transkription. Gut für Feinkorrekturen, nicht für Volumen.

Datenstand 2026: Whisper bleibt die Referenz-Engine für mehrsprachige Transkription mit Zeitstempeln im Deutschen. gpt-4o-mini-transcribe liefert in vielen Sprachen vergleichbare oder bessere Ergebnisse und wird in modernen Tools wie VOCAP zur Standardoption.

Schritt für Schritt: mit VOCAP zeitgestempelt transkribieren

  1. Datei hochladen. MP3, WAV, M4A, MP4, OGG oder FLAC, bis 150 MB. Bei größeren Dateien auf 64 kbps mono komprimieren (das verarbeitet die Engine intern; kein Verlust an Transkriptionsqualität).
  2. Verarbeitung abwarten. Eine Stunde Audio dauert je nach Sprache und Warteschlange 2-8 Minuten. Lange Audios (1-3 h) gehen in die asynchrone Verarbeitung; Sie werden bei Abschluss benachrichtigt.
  3. Transkription prüfen. Die Web-Ansicht zeigt den Text mit [HH:MM:SS]-Markierungen am Beginn jedes Blocks, plus Executive Summary, Kernpunkte, Aufgaben und Entscheidungen, von Claude generiert.
  4. Im gewünschten Format exportieren. Text mit Zeitstempeln zum Zitieren, SRT/VTT für Untertitel, JSON für Automation (Zapier, Make, n8n).
  5. Eigennamen und Zahlen korrigieren. Dort liegen die meisten Fehler. 2-3 Minuten Nacharbeit pro Stunde Audio bringen Sie auf 99 %.

VOCAP mit 30 kostenlosen Minuten testen

Audio hochladen und zeitgestempelte Transkription als SRT, VTT oder Text mit [HH:MM:SS] herunterladen. Ohne Karte.

VOCAP kostenlos testen

Typische Genauigkeit und Grenzen

Bei sauberem Audio (ein Sprecher, anständiges Mikro, kein Rauschen) liegt die typische Whisper-Genauigkeit 2026 bei:

Wo die Genauigkeit sinkt:

Häufige Fehler vermeiden

Häufig gestellte Fragen

Was ist ein Zeitstempel in einer Transkription?

Die Markierung, die den genauen Moment im Audio (HH:MM:SS) angibt, in dem ein Wort oder Satz gesprochen wird. Erlaubt das Finden von Fragmenten ohne Komplettanhören, das Erzeugen synchronisierter Untertitel und präzises Zitieren.

Unterschied Wort- vs Segment-Zeitstempel?

Segment markiert Anfang/Ende jedes Satzes (5-15 s). Wort markiert jedes Wort millisekundengenau. Klassische Untertitel: Segment. Textbasierter Schnitt, Karaoke, quantitative Analyse: Wort.

Welche zeitgestempelten Formate gibt es?

SRT (universeller Standard), VTT (HTML5 Web), JSON (APIs und Automation), TSV/CSV (tabellarisch) und Klartext mit [HH:MM:SS]-Markierungen für menschliches Lesen. VOCAP exportiert die wichtigsten.

Wie genau sind automatische Zeitstempel?

Mit Whisper und sauberem Audio ±0,5 bis ±2 s auf Segment-Ebene und ±100-300 ms auf Wort-Ebene. Genauigkeit sinkt bei Rauschen, überlappenden Stimmen oder starken Akzenten.

Kann ich einer bestehenden Transkription Zeitstempel hinzufügen?

Ja, mit Software wie Aegisub oder Subtitle Edit, aber 4-6 Stunden pro Stunde Audio. Schneller ist, das Original mit einer Engine erneut zu verarbeiten, die automatische Zeitstempel liefert.

Wie bekomme ich Zeitstempel in VOCAP?

Audio hochladen und VOCAP liefert die Transkription mit [HH:MM:SS]-Markierungen am Anfang jedes Segments, downloadbar als SRT/VTT für Untertitel oder als Text mit Zeitstempeln. Whisper unter der Haube.

VOCAP kostenlos testen 15 Min Transkription
Jetzt starten →