Was ist ein Zeitstempel in einer Transkription?

Ein Zeitstempel (Timestamp) ist die Markierung, die den genauen Moment im Audio angibt, in dem ein Wort oder Satz ausgesprochen wird, üblicherweise im Format HH:MM:SS oder HH:MM:SS,mmm. In einer Transkription erlaubt er, Fragmente zu finden ohne alles erneut anzuhören, synchronisierte Untertitel (.srt, .vtt) zu erzeugen und Passagen präzise zu zitieren.

Was ist der Unterschied zwischen Wort- und Segment-Zeitstempeln?

Segment-Zeitstempel markieren Anfang und Ende jedes Satzes oder Absatzes (typisch 5-15 Sekunden). Wort-Zeitstempel (word-level) markieren jedes einzelne Wort millisekundengenau. Für Untertitel reichen Segmente. Für präzises Videoschnitt, Karaoke oder quantitative Sprachanalyse braucht man word-level. Whisper unterstützt beide Modi.

Welche Ausgabeformate mit Zeitstempeln gibt es?

Die häufigsten: SRT (Untertitel für YouTube, Premiere, VLC), VTT (Web-Untertitel HTML5), JSON (strukturiert für Automation und Analyse), TSV (tabellarisch) und Klartext mit Markierungen wie [00:01:23] am Anfang jedes Absatzes. Jedes deckt einen anderen Anwendungsfall ab.

Wie genau sind automatische Zeitstempel?

Mit modernen Engines wie Whisper oder gpt-4o-mini-transcribe liegt die typische Genauigkeit bei ±0,5 bis ±2 Sekunden auf Segment-Ebene und ±100-300 ms auf Wort-Ebene bei sauberem Audio. Sie sinkt bei verrauschtem Audio, mehreren überlappenden Sprechern oder starken Akzenten.

Kann ich Zeitstempel manuell zu einer bestehenden Transkription hinzufügen?

Ja, aber das ist viel Arbeit: Eine Stunde Audio kann 4-6 Stunden manuelles Markieren mit Software wie Aegisub oder Subtitle Edit kosten. Schneller (und günstiger) ist es, das Originalaudio mit einer Engine erneut zu verarbeiten, die automatische Zeitstempel liefert, und das Ergebnis zu prüfen.

Wie bekomme ich Zeitstempel in VOCAP?

VOCAP verarbeitet Audio mit Whisper und liefert die Transkription standardmäßig mit Segment-Zeitstempeln, bereit zum Download als SRT/VTT für Untertitel oder als Text mit [HH:MM:SS]-Markierungen am Beginn jedes Blocks für Zitate und menschliche Prüfung. Datei hochladen, Ergebnis abwarten und im gewünschten Format exportieren.

Audio mit Zeitstempeln (Timestamps) per KI transkribieren: Leitfaden 2026

Schnelle Antwort: Ein Zeitstempel (Timestamp) ist die Zeitmarke (HH:MM:SS), die den genauen Moment im Audio markiert, an dem etwas gesagt wird. 2026 erzeugen Engines wie Whisper oder gpt-4o-mini-transcribe sie automatisch mit ±0,5-2 Sekunden Genauigkeit auf Segment-Ebene und ±100-300 ms auf Wort-Ebene. Die häufigsten Formate sind SRT und VTT für Untertitel, JSON für Automation und Klartext mit Markierungen wie [00:01:23] für Zitate und menschliche Prüfung. VOCAP liefert alle vier aus demselben Audio.

Wer schon einmal in einer zweistündigen Aufnahme einen bestimmten Satz suchen musste, kennt das Problem: Text ohne Zeitstempel ist unbequemer Text. Man kann nicht zur exakten Minute springen, nicht präzise zitieren, keine Untertitel erzeugen. Zeitstempel lösen all das auf einmal.

Dieser Leitfaden erklärt, was sie sind, welches Format wann gebraucht wird, wie sie 2026 mit KI erzeugt werden und welche Fehler zu vermeiden sind.

Was ein Zeitstempel in einer Transkription ist

Ein Zeitstempel (auch Timestamp oder Zeitmarke) ist ein Wert, der den Moment im Audio markiert, an dem ein Wort oder Satz gesprochen wird. Üblicherweise in einem dieser Formate:

HH:MM:SS — Stunden, Minuten, Sekunden. Am besten lesbar für Menschen.
HH:MM:SS,mmm oder HH:MM:SS.mmm — mit Millisekunden. Standard in SRT und VTT.
Sekunden als Dezimalwert (83.42) — üblich in JSON und APIs.

Jeder Zeitstempel kann start, end oder beides sein. Professionelle Formate tragen immer beides: Der Untertitel erscheint bei start und verschwindet bei end.

Wofür Zeitstempel dienen (reale Fälle)

1. Synchronisierte Untertitel

Der offensichtlichste Fall: Untertitelung von YouTube-Videos, Online-Kursen, Webinaren, Social-Media-Inhalten, Barrierefreiheit. Ohne Zeitstempel keine Untertitel. Formate: SRT (universell) oder VTT (Web HTML5).

2. Video- und Audioschnitt

Profi-Editoren (Premiere, DaVinci Resolve, Final Cut) importieren zeitgestempelte Transkripte für textbasierten Schnitt: Wort im Transkript löschen, Videoclip wird automatisch geschnitten. Descript hat diesen Workflow popularisiert, heute ist er Standard.

3. Präzise Zitate in Forschung, Journalismus und Recht

Wenn ein Journalist zitiert „wie der Minister bei 14:23 der Pressekonferenz erklärte…" oder ein Anwalt auf „siehe Aussage, Audio der Zeugin, 00:42:18" verweist, ist diese Präzision nur mit Zeitstempeln möglich. Qualitative Forscher nutzen sie, um Verbatims in Interview- und Fokusgruppen-Aufnahmen zu verankern.

4. Suche und Navigation im Audio

Eine zeitgestempelte Transkription verwandelt eine dreistündige Aufnahme in eine navigierbare Spur: Schlüsselwort suchen, sehen bei welcher Minute es gesagt wurde, dorthin springen. Essenziell für lange Podcasts, Schulungen, Meeting-Archive.

5. Automatische Kapitel für Podcasts und YouTube

YouTube erlaubt Kapitel mit Markierungen 00:05:30 Thema X in der Beschreibung. Spotify und Apple Podcasts unterstützen Kapitel in einigen Formaten. Manuell sind sie langsam zu erstellen; mit Zeitstempeln + KI-Inhaltsanalyse in Sekunden.

6. Sprecheranalyse und Beteiligung

Kombiniert man Zeitstempel mit Diarisierung (Sprechertrennung), kann man berechnen, wie viel jede Person in einem Meeting, HR-Interview oder Fokusgruppe gesprochen hat. Nützlich für Vertriebs-Coaching, Meeting-Balance, Forschung.

Zeitstempel pro Segment vs pro Wort

Nicht alle Zeitstempel haben dieselbe Granularität. Es gibt zwei Ebenen, und die richtige Wahl ist wichtig.

Typ	Granularität	Wann einsetzen	Beispiel
Pro Segment	5-15 Sekunden pro Block (Satz oder kurzer Absatz)	Untertitel, navigierbarer Text, menschliche Zitate, Kapitel	`[00:01:23] Hallo, willkommen zum Podcast.`
Pro Wort	Jedes Wort mit start/end in Millisekunden	Textbasierter Videoschnitt, Karaoke, animierte Captions, quantitative Analyse	`{"word":"Hallo","start":1.23,"end":1.45}`

Faustregel: Wer nur die Transkription lesen oder klassische Untertitel erzeugen will, braucht nur Segment-Zeitstempel. Wer textbasierten Videoschnitt macht oder Wort-für-Wort animierte Captions im TikTok-Stil erstellt, braucht word-level.

Ausgabeformate mit Zeitstempeln

SRT (SubRip Subtitle)

Der universelle Untertitel-Standard. Verstanden von YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix und praktisch jedem Player.

1
00:00:01,200 --> 00:00:04,800
Hallo, willkommen zum Podcast.

2
00:00:05,000 --> 00:00:09,500
Heute sprechen wir über Zeitstempel in Transkriptionen.

VTT (WebVTT)

HTML5-Variante (im <track>-Tag). Unterstützt Positionierung, Stile und zusätzliche Metadaten. Wenn das Video auf einer Webseite eingebettet ist, ist VTT die natürliche Wahl.

WEBVTT

00:00:01.200 --> 00:00:04.800
Hallo, willkommen zum Podcast.

00:00:05.000 --> 00:00:09.500
Heute sprechen wir über Zeitstempel in Transkriptionen.

JSON (strukturiert)

Wird von APIs und Automationen genutzt. Whisper liefert etwa:

{
  "text": "Hallo, willkommen zum Podcast.",
  "segments": [
    {
      "id": 0,
      "start": 1.20,
      "end": 4.80,
      "text": "Hallo, willkommen zum Podcast."
    }
  ]
}

Klartext mit `[HH:MM:SS]`-Markierungen

Am bequemsten zum Lesen, Zitieren und Teilen. Bevorzugt von Journalisten, Forschern und Protokollteams.

[00:00:01] Hallo, willkommen zum Podcast.
[00:00:05] Heute sprechen wir über Zeitstempel in Transkriptionen.
[00:00:14] Erster Punkt: Unterschied zwischen Segment- und Wort-Ebene.

TSV / CSV

Nützlich, wenn die Transkription nach Excel, BigQuery oder eine tabellarische Analyse soll. Jede Zeile ist ein Segment mit Spalten start, end, text.

Wie Zeitstempel 2026 erzeugt werden

Drei Wege:

Whisper direkt (OpenAI oder lokal). Sowohl die OpenAI-API als auch die Open-Source-Varianten (whisper.cpp, faster-whisper) liefern Segment-Zeitstempel standardmäßig und Wort-Zeitstempel mit word_timestamps=True. Das ist die technische Basis der meisten modernen Tools.
SaaS-Tools auf Whisper-Basis oder ähnlichem. VOCAP, Otter, Descript, Riverside etc. Sie verarbeiten das Audio mit Whisper oder Eigenengines und stellen Zeitstempel in der Oberfläche zur Verfügung, mit SRT/VTT/JSON-Export ohne Code.
Manuell mit Untertitelungs-Software. Aegisub, Subtitle Edit, Kapwing. Erlauben das händische Setzen von Zeitstempeln auf einer bestehenden Transkription. Gut für Feinkorrekturen, nicht für Volumen.

Datenstand 2026: Whisper bleibt die Referenz-Engine für mehrsprachige Transkription mit Zeitstempeln im Deutschen. gpt-4o-mini-transcribe liefert in vielen Sprachen vergleichbare oder bessere Ergebnisse und wird in modernen Tools wie VOCAP zur Standardoption.

Schritt für Schritt: mit VOCAP zeitgestempelt transkribieren

Datei hochladen. MP3, WAV, M4A, MP4, OGG oder FLAC, bis 150 MB. Bei größeren Dateien auf 64 kbps mono komprimieren (das verarbeitet die Engine intern; kein Verlust an Transkriptionsqualität).
Verarbeitung abwarten. Eine Stunde Audio dauert je nach Sprache und Warteschlange 2-8 Minuten. Lange Audios (1-3 h) gehen in die asynchrone Verarbeitung; Sie werden bei Abschluss benachrichtigt.
Transkription prüfen. Die Web-Ansicht zeigt den Text mit [HH:MM:SS]-Markierungen am Beginn jedes Blocks, plus Executive Summary, Kernpunkte, Aufgaben und Entscheidungen, von Claude generiert.
Im gewünschten Format exportieren. Text mit Zeitstempeln zum Zitieren, SRT/VTT für Untertitel, JSON für Automation (Zapier, Make, n8n).
Eigennamen und Zahlen korrigieren. Dort liegen die meisten Fehler. 2-3 Minuten Nacharbeit pro Stunde Audio bringen Sie auf 99 %.

VOCAP mit 30 kostenlosen Minuten testen

Audio hochladen und zeitgestempelte Transkription als SRT, VTT oder Text mit [HH:MM:SS] herunterladen. Ohne Karte.

VOCAP kostenlos testen

Typische Genauigkeit und Grenzen

Bei sauberem Audio (ein Sprecher, anständiges Mikro, kein Rauschen) liegt die typische Whisper-Genauigkeit 2026 bei:

Text: 95-98 % im Standarddeutschen und den meisten Hauptsprachen.
Segment-Zeitstempel: ±0,5 bis ±2 Sekunden.
Wort-Zeitstempel: ±100 bis ±300 ms bei guter Artikulation.

Wo die Genauigkeit sinkt:

Audio mit Echo, Hintergrundrauschen oder mehreren überlappenden Stimmen.
Starke Akzente oder Minderheitsdialekte.
Musik oder Soundeffekte, die das Modell als Sprache zu interpretieren versucht.
Lange Stillen: Manchmal „halluziniert" das Modell Text, wo keiner ist.
Plötzliche Sprecherwechsel mitten im Wort.

Häufige Fehler vermeiden

Word-level anfordern, wenn nur Segmente gebraucht werden. Verdreifacht die Dateigröße und bringt für klassische Untertitel selten Mehrwert.
Dezimaltrennzeichen mischen. SRT verwendet Komma (00:00:01,200), VTT verwendet Punkt (00:00:01.200). Verwechseln bricht den Parser.
Synchronität nicht prüfen. Automatische Zeitstempel sind gut, nicht perfekt. An 3-4 Stellen vor Veröffentlichung von Untertiteln prüfen.
Zu lange Untertitel. Mehr als 42 Zeichen pro Zeile oder mehr als 7 Sekunden pro Block schaden der Lesbarkeit. Aufteilen.
Sprache vergessen. Sprache anzugeben (statt Auto-Erkennung) beschleunigt und verbessert die Genauigkeit leicht, vor allem bei kurzen Audios.
Untertitel ohne Eigennamen-Prüfung veröffentlichen. „VOCAP" kann als „vocap", „Bocap" oder „Vokap" rauskommen. Dasselbe bei Marken, Städten und Abkürzungen.
Stillen 100 % vertrauen. Wenn das Modell Stillen schlecht erkennt, können Start-Zeitstempel 200-500 ms vorlaufen. Die ersten 30 Sekunden manuell prüfen.

Audio mit Zeitstempeln (Timestamps) per KI transkribieren: Leitfaden 2026

Was ein Zeitstempel in einer Transkription ist

Wofür Zeitstempel dienen (reale Fälle)

1. Synchronisierte Untertitel

2. Video- und Audioschnitt

3. Präzise Zitate in Forschung, Journalismus und Recht

4. Suche und Navigation im Audio

5. Automatische Kapitel für Podcasts und YouTube

6. Sprecheranalyse und Beteiligung

Zeitstempel pro Segment vs pro Wort

Ausgabeformate mit Zeitstempeln

SRT (SubRip Subtitle)

VTT (WebVTT)

JSON (strukturiert)

Klartext mit `[HH:MM:SS]`-Markierungen

TSV / CSV

Wie Zeitstempel 2026 erzeugt werden

Schritt für Schritt: mit VOCAP zeitgestempelt transkribieren

VOCAP mit 30 kostenlosen Minuten testen

Typische Genauigkeit und Grenzen

Häufige Fehler vermeiden

Häufig gestellte Fragen

Was ist ein Zeitstempel in einer Transkription?

Unterschied Wort- vs Segment-Zeitstempel?

Welche zeitgestempelten Formate gibt es?

Wie genau sind automatische Zeitstempel?

Kann ich einer bestehenden Transkription Zeitstempel hinzufügen?

Wie bekomme ich Zeitstempel in VOCAP?

Was ein Zeitstempel in einer Transkription ist

Wofür Zeitstempel dienen (reale Fälle)

1. Synchronisierte Untertitel

2. Video- und Audioschnitt

3. Präzise Zitate in Forschung, Journalismus und Recht

4. Suche und Navigation im Audio

5. Automatische Kapitel für Podcasts und YouTube

6. Sprecheranalyse und Beteiligung

Zeitstempel pro Segment vs pro Wort

Ausgabeformate mit Zeitstempeln

SRT (SubRip Subtitle)

VTT (WebVTT)

JSON (strukturiert)

Klartext mit [HH:MM:SS]-Markierungen

TSV / CSV

Wie Zeitstempel 2026 erzeugt werden

Schritt für Schritt: mit VOCAP zeitgestempelt transkribieren

VOCAP mit 30 kostenlosen Minuten testen

Typische Genauigkeit und Grenzen

Häufige Fehler vermeiden

Häufig gestellte Fragen

Was ist ein Zeitstempel in einer Transkription?

Unterschied Wort- vs Segment-Zeitstempel?

Welche zeitgestempelten Formate gibt es?

Wie genau sind automatische Zeitstempel?

Kann ich einer bestehenden Transkription Zeitstempel hinzufügen?

Wie bekomme ich Zeitstempel in VOCAP?

Verwandte Artikel

Untertitel zu Videos mit KI hinzufügen

Sprecher-Diarisierung mit KI

Lange Audiodateien (1, 2, 3 Stunden) mit KI transkribieren

KI-Transkriptionsgenauigkeit: Vollständiger Leitfaden

Diesen Artikel teilen

Klartext mit `[HH:MM:SS]`-Markierungen