Schnelle Antwort: Ein Zeitstempel (Timestamp) ist die Zeitmarke (HH:MM:SS), die den genauen Moment im Audio markiert, an dem etwas gesagt wird. 2026 erzeugen Engines wie Whisper oder gpt-4o-mini-transcribe sie automatisch mit ±0,5-2 Sekunden Genauigkeit auf Segment-Ebene und ±100-300 ms auf Wort-Ebene. Die häufigsten Formate sind SRT und VTT für Untertitel, JSON für Automation und Klartext mit Markierungen wie [00:01:23] für Zitate und menschliche Prüfung. VOCAP liefert alle vier aus demselben Audio.
Wer schon einmal in einer zweistündigen Aufnahme einen bestimmten Satz suchen musste, kennt das Problem: Text ohne Zeitstempel ist unbequemer Text. Man kann nicht zur exakten Minute springen, nicht präzise zitieren, keine Untertitel erzeugen. Zeitstempel lösen all das auf einmal.
Dieser Leitfaden erklärt, was sie sind, welches Format wann gebraucht wird, wie sie 2026 mit KI erzeugt werden und welche Fehler zu vermeiden sind.
Was ein Zeitstempel in einer Transkription ist
Ein Zeitstempel (auch Timestamp oder Zeitmarke) ist ein Wert, der den Moment im Audio markiert, an dem ein Wort oder Satz gesprochen wird. Üblicherweise in einem dieser Formate:
HH:MM:SS— Stunden, Minuten, Sekunden. Am besten lesbar für Menschen.HH:MM:SS,mmmoderHH:MM:SS.mmm— mit Millisekunden. Standard in SRT und VTT.Sekundenals Dezimalwert (83.42) — üblich in JSON und APIs.
Jeder Zeitstempel kann start, end oder beides sein. Professionelle Formate tragen immer beides: Der Untertitel erscheint bei start und verschwindet bei end.
Wofür Zeitstempel dienen (reale Fälle)
1. Synchronisierte Untertitel
Der offensichtlichste Fall: Untertitelung von YouTube-Videos, Online-Kursen, Webinaren, Social-Media-Inhalten, Barrierefreiheit. Ohne Zeitstempel keine Untertitel. Formate: SRT (universell) oder VTT (Web HTML5).
2. Video- und Audioschnitt
Profi-Editoren (Premiere, DaVinci Resolve, Final Cut) importieren zeitgestempelte Transkripte für textbasierten Schnitt: Wort im Transkript löschen, Videoclip wird automatisch geschnitten. Descript hat diesen Workflow popularisiert, heute ist er Standard.
3. Präzise Zitate in Forschung, Journalismus und Recht
Wenn ein Journalist zitiert „wie der Minister bei 14:23 der Pressekonferenz erklärte…" oder ein Anwalt auf „siehe Aussage, Audio der Zeugin, 00:42:18" verweist, ist diese Präzision nur mit Zeitstempeln möglich. Qualitative Forscher nutzen sie, um Verbatims in Interview- und Fokusgruppen-Aufnahmen zu verankern.
4. Suche und Navigation im Audio
Eine zeitgestempelte Transkription verwandelt eine dreistündige Aufnahme in eine navigierbare Spur: Schlüsselwort suchen, sehen bei welcher Minute es gesagt wurde, dorthin springen. Essenziell für lange Podcasts, Schulungen, Meeting-Archive.
5. Automatische Kapitel für Podcasts und YouTube
YouTube erlaubt Kapitel mit Markierungen 00:05:30 Thema X in der Beschreibung. Spotify und Apple Podcasts unterstützen Kapitel in einigen Formaten. Manuell sind sie langsam zu erstellen; mit Zeitstempeln + KI-Inhaltsanalyse in Sekunden.
6. Sprecheranalyse und Beteiligung
Kombiniert man Zeitstempel mit Diarisierung (Sprechertrennung), kann man berechnen, wie viel jede Person in einem Meeting, HR-Interview oder Fokusgruppe gesprochen hat. Nützlich für Vertriebs-Coaching, Meeting-Balance, Forschung.
Zeitstempel pro Segment vs pro Wort
Nicht alle Zeitstempel haben dieselbe Granularität. Es gibt zwei Ebenen, und die richtige Wahl ist wichtig.
| Typ | Granularität | Wann einsetzen | Beispiel |
|---|---|---|---|
| Pro Segment | 5-15 Sekunden pro Block (Satz oder kurzer Absatz) | Untertitel, navigierbarer Text, menschliche Zitate, Kapitel | [00:01:23] Hallo, willkommen zum Podcast. |
| Pro Wort | Jedes Wort mit start/end in Millisekunden | Textbasierter Videoschnitt, Karaoke, animierte Captions, quantitative Analyse | {"word":"Hallo","start":1.23,"end":1.45} |
Faustregel: Wer nur die Transkription lesen oder klassische Untertitel erzeugen will, braucht nur Segment-Zeitstempel. Wer textbasierten Videoschnitt macht oder Wort-für-Wort animierte Captions im TikTok-Stil erstellt, braucht word-level.
Ausgabeformate mit Zeitstempeln
SRT (SubRip Subtitle)
Der universelle Untertitel-Standard. Verstanden von YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix und praktisch jedem Player.
1
00:00:01,200 --> 00:00:04,800
Hallo, willkommen zum Podcast.
2
00:00:05,000 --> 00:00:09,500
Heute sprechen wir über Zeitstempel in Transkriptionen.
VTT (WebVTT)
HTML5-Variante (im <track>-Tag). Unterstützt Positionierung, Stile und zusätzliche Metadaten. Wenn das Video auf einer Webseite eingebettet ist, ist VTT die natürliche Wahl.
WEBVTT
00:00:01.200 --> 00:00:04.800
Hallo, willkommen zum Podcast.
00:00:05.000 --> 00:00:09.500
Heute sprechen wir über Zeitstempel in Transkriptionen.
JSON (strukturiert)
Wird von APIs und Automationen genutzt. Whisper liefert etwa:
{
"text": "Hallo, willkommen zum Podcast.",
"segments": [
{
"id": 0,
"start": 1.20,
"end": 4.80,
"text": "Hallo, willkommen zum Podcast."
}
]
}
Klartext mit [HH:MM:SS]-Markierungen
Am bequemsten zum Lesen, Zitieren und Teilen. Bevorzugt von Journalisten, Forschern und Protokollteams.
[00:00:01] Hallo, willkommen zum Podcast.
[00:00:05] Heute sprechen wir über Zeitstempel in Transkriptionen.
[00:00:14] Erster Punkt: Unterschied zwischen Segment- und Wort-Ebene.
TSV / CSV
Nützlich, wenn die Transkription nach Excel, BigQuery oder eine tabellarische Analyse soll. Jede Zeile ist ein Segment mit Spalten start, end, text.
Wie Zeitstempel 2026 erzeugt werden
Drei Wege:
- Whisper direkt (OpenAI oder lokal). Sowohl die OpenAI-API als auch die Open-Source-Varianten (whisper.cpp, faster-whisper) liefern Segment-Zeitstempel standardmäßig und Wort-Zeitstempel mit
word_timestamps=True. Das ist die technische Basis der meisten modernen Tools. - SaaS-Tools auf Whisper-Basis oder ähnlichem. VOCAP, Otter, Descript, Riverside etc. Sie verarbeiten das Audio mit Whisper oder Eigenengines und stellen Zeitstempel in der Oberfläche zur Verfügung, mit SRT/VTT/JSON-Export ohne Code.
- Manuell mit Untertitelungs-Software. Aegisub, Subtitle Edit, Kapwing. Erlauben das händische Setzen von Zeitstempeln auf einer bestehenden Transkription. Gut für Feinkorrekturen, nicht für Volumen.
Datenstand 2026: Whisper bleibt die Referenz-Engine für mehrsprachige Transkription mit Zeitstempeln im Deutschen. gpt-4o-mini-transcribe liefert in vielen Sprachen vergleichbare oder bessere Ergebnisse und wird in modernen Tools wie VOCAP zur Standardoption.
Schritt für Schritt: mit VOCAP zeitgestempelt transkribieren
- Datei hochladen. MP3, WAV, M4A, MP4, OGG oder FLAC, bis 150 MB. Bei größeren Dateien auf 64 kbps mono komprimieren (das verarbeitet die Engine intern; kein Verlust an Transkriptionsqualität).
- Verarbeitung abwarten. Eine Stunde Audio dauert je nach Sprache und Warteschlange 2-8 Minuten. Lange Audios (1-3 h) gehen in die asynchrone Verarbeitung; Sie werden bei Abschluss benachrichtigt.
- Transkription prüfen. Die Web-Ansicht zeigt den Text mit
[HH:MM:SS]-Markierungen am Beginn jedes Blocks, plus Executive Summary, Kernpunkte, Aufgaben und Entscheidungen, von Claude generiert. - Im gewünschten Format exportieren. Text mit Zeitstempeln zum Zitieren, SRT/VTT für Untertitel, JSON für Automation (Zapier, Make, n8n).
- Eigennamen und Zahlen korrigieren. Dort liegen die meisten Fehler. 2-3 Minuten Nacharbeit pro Stunde Audio bringen Sie auf 99 %.
VOCAP mit 30 kostenlosen Minuten testen
Audio hochladen und zeitgestempelte Transkription als SRT, VTT oder Text mit [HH:MM:SS] herunterladen. Ohne Karte.
VOCAP kostenlos testenTypische Genauigkeit und Grenzen
Bei sauberem Audio (ein Sprecher, anständiges Mikro, kein Rauschen) liegt die typische Whisper-Genauigkeit 2026 bei:
- Text: 95-98 % im Standarddeutschen und den meisten Hauptsprachen.
- Segment-Zeitstempel: ±0,5 bis ±2 Sekunden.
- Wort-Zeitstempel: ±100 bis ±300 ms bei guter Artikulation.
Wo die Genauigkeit sinkt:
- Audio mit Echo, Hintergrundrauschen oder mehreren überlappenden Stimmen.
- Starke Akzente oder Minderheitsdialekte.
- Musik oder Soundeffekte, die das Modell als Sprache zu interpretieren versucht.
- Lange Stillen: Manchmal „halluziniert" das Modell Text, wo keiner ist.
- Plötzliche Sprecherwechsel mitten im Wort.
Häufige Fehler vermeiden
- Word-level anfordern, wenn nur Segmente gebraucht werden. Verdreifacht die Dateigröße und bringt für klassische Untertitel selten Mehrwert.
- Dezimaltrennzeichen mischen. SRT verwendet Komma (
00:00:01,200), VTT verwendet Punkt (00:00:01.200). Verwechseln bricht den Parser. - Synchronität nicht prüfen. Automatische Zeitstempel sind gut, nicht perfekt. An 3-4 Stellen vor Veröffentlichung von Untertiteln prüfen.
- Zu lange Untertitel. Mehr als 42 Zeichen pro Zeile oder mehr als 7 Sekunden pro Block schaden der Lesbarkeit. Aufteilen.
- Sprache vergessen. Sprache anzugeben (statt Auto-Erkennung) beschleunigt und verbessert die Genauigkeit leicht, vor allem bei kurzen Audios.
- Untertitel ohne Eigennamen-Prüfung veröffentlichen. „VOCAP" kann als „vocap", „Bocap" oder „Vokap" rauskommen. Dasselbe bei Marken, Städten und Abkürzungen.
- Stillen 100 % vertrauen. Wenn das Modell Stillen schlecht erkennt, können Start-Zeitstempel 200-500 ms vorlaufen. Die ersten 30 Sekunden manuell prüfen.
Häufig gestellte Fragen
Was ist ein Zeitstempel in einer Transkription?
Die Markierung, die den genauen Moment im Audio (HH:MM:SS) angibt, in dem ein Wort oder Satz gesprochen wird. Erlaubt das Finden von Fragmenten ohne Komplettanhören, das Erzeugen synchronisierter Untertitel und präzises Zitieren.
Unterschied Wort- vs Segment-Zeitstempel?
Segment markiert Anfang/Ende jedes Satzes (5-15 s). Wort markiert jedes Wort millisekundengenau. Klassische Untertitel: Segment. Textbasierter Schnitt, Karaoke, quantitative Analyse: Wort.
Welche zeitgestempelten Formate gibt es?
SRT (universeller Standard), VTT (HTML5 Web), JSON (APIs und Automation), TSV/CSV (tabellarisch) und Klartext mit [HH:MM:SS]-Markierungen für menschliches Lesen. VOCAP exportiert die wichtigsten.
Wie genau sind automatische Zeitstempel?
Mit Whisper und sauberem Audio ±0,5 bis ±2 s auf Segment-Ebene und ±100-300 ms auf Wort-Ebene. Genauigkeit sinkt bei Rauschen, überlappenden Stimmen oder starken Akzenten.
Kann ich einer bestehenden Transkription Zeitstempel hinzufügen?
Ja, mit Software wie Aegisub oder Subtitle Edit, aber 4-6 Stunden pro Stunde Audio. Schneller ist, das Original mit einer Engine erneut zu verarbeiten, die automatische Zeitstempel liefert.
Wie bekomme ich Zeitstempel in VOCAP?
Audio hochladen und VOCAP liefert die Transkription mit [HH:MM:SS]-Markierungen am Anfang jedes Segments, downloadbar als SRT/VTT für Untertitel oder als Text mit Zeitstempeln. Whisper unter der Haube.