Accueil Tarifs Blog

Transcrire un Audio avec Horodatage (Timestamps) par IA : Guide 2026

Formats SRT, VTT, JSON et texte avec [00:00:00]. À quoi servent-ils, comment les générer et où ils échouent en 2026.

Réponse rapide : un timestamp (ou horodatage) est la marque temporelle (HH:MM:SS) qui indique le moment exact de l'audio où quelque chose est dit. En 2026, des moteurs comme Whisper ou gpt-4o-mini-transcribe les génèrent automatiquement avec une précision de ±0,5-2 secondes au niveau segment et ±100-300 ms au niveau mot. Les formats les plus utilisés sont SRT et VTT pour les sous-titres, JSON pour l'automatisation et texte brut avec des marques type [00:01:23] pour citer et consulter manuellement. VOCAP renvoie les quatre formats à partir du même audio.

Si vous avez déjà cherché une phrase précise dans un enregistrement de deux heures, vous connaissez le problème : du texte sans marques temporelles est du texte inconfortable. Impossible de sauter à la minute exacte, impossible de citer avec précision, impossible de générer des sous-titres. L'horodatage règle tout cela d'un coup.

Ce guide explique ce qu'est un timestamp, quel format choisir, comment les générer en 2026 avec l'IA et quelles erreurs éviter.

Qu'est-ce qu'un timestamp dans une transcription

Un timestamp (aussi appelé horodatage ou marque temporelle) est une valeur qui indique le moment de l'audio où un mot ou une phrase est prononcé. On le trouve sous plusieurs formats :

Chaque timestamp peut être de début (start), de fin (end) ou les deux. Les formats professionnels portent toujours les deux : le sous-titre apparaît à start et disparaît à end.

À quoi servent les timestamps (cas réels)

1. Sous-titres synchronisés

Le cas le plus évident : sous-titrer des vidéos YouTube, des cours en ligne, des webinaires, du contenu social, l'accessibilité. Sans timestamps, pas de sous-titres. Formats : SRT (universel) ou VTT (web HTML5).

2. Montage vidéo et audio

Les éditeurs professionnels (Premiere, DaVinci Resolve, Final Cut) importent des transcriptions horodatées pour faire du montage basé sur le texte : on supprime un mot du transcript et le clip se coupe tout seul. Descript a popularisé ce flux et c'est aujourd'hui un standard.

3. Citations précises en recherche, journalisme et droit

Quand un journaliste cite « comme l'a déclaré le ministre à 14:23 de la conférence de presse… » ou un avocat renvoie à « voir déposition, audio du témoin, 00:42:18 », cette précision n'est possible qu'avec des timestamps. Les chercheurs qualitatifs s'en servent pour ancrer des verbatims dans des entretiens et des focus groups.

4. Recherche et navigation dans l'audio

Une transcription horodatée transforme un enregistrement de trois heures en une piste navigable : on cherche un mot-clé, on voit à quelle minute il est dit, on saute. Essentiel pour les podcasts longs, les formations, les archives de réunions.

5. Chapitres automatiques pour podcast et YouTube

YouTube permet de définir des chapitres avec des marques 00:05:30 Sujet X dans la description. Spotify et Apple Podcasts les supportent dans certains formats. Les générer à la main est lent ; avec timestamps + analyse IA du contenu, on les obtient en quelques secondes.

6. Analyse des locuteurs et participation

En combinant timestamps et diarisation (séparation des locuteurs), on calcule combien chaque personne a parlé en réunion, en entretien RH ou en focus group. Utile pour le coaching commercial, l'équilibre des réunions, la recherche.

Timestamps par segment vs par mot

Tous les timestamps n'ont pas la même granularité. Il existe deux niveaux, et le bon choix compte.

Type Granularité Quand l'utiliser Exemple
Par segment 5-15 secondes par bloc (phrase ou court paragraphe) Sous-titres, texte navigable, citations, chapitres [00:01:23] Bonjour, bienvenue dans le podcast.
Par mot Chaque mot avec start/end à la milliseconde Montage vidéo basé sur texte, karaoké, captions animées, analyse quantitative {"word":"Bonjour","start":1.23,"end":1.45}

Règle pratique : si vous voulez seulement lire la transcription ou faire des sous-titres classiques, les timestamps par segment suffisent. Pour du montage basé sur texte ou des captions animées style TikTok, il faut du word-level.

Formats de sortie horodatés

SRT (SubRip Subtitle)

Le standard universel des sous-titres. Compris par YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix et presque tous les lecteurs.

1
00:00:01,200 --> 00:00:04,800
Bonjour, bienvenue dans le podcast.

2
00:00:05,000 --> 00:00:09,500
Aujourd'hui on parle d'horodatage dans les transcriptions.

VTT (WebVTT)

Variante HTML5 (balise <track>). Supporte le positionnement, les styles et des métadonnées additionnelles. Si la vidéo est intégrée dans une page web, VTT est le choix naturel.

WEBVTT

00:00:01.200 --> 00:00:04.800
Bonjour, bienvenue dans le podcast.

00:00:05.000 --> 00:00:09.500
Aujourd'hui on parle d'horodatage dans les transcriptions.

JSON (structuré)

Utilisé par les API et l'automatisation. Whisper renvoie quelque chose comme :

{
  "text": "Bonjour, bienvenue dans le podcast.",
  "segments": [
    {
      "id": 0,
      "start": 1.20,
      "end": 4.80,
      "text": "Bonjour, bienvenue dans le podcast."
    }
  ]
}

Texte brut avec marques [HH:MM:SS]

Le plus confortable à lire, citer et partager. Préféré par les journalistes, chercheurs et équipes de comptes rendus.

[00:00:01] Bonjour, bienvenue dans le podcast.
[00:00:05] Aujourd'hui on parle d'horodatage dans les transcriptions.
[00:00:14] Premier point : différence entre segment et mot.

TSV / CSV

Utile pour pousser la transcription vers Excel, BigQuery ou une analyse tabulaire. Chaque ligne est un segment avec colonnes start, end, text.

Comment générer des timestamps en 2026

Trois voies :

  1. Whisper directement (OpenAI ou local). L'API OpenAI comme les versions open source (whisper.cpp, faster-whisper) renvoient des timestamps par segment par défaut, et par mot en activant word_timestamps=True. C'est la base technique de la plupart des outils modernes.
  2. Outils SaaS basés sur Whisper ou similaires. VOCAP, Otter, Descript, Riverside, etc. Traitent l'audio avec Whisper ou des moteurs propriétaires et exposent les timestamps dans leur interface, avec export SRT/VTT/JSON sans toucher au code.
  3. Manuel avec un logiciel de sous-titrage. Aegisub, Subtitle Edit, Kapwing. Permettent de marquer les timestamps à la main sur une transcription existante. Utile pour des corrections fines, pas pour le volume.

Donnée 2026 : Whisper reste le moteur de référence pour la transcription multilingue avec timestamps en français. gpt-4o-mini-transcribe donne des résultats comparables ou meilleurs dans de nombreuses langues et devient l'option par défaut dans les outils modernes comme VOCAP.

Pas à pas : transcrire avec timestamps dans VOCAP

  1. Téléversez le fichier. MP3, WAV, M4A, MP4, OGG ou FLAC, jusqu'à 150 Mo. S'il pèse plus, compressez en 64 kbps mono (c'est ce que le moteur traite en interne ; aucune perte de qualité de transcription).
  2. Attendez le traitement. Une heure d'audio prend entre 2 et 8 minutes selon la langue et la file. Les audios longs (1-3 h) passent en traitement asynchrone et vous êtes notifié à la fin.
  3. Relisez la transcription. La vue web affiche le texte avec des marques [HH:MM:SS] en début de chaque bloc, plus un résumé exécutif, des points clés, des tâches et des décisions générés par Claude.
  4. Exportez dans le format souhaité. Texte avec timestamps pour citer, SRT/VTT pour les sous-titres, JSON pour automatiser (Zapier, Make, n8n).
  5. Corrigez les noms propres et les chiffres. C'est là que les modèles fautent le plus. Un passage de 2-3 minutes par heure d'audio suffit pour atteindre 99 %.

Essayez VOCAP avec 30 minutes gratuites

Téléversez un audio et téléchargez la transcription horodatée en SRT, VTT ou texte avec [HH:MM:SS]. Sans carte.

Essayer VOCAP gratuitement

Précision typique et limites

Avec un audio propre (un seul locuteur, micro correct, sans bruit), la précision typique de Whisper en 2026 :

Où la précision baisse :

Erreurs courantes à éviter

Questions fréquentes

Qu'est-ce qu'un timestamp dans une transcription ?

La marque qui indique le moment exact de l'audio (HH:MM:SS) où un mot ou une phrase est prononcé. Permet de localiser des fragments sans tout réécouter, de générer des sous-titres synchronisés et de citer avec précision.

Différence entre timestamps par mot et par segment ?

Par segment : début/fin de chaque phrase (5-15 s). Par mot : chaque mot à la milliseconde près. Sous-titres classiques : segment. Montage basé texte, karaoké, analyse quantitative : mot.

Quels formats horodatés existent ?

SRT (standard universel), VTT (HTML5 web), JSON (API et automatisation), TSV/CSV (tabulaire) et texte brut avec marques [HH:MM:SS] pour la lecture humaine. VOCAP exporte les principaux.

Quelle précision pour les timestamps automatiques ?

Avec Whisper et un audio propre, ±0,5 à ±2 s au niveau segment et ±100-300 ms au niveau mot. La précision baisse avec bruit, voix superposées ou accents marqués.

Puis-je ajouter des timestamps à une transcription existante ?

Oui, avec un logiciel comme Aegisub ou Subtitle Edit, mais cela prend 4-6 heures par heure d'audio. Plus rapide de retraiter l'original avec un moteur qui renvoie des timestamps automatiques.

Comment obtenir des timestamps avec VOCAP ?

Téléversez l'audio et VOCAP renvoie la transcription avec marques [HH:MM:SS] en début de chaque segment, téléchargeable en SRT/VTT pour sous-titres ou en texte avec timestamps. Whisper sous le capot.

Essayez VOCAP gratuitement 15 min de transcription
Commencer →