Accueil Tarifs Blog

Comment Créer des Sous-titres SRT et VTT avec l'IA en 2026

22 mai 2026 Par VOCAP 12 min de lecture

Publier une vidéo sans sous-titres en 2026, c'est laisser de côté 85 % des spectateurs qui regardent du contenu en silence dans le métro, au bureau ou au lit. Et créer des sous-titres à la main reste l'une des tâches les plus fastidieuses du flux d'édition : marquer les temps, découper les phrases, ajuster les sauts de ligne, traduire dans d'autres langues. L'IA change la donne : un fichier SRT ou VTT bien fait à partir d'une vidéo de 20 minutes se génère désormais en moins de cinq.

Ce guide explique comment créer des fichiers SRT et VTT avec l'IA à partir de n'importe quel audio ou vidéo : différences techniques entre les deux formats, exemples de code, outils, comment contrôler la synchronisation et les sauts de ligne, comment traduire les sous-titres en plusieurs langues en conservant les horodatages, et comment les téléverser sur YouTube, Vimeo, Premiere et les lecteurs HTML5.

85 % des vidéos sur les réseaux sont vues sans son
12 %+ de rétention en plus avec sous-titres
3-5 min pour générer un SRT/VTT de 20 min de vidéo

SRT vs VTT : différences techniques

Tous deux sont des fichiers texte simples qui associent des phrases à des horodatages, mais ils appartiennent à des générations différentes. SRT (SubRip Text) est né en 2000 comme format de sortie du programme SubRip d'extraction de sous-titres de DVD. VTT (WebVTT) est le standard moderne du W3C, conçu pour les lecteurs HTML5 et le web sémantique.

Caractéristique SRT VTT
Année du standard 2000 (de facto) 2010 (W3C)
Extension .srt .vtt
En-tête obligatoire Non Oui (WEBVTT)
Séparateur décimal Virgule (,) Point (.)
HTML5 natif (<track>) Seulement avec conversion Oui, officiel
Styles CSS Non Oui, via ::cue
Positionnement du cue Non Oui (line, position, align)
Commentaires NOTE Non Oui
Chapitres / régions Non Oui
Support YouTube Oui Oui
Support Premiere / Final Cut Oui, natif Conversion recommandée
Support Netflix / Disney+ Via conversion en IMSC/TTML Via conversion en IMSC/TTML

Quand utiliser chaque format

Règle pratique : si la destination est un lecteur HTML5 sur un site web propre ou une plateforme moderne, exportez en VTT. Si la destination est un éditeur vidéo (Premiere, Final Cut, DaVinci, CapCut), une plateforme sociale (YouTube, Vimeo, Facebook) ou un lecteur de bureau (VLC, MX Player), exportez en SRT. En cas de doute, exportez en SRT : il bénéficie d'une plus grande compatibilité historique et presque tous les outils savent le convertir.

Quand choisir SRT

Quand choisir VTT

Structure interne d'un SRT et d'un VTT

Voir le fichier de l'intérieur aide à comprendre comment l'IA construit le résultat et comment le corriger si quelque chose dévie.

Exemple de fichier .srt

1
00:00:00,000 --> 00:00:03,200
Bienvenue dans le podcast d'aujourd'hui.

2
00:00:03,500 --> 00:00:07,800
Nous allons parler de comment créer
des sous-titres avec l'intelligence artificielle.

3
00:00:08,000 --> 00:00:11,400
En cinq minutes, vous aurez
un fichier SRT prêt à l'emploi.

Chaque cue a trois parties : un numéro d'ordre, une plage temporelle avec la flèche --> et un séparateur décimal par virgule, et le texte du sous-titre (une ou deux lignes maximum). Une ligne vide sépare les cues.

Exemple de fichier .vtt

WEBVTT

NOTE Sous-titres générés par VOCAP

1
00:00:00.000 --> 00:00:03.200
Bienvenue dans le podcast d'aujourd'hui.

2
00:00:03.500 --> 00:00:07.800 line:90% align:center
Nous allons parler de comment créer
des sous-titres avec l'intelligence artificielle.

3
00:00:08.000 --> 00:00:11.400
<v Speaker1>En cinq minutes, vous aurez un fichier VTT prêt à l'emploi.</v>

Le VTT exige l'en-tête WEBVTT comme première ligne, utilise le point comme séparateur décimal et permet des extras : commentaires avec NOTE, positionnement du cue (line, align, position) et balises inline comme <v Speaker> pour la diarisation des locuteurs.

Astuce : n'utilisez jamais Word ou Pages pour éditer un .srt ou .vtt : ils ajoutent un encodage enrichi qui casse les lecteurs. Utilisez toujours un éditeur de texte brut (VS Code, Sublime Text, Notepad++, BBEdit) et sauvegardez en UTF-8 sans BOM.

Créer SRT et VTT avec VOCAP

VOCAP génère les deux formats dans le même processus de transcription, avec des horodatages au niveau de la phrase et en respectant les longueurs recommandées.

1

Téléchargez l'audio ou la vidéo

Allez sur vocap.io/fr/transcribe et déposez le fichier. VOCAP accepte MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC et OPUS, jusqu'à 150 Mo. Si votre vidéo pèse plus, extrayez l'audio avec ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) et téléchargez seulement l'audio.

2

Attendez la transcription avec horodatages

VOCAP utilise Whisper d'OpenAI pour transcrire et renvoyer des horodatages au niveau de la phrase. Pour 20 minutes de vidéo, la transcription prend entre 3 et 5 minutes.

3

Exportez en SRT ou VTT

Dans le panneau de résultats, cliquez sur Exporter et choisissez le format. La segmentation s'ajuste automatiquement : maximum 42 caractères par ligne, maximum 6 secondes par cue, coupures à la ponctuation naturelle.

4

Vérifiez dans un éditeur de texte

Ouvrez le .srt ou .vtt dans VS Code ou Sublime Text. Confirmez que les horodatages sont synchronisés avec l'audio (vous pouvez coller le fichier dans un lecteur qui charge les sous-titres pour le vérifier) et corrigez tout nom propre que l'IA aurait mal transcrit.

5

Téléchargez le fichier sur votre plateforme

Passez à la section correspondante : YouTube, Vimeo, Premiere ou HTML5. Chacun a un flux de chargement différent décrit dans les sections suivantes.

Créez Votre Premier SRT/VTT Gratuitement

30 minutes de transcription avec exportation SRT et VTT incluses. Sans carte de crédit.

Essayer VOCAP gratuitement

Charger VTT en HTML5 avec <track>

Le lecteur HTML5 natif prend en charge les sous-titres de manière standard grâce à l'élément <track>. Il n'accepte que VTT.

<video controls width="720">
  <source src="podcast.mp4" type="video/mp4">

  <track
    label="Français"
    kind="subtitles"
    srclang="fr"
    src="podcast-fr.vtt"
    default>

  <track
    label="English"
    kind="subtitles"
    srclang="en"
    src="podcast-en.vtt">

  <track
    label="Chapitres"
    kind="chapters"
    srclang="fr"
    src="podcast-chapters.vtt">
</video>

L'attribut default marque la piste qui s'active au chargement de la vidéo. Si vous servez le HTML depuis un domaine et le VTT depuis un autre (par exemple CDN), pensez à configurer crossorigin="anonymous" sur la <video> et les en-têtes Access-Control-Allow-Origin sur le serveur du VTT.

Erreur fréquente : servir le .vtt avec le mauvais MIME type. Configurez votre serveur pour renvoyer text/vtt ; s'il renvoie text/plain ou application/octet-stream, Chrome et Firefox ignorent silencieusement le fichier. Dans Nginx : types { text/vtt vtt; }. Dans Apache : AddType text/vtt .vtt. Dans Vercel ou Netlify, ça se configure depuis le tableau de bord.

Styliser les sous-titres VTT avec CSS

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffeb3b;
  font-family: "Inter", sans-serif;
  font-size: 1.1em;
  text-shadow: 0 1px 2px #000;
}

video::cue(b) {
  color: #ff5252;
}

Seul VTT prend en charge ce niveau de contrôle. Si vous exportez en SRT et avez besoin de styles, vous devrez les graver dans la vidéo avec ffmpeg ou des outils comme HandBrake.

Téléverser SRT/VTT sur YouTube et Vimeo

YouTube

  1. Allez dans YouTube Studio > Contenu > sélectionnez votre vidéo
  2. Onglet Sous-titres dans la barre de gauche
  3. Ajouter une langue > choisissez la langue du fichier
  4. Cliquez sur Ajouter sous "Sous-titres" > Importer un fichier
  5. Sélectionnez "Avec horodatages" et téléversez le .srt ou .vtt
  6. YouTube les active instantanément ; le bouton CC du lecteur les affiche

YouTube génère également des sous-titres automatiques dans son propre système, mais la qualité en français est de 75 à 85 %. Téléverser votre propre SRT généré par VOCAP donne une précision supérieure à 95 % et améliore l'indexation de la vidéo dans le moteur de recherche.

Vimeo

  1. Ouvrez la vidéo dans Vimeo et cliquez sur Paramètres
  2. Onglet Distribution > section Sous-titres
  3. Cliquez sur + Ajouter un fichier CC/Sous-titres
  4. Téléversez le .srt ou .vtt et sélectionnez la langue
  5. Cochez la case "Disponible" pour que le spectateur puisse les choisir

Importer SRT dans Premiere et Final Cut

Premiere Pro

Depuis 2022, Premiere importe directement les fichiers .srt :

  1. Fenêtre > Texte > Sous-titres > Importer depuis SRT
  2. Sélectionnez le fichier .srt généré par VOCAP
  3. Une nouvelle piste de sous-titres apparaît dans la timeline
  4. Chaque cue peut être édité individuellement ; faites glisser les bords pour ajuster les temps
  5. Pour exporter la vidéo avec les sous-titres incrustés, dans le panneau Exporter, activez "Incruster les sous-titres dans la vidéo"
  6. Pour exporter comme piste de sous-titres séparée (sidecar), choisissez "Créer un fichier de sous-titres"

Final Cut Pro

Final Cut préfère le format iTT (iTunes Timed Text) mais accepte SRT avec une astuce :

  1. Fichier > Importer > Sous-titres
  2. Sélectionnez le .srt ; FCP le convertit automatiquement en iTT en interne
  3. La piste apparaît dans la timeline avec des cues éditables
  4. Pour exporter en piste CEA-608 ou iTT, utilisez Partager > Fichier principal > Rôles

DaVinci Resolve et CapCut

DaVinci Resolve importe SRT depuis la version 18 (Édition > Importer > Sous-titres). CapCut Desktop et Web prennent également en charge SRT depuis 2024 (timeline > Sous-titres > Importer un fichier). Sur CapCut mobile, l'importation est un peu plus limitée et il est préférable de générer les sous-titres depuis l'app elle-même à partir de l'audio.

Traduire les sous-titres dans d'autres langues

Le flux classique de traduction de sous-titres consistait à passer le SRT par un traducteur humain ou par DeepL en collant manuellement cue par cue. Avec l'IA, le processus se réduit à une seule étape car VOCAP traduit en conservant les horodatages.

1

Transcrivez l'audio dans sa langue originale

Par exemple, un podcast en français. VOCAP génère le SRT/VTT en français avec horodatages.

2

Activez la traduction vers les langues nécessaires

Anglais, espagnol, allemand, italien, portugais ou n'importe laquelle des 90 langues prises en charge. Chaque langue génère un fichier SRT/VTT indépendant avec les mêmes horodatages.

3

Téléversez les pistes alternatives sur YouTube ou votre lecteur

YouTube permet d'ajouter autant de langues que vous le souhaitez depuis Sous-titres > Ajouter une langue. En HTML5, ajoutez simplement un <track> par langue avec l'attribut srclang correspondant.

Pourquoi la traduction de sous-titres compte : une vidéo avec des sous-titres dans 3 langues multiplie la portée potentielle par 3 à 5. YouTube indexe par langue de sous-titres, ainsi un podcast en français avec sous-titres en anglais et portugais apparaîtra dans les recherches des trois marchés. Le coût marginal avec l'IA est de quelques centimes par langue ; le coût avec un traducteur humain serait de 50 à 100 EUR.

Bonnes pratiques : longueur, temps, lecture

Les directives CSA (France), BBC (UK), Netflix Style Guide et CPL (Captioned Media Program des États-Unis) concordent sur presque tout.

Règle Valeur recommandée Pourquoi
Caractères par ligne Max. 42 Tient sur les écrans 16:9 sans saturer
Lignes par cue Max. 2 Plus bloque l'image
Durée par cue 1-6 secondes Temps de lecture confortable
Vitesse de lecture < 17 caractères/seconde Standard BBC et Netflix
Espace entre cues ≥ 80 ms Évite le clignotement entre sous-titres
Coupure de ligne À la ponctuation naturelle Ne pas couper les syntagmes
Identification des locuteurs Seulement en cas de confusion Utilisez "- " ou <v> en VTT

Sous-titres faits à la main

  • 3-5 heures par heure de vidéo
  • Erreurs fréquentes de synchronisation
  • Incohérence entre cues
  • Traduire multiplie le coût par langue
  • Ennui garanti

Sous-titres avec VOCAP + IA

  • 3-5 minutes par heure de vidéo
  • Synchronisation parfaite au niveau de la phrase
  • Règles CSA/BBC appliquées par défaut
  • Traduction en 90 langues en une seule étape
  • Temps libre pour l'édition créative

Cas d'usage réels

Podcasteurs vidéo

Ils transforment leurs épisodes YouTube et Spotify Video en contenu accessible et mieux indexé.

  • SRT pour téléverser sur YouTube
  • VTT pour le site web du podcast
  • Traductions en anglais et portugais
  • Améliore le SEO de la vidéo

Cours en ligne et formateurs

Ils génèrent des sous-titres accessibles pour leurs académies sur Moodle, Teachable ou leur propre site.

  • VTT pour lecteur HTML5
  • Chapitres dans un VTT séparé
  • Conformité WCAG 2.2
  • Élèves dans différentes langues

Créateurs de Reels et Shorts

Sous-titres incrustés ou sidecar pour Instagram, TikTok et YouTube Shorts.

  • SRT comme source
  • Incrustation via ffmpeg ou CapCut
  • Styles par plateforme
  • Amélioration de la rétention de 80 %

Entreprises et vidéo corporate

Onboarding, formation interne, vidéos produit multilingues.

  • SRT pour Premiere
  • Traduction en anglais/espagnol
  • Accessibilité sur intranet
  • Valorisation internationale

Journalistes et documentaires

Entretiens enregistrés avec sous-titres exacts pour la diffusion.

  • SRT compatible avec les éditeurs broadcast
  • Marquage des locuteurs en VTT
  • Citations avec horodatage exact
  • Versionnage dans plusieurs langues

Streamers et éditeurs gaming

VODs Twitch et YouTube Gaming avec sous-titres automatiques.

  • SRT à partir du long VOD
  • Traduction pour audience mondiale
  • Meilleur SEO sur YouTube
  • Accessibilité de la communauté

Générez Vos Sous-titres SRT et VTT en Minutes

Essayez VOCAP gratuitement : 30 minutes de transcription avec exportation SRT et VTT incluses. Sans carte. Fonctionne sur Mac, Windows, Linux, iPhone et Android depuis Safari ou Chrome.

Commencer gratuitement

Questions fréquentes

Quelle est la différence entre SRT et VTT ?

SRT (SubRip Text) est le format le plus ancien et le plus compatible : il est pris en charge par YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix et pratiquement tous les lecteurs. Il utilise des horodatages avec une virgule comme séparateur décimal. VTT (WebVTT) est le standard moderne du web : il est utilisé par les lecteurs HTML5 via l'élément <track>, prend en charge les styles CSS, le positionnement du texte à l'écran et les commentaires. Il utilise un point comme séparateur décimal. Pour le web moderne, utilisez VTT ; pour la vidéo éditée ou téléchargée sur des plateformes, utilisez SRT.

Puis-je créer un SRT directement à partir d'un audio sans vidéo ?

Oui. Les SRT et VTT sont uniquement du texte avec des horodatages, ils ne contiennent pas de vidéo. VOCAP génère le fichier à partir de n'importe quel MP3, WAV, M4A ou OGG. L'audio est transcrit avec Whisper, segmenté automatiquement en phrases de 3 à 6 secondes et exporté en .srt ou .vtt prêt à être synchronisé avec la vidéo que vous créerez plus tard ou pour servir de base aux sous-titres d'un podcast.

Comment se fait la traduction automatique d'un SRT vers une autre langue ?

VOCAP transcrit l'audio dans sa langue originale et, dans le même processus, peut traduire le résultat en anglais, espagnol, allemand, italien, portugais ou 90 autres langues en conservant les horodatages. La traduction est effectuée par Claude après la transcription, phrase par phrase, afin que chaque cue conserve sa position temporelle. Le résultat est constitué de deux fichiers SRT/VTT : original et traduit.

Quelle durée doit avoir chaque ligne de sous-titre ?

Les directives du CSA, de la BBC et de Netflix concordent : maximum 42 caractères par ligne, maximum 2 lignes par cue, durée comprise entre 1 et 6 secondes, et vitesse de lecture inférieure à 17 caractères par seconde. VOCAP segmente automatiquement en respectant ces limites.

Pourquoi YouTube accepte SRT et VTT mais les affiche différemment ?

YouTube accepte les deux formats mais les convertit en interne dans son propre format JSON3. Le résultat visuel est identique pour le spectateur. La différence pratique est que VTT permet d'inclure des métadonnées (NOTE), des cue settings (position, alignement) et du formatage (italique, gras) que SRT ne prend pas en charge en standard.

Commencez à Créer des Sous-titres Professionnels Aujourd'hui

30 minutes de transcription gratuites avec exportation SRT et VTT. Sans carte de crédit.

Essayer VOCAP gratuitement
Essayez VOCAP gratuitement 15 min de transcription
Commencer →