Publier une vidéo sans sous-titres en 2026, c'est laisser de côté 85 % des spectateurs qui regardent du contenu en silence dans le métro, au bureau ou au lit. Et créer des sous-titres à la main reste l'une des tâches les plus fastidieuses du flux d'édition : marquer les temps, découper les phrases, ajuster les sauts de ligne, traduire dans d'autres langues. L'IA change la donne : un fichier SRT ou VTT bien fait à partir d'une vidéo de 20 minutes se génère désormais en moins de cinq.
Ce guide explique comment créer des fichiers SRT et VTT avec l'IA à partir de n'importe quel audio ou vidéo : différences techniques entre les deux formats, exemples de code, outils, comment contrôler la synchronisation et les sauts de ligne, comment traduire les sous-titres en plusieurs langues en conservant les horodatages, et comment les téléverser sur YouTube, Vimeo, Premiere et les lecteurs HTML5.
Contenu de l'article
- SRT vs VTT : différences techniques
- Quand utiliser chaque format
- Structure interne d'un SRT et d'un VTT
- Créer SRT et VTT avec VOCAP
- Charger VTT en HTML5 avec <track>
- Téléverser SRT/VTT sur YouTube et Vimeo
- Importer SRT dans Premiere et Final Cut
- Traduire les sous-titres dans d'autres langues
- Bonnes pratiques : longueur, temps, lecture
- Questions fréquentes
SRT vs VTT : différences techniques
Tous deux sont des fichiers texte simples qui associent des phrases à des horodatages, mais ils appartiennent à des générations différentes. SRT (SubRip Text) est né en 2000 comme format de sortie du programme SubRip d'extraction de sous-titres de DVD. VTT (WebVTT) est le standard moderne du W3C, conçu pour les lecteurs HTML5 et le web sémantique.
| Caractéristique | SRT | VTT |
|---|---|---|
| Année du standard | 2000 (de facto) | 2010 (W3C) |
| Extension | .srt | .vtt |
| En-tête obligatoire | Non | Oui (WEBVTT) |
| Séparateur décimal | Virgule (,) | Point (.) |
| HTML5 natif (<track>) | Seulement avec conversion | Oui, officiel |
| Styles CSS | Non | Oui, via ::cue |
| Positionnement du cue | Non | Oui (line, position, align) |
| Commentaires NOTE | Non | Oui |
| Chapitres / régions | Non | Oui |
| Support YouTube | Oui | Oui |
| Support Premiere / Final Cut | Oui, natif | Conversion recommandée |
| Support Netflix / Disney+ | Via conversion en IMSC/TTML | Via conversion en IMSC/TTML |
Quand utiliser chaque format
Règle pratique : si la destination est un lecteur HTML5 sur un site web propre ou une plateforme moderne, exportez en VTT. Si la destination est un éditeur vidéo (Premiere, Final Cut, DaVinci, CapCut), une plateforme sociale (YouTube, Vimeo, Facebook) ou un lecteur de bureau (VLC, MX Player), exportez en SRT. En cas de doute, exportez en SRT : il bénéficie d'une plus grande compatibilité historique et presque tous les outils savent le convertir.
Quand choisir SRT
- Édition vidéo : Premiere Pro et DaVinci Resolve l'importent dans la timeline comme piste de sous-titres éditable
- Lecteurs de bureau : VLC, MPC-HC, MX Player le reconnaissent automatiquement s'il porte le même nom que le .mp4
- Téléversement sur YouTube et Vimeo : les deux l'acceptent sans conversion
- Distribution aux clients : c'est le format que presque tout le monde sait ouvrir
Quand choisir VTT
- Lecteur HTML5 propre : l'élément <track> de <video> n'accepte officiellement que VTT
- Cours et plateformes LMS : Moodle, Canvas, Coursera ou votre propre lecteur vidéo préfèrent VTT
- Sous-titres avec style : si vous avez besoin de couleurs, positionnement ou italique sans graver le texte dans la vidéo
- Pistes de chapitres : VTT prend en charge <track kind="chapters"> pour la navigation par marqueurs
- Applications web modernes : React, Vue ou tout framework utilisant le lecteur natif du navigateur
Structure interne d'un SRT et d'un VTT
Voir le fichier de l'intérieur aide à comprendre comment l'IA construit le résultat et comment le corriger si quelque chose dévie.
Exemple de fichier .srt
1 00:00:00,000 --> 00:00:03,200 Bienvenue dans le podcast d'aujourd'hui. 2 00:00:03,500 --> 00:00:07,800 Nous allons parler de comment créer des sous-titres avec l'intelligence artificielle. 3 00:00:08,000 --> 00:00:11,400 En cinq minutes, vous aurez un fichier SRT prêt à l'emploi.
Chaque cue a trois parties : un numéro d'ordre, une plage temporelle avec la flèche --> et un séparateur décimal par virgule, et le texte du sous-titre (une ou deux lignes maximum). Une ligne vide sépare les cues.
Exemple de fichier .vtt
WEBVTT NOTE Sous-titres générés par VOCAP 1 00:00:00.000 --> 00:00:03.200 Bienvenue dans le podcast d'aujourd'hui. 2 00:00:03.500 --> 00:00:07.800 line:90% align:center Nous allons parler de comment créer des sous-titres avec l'intelligence artificielle. 3 00:00:08.000 --> 00:00:11.400 <v Speaker1>En cinq minutes, vous aurez un fichier VTT prêt à l'emploi.</v>
Le VTT exige l'en-tête WEBVTT comme première ligne, utilise le point comme séparateur décimal et permet des extras : commentaires avec NOTE, positionnement du cue (line, align, position) et balises inline comme <v Speaker> pour la diarisation des locuteurs.
Astuce : n'utilisez jamais Word ou Pages pour éditer un .srt ou .vtt : ils ajoutent un encodage enrichi qui casse les lecteurs. Utilisez toujours un éditeur de texte brut (VS Code, Sublime Text, Notepad++, BBEdit) et sauvegardez en UTF-8 sans BOM.
Créer SRT et VTT avec VOCAP
VOCAP génère les deux formats dans le même processus de transcription, avec des horodatages au niveau de la phrase et en respectant les longueurs recommandées.
Téléchargez l'audio ou la vidéo
Allez sur vocap.io/fr/transcribe et déposez le fichier. VOCAP accepte MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC et OPUS, jusqu'à 150 Mo. Si votre vidéo pèse plus, extrayez l'audio avec ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) et téléchargez seulement l'audio.
Attendez la transcription avec horodatages
VOCAP utilise Whisper d'OpenAI pour transcrire et renvoyer des horodatages au niveau de la phrase. Pour 20 minutes de vidéo, la transcription prend entre 3 et 5 minutes.
Exportez en SRT ou VTT
Dans le panneau de résultats, cliquez sur Exporter et choisissez le format. La segmentation s'ajuste automatiquement : maximum 42 caractères par ligne, maximum 6 secondes par cue, coupures à la ponctuation naturelle.
Vérifiez dans un éditeur de texte
Ouvrez le .srt ou .vtt dans VS Code ou Sublime Text. Confirmez que les horodatages sont synchronisés avec l'audio (vous pouvez coller le fichier dans un lecteur qui charge les sous-titres pour le vérifier) et corrigez tout nom propre que l'IA aurait mal transcrit.
Téléchargez le fichier sur votre plateforme
Passez à la section correspondante : YouTube, Vimeo, Premiere ou HTML5. Chacun a un flux de chargement différent décrit dans les sections suivantes.
Créez Votre Premier SRT/VTT Gratuitement
30 minutes de transcription avec exportation SRT et VTT incluses. Sans carte de crédit.
Essayer VOCAP gratuitementCharger VTT en HTML5 avec <track>
Le lecteur HTML5 natif prend en charge les sous-titres de manière standard grâce à l'élément <track>. Il n'accepte que VTT.
<video controls width="720">
<source src="podcast.mp4" type="video/mp4">
<track
label="Français"
kind="subtitles"
srclang="fr"
src="podcast-fr.vtt"
default>
<track
label="English"
kind="subtitles"
srclang="en"
src="podcast-en.vtt">
<track
label="Chapitres"
kind="chapters"
srclang="fr"
src="podcast-chapters.vtt">
</video>
L'attribut default marque la piste qui s'active au chargement de la vidéo. Si vous servez le HTML depuis un domaine et le VTT depuis un autre (par exemple CDN), pensez à configurer crossorigin="anonymous" sur la <video> et les en-têtes Access-Control-Allow-Origin sur le serveur du VTT.
Erreur fréquente : servir le .vtt avec le mauvais MIME type. Configurez votre serveur pour renvoyer text/vtt ; s'il renvoie text/plain ou application/octet-stream, Chrome et Firefox ignorent silencieusement le fichier. Dans Nginx : types { text/vtt vtt; }. Dans Apache : AddType text/vtt .vtt. Dans Vercel ou Netlify, ça se configure depuis le tableau de bord.
Styliser les sous-titres VTT avec CSS
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffeb3b;
font-family: "Inter", sans-serif;
font-size: 1.1em;
text-shadow: 0 1px 2px #000;
}
video::cue(b) {
color: #ff5252;
}
Seul VTT prend en charge ce niveau de contrôle. Si vous exportez en SRT et avez besoin de styles, vous devrez les graver dans la vidéo avec ffmpeg ou des outils comme HandBrake.
Téléverser SRT/VTT sur YouTube et Vimeo
YouTube
- Allez dans YouTube Studio > Contenu > sélectionnez votre vidéo
- Onglet Sous-titres dans la barre de gauche
- Ajouter une langue > choisissez la langue du fichier
- Cliquez sur Ajouter sous "Sous-titres" > Importer un fichier
- Sélectionnez "Avec horodatages" et téléversez le .srt ou .vtt
- YouTube les active instantanément ; le bouton CC du lecteur les affiche
YouTube génère également des sous-titres automatiques dans son propre système, mais la qualité en français est de 75 à 85 %. Téléverser votre propre SRT généré par VOCAP donne une précision supérieure à 95 % et améliore l'indexation de la vidéo dans le moteur de recherche.
Vimeo
- Ouvrez la vidéo dans Vimeo et cliquez sur Paramètres
- Onglet Distribution > section Sous-titres
- Cliquez sur + Ajouter un fichier CC/Sous-titres
- Téléversez le .srt ou .vtt et sélectionnez la langue
- Cochez la case "Disponible" pour que le spectateur puisse les choisir
Importer SRT dans Premiere et Final Cut
Premiere Pro
Depuis 2022, Premiere importe directement les fichiers .srt :
- Fenêtre > Texte > Sous-titres > Importer depuis SRT
- Sélectionnez le fichier .srt généré par VOCAP
- Une nouvelle piste de sous-titres apparaît dans la timeline
- Chaque cue peut être édité individuellement ; faites glisser les bords pour ajuster les temps
- Pour exporter la vidéo avec les sous-titres incrustés, dans le panneau Exporter, activez "Incruster les sous-titres dans la vidéo"
- Pour exporter comme piste de sous-titres séparée (sidecar), choisissez "Créer un fichier de sous-titres"
Final Cut Pro
Final Cut préfère le format iTT (iTunes Timed Text) mais accepte SRT avec une astuce :
- Fichier > Importer > Sous-titres
- Sélectionnez le .srt ; FCP le convertit automatiquement en iTT en interne
- La piste apparaît dans la timeline avec des cues éditables
- Pour exporter en piste CEA-608 ou iTT, utilisez Partager > Fichier principal > Rôles
DaVinci Resolve et CapCut
DaVinci Resolve importe SRT depuis la version 18 (Édition > Importer > Sous-titres). CapCut Desktop et Web prennent également en charge SRT depuis 2024 (timeline > Sous-titres > Importer un fichier). Sur CapCut mobile, l'importation est un peu plus limitée et il est préférable de générer les sous-titres depuis l'app elle-même à partir de l'audio.
Traduire les sous-titres dans d'autres langues
Le flux classique de traduction de sous-titres consistait à passer le SRT par un traducteur humain ou par DeepL en collant manuellement cue par cue. Avec l'IA, le processus se réduit à une seule étape car VOCAP traduit en conservant les horodatages.
Transcrivez l'audio dans sa langue originale
Par exemple, un podcast en français. VOCAP génère le SRT/VTT en français avec horodatages.
Activez la traduction vers les langues nécessaires
Anglais, espagnol, allemand, italien, portugais ou n'importe laquelle des 90 langues prises en charge. Chaque langue génère un fichier SRT/VTT indépendant avec les mêmes horodatages.
Téléversez les pistes alternatives sur YouTube ou votre lecteur
YouTube permet d'ajouter autant de langues que vous le souhaitez depuis Sous-titres > Ajouter une langue. En HTML5, ajoutez simplement un <track> par langue avec l'attribut srclang correspondant.
Pourquoi la traduction de sous-titres compte : une vidéo avec des sous-titres dans 3 langues multiplie la portée potentielle par 3 à 5. YouTube indexe par langue de sous-titres, ainsi un podcast en français avec sous-titres en anglais et portugais apparaîtra dans les recherches des trois marchés. Le coût marginal avec l'IA est de quelques centimes par langue ; le coût avec un traducteur humain serait de 50 à 100 EUR.
Bonnes pratiques : longueur, temps, lecture
Les directives CSA (France), BBC (UK), Netflix Style Guide et CPL (Captioned Media Program des États-Unis) concordent sur presque tout.
| Règle | Valeur recommandée | Pourquoi |
|---|---|---|
| Caractères par ligne | Max. 42 | Tient sur les écrans 16:9 sans saturer |
| Lignes par cue | Max. 2 | Plus bloque l'image |
| Durée par cue | 1-6 secondes | Temps de lecture confortable |
| Vitesse de lecture | < 17 caractères/seconde | Standard BBC et Netflix |
| Espace entre cues | ≥ 80 ms | Évite le clignotement entre sous-titres |
| Coupure de ligne | À la ponctuation naturelle | Ne pas couper les syntagmes |
| Identification des locuteurs | Seulement en cas de confusion | Utilisez "- " ou <v> en VTT |
Sous-titres faits à la main
- 3-5 heures par heure de vidéo
- Erreurs fréquentes de synchronisation
- Incohérence entre cues
- Traduire multiplie le coût par langue
- Ennui garanti
Sous-titres avec VOCAP + IA
- 3-5 minutes par heure de vidéo
- Synchronisation parfaite au niveau de la phrase
- Règles CSA/BBC appliquées par défaut
- Traduction en 90 langues en une seule étape
- Temps libre pour l'édition créative
Cas d'usage réels
Podcasteurs vidéo
Ils transforment leurs épisodes YouTube et Spotify Video en contenu accessible et mieux indexé.
- SRT pour téléverser sur YouTube
- VTT pour le site web du podcast
- Traductions en anglais et portugais
- Améliore le SEO de la vidéo
Cours en ligne et formateurs
Ils génèrent des sous-titres accessibles pour leurs académies sur Moodle, Teachable ou leur propre site.
- VTT pour lecteur HTML5
- Chapitres dans un VTT séparé
- Conformité WCAG 2.2
- Élèves dans différentes langues
Créateurs de Reels et Shorts
Sous-titres incrustés ou sidecar pour Instagram, TikTok et YouTube Shorts.
- SRT comme source
- Incrustation via ffmpeg ou CapCut
- Styles par plateforme
- Amélioration de la rétention de 80 %
Entreprises et vidéo corporate
Onboarding, formation interne, vidéos produit multilingues.
- SRT pour Premiere
- Traduction en anglais/espagnol
- Accessibilité sur intranet
- Valorisation internationale
Journalistes et documentaires
Entretiens enregistrés avec sous-titres exacts pour la diffusion.
- SRT compatible avec les éditeurs broadcast
- Marquage des locuteurs en VTT
- Citations avec horodatage exact
- Versionnage dans plusieurs langues
Streamers et éditeurs gaming
VODs Twitch et YouTube Gaming avec sous-titres automatiques.
- SRT à partir du long VOD
- Traduction pour audience mondiale
- Meilleur SEO sur YouTube
- Accessibilité de la communauté
Générez Vos Sous-titres SRT et VTT en Minutes
Essayez VOCAP gratuitement : 30 minutes de transcription avec exportation SRT et VTT incluses. Sans carte. Fonctionne sur Mac, Windows, Linux, iPhone et Android depuis Safari ou Chrome.
Commencer gratuitementQuestions fréquentes
Quelle est la différence entre SRT et VTT ?
SRT (SubRip Text) est le format le plus ancien et le plus compatible : il est pris en charge par YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix et pratiquement tous les lecteurs. Il utilise des horodatages avec une virgule comme séparateur décimal. VTT (WebVTT) est le standard moderne du web : il est utilisé par les lecteurs HTML5 via l'élément <track>, prend en charge les styles CSS, le positionnement du texte à l'écran et les commentaires. Il utilise un point comme séparateur décimal. Pour le web moderne, utilisez VTT ; pour la vidéo éditée ou téléchargée sur des plateformes, utilisez SRT.
Puis-je créer un SRT directement à partir d'un audio sans vidéo ?
Oui. Les SRT et VTT sont uniquement du texte avec des horodatages, ils ne contiennent pas de vidéo. VOCAP génère le fichier à partir de n'importe quel MP3, WAV, M4A ou OGG. L'audio est transcrit avec Whisper, segmenté automatiquement en phrases de 3 à 6 secondes et exporté en .srt ou .vtt prêt à être synchronisé avec la vidéo que vous créerez plus tard ou pour servir de base aux sous-titres d'un podcast.
Comment se fait la traduction automatique d'un SRT vers une autre langue ?
VOCAP transcrit l'audio dans sa langue originale et, dans le même processus, peut traduire le résultat en anglais, espagnol, allemand, italien, portugais ou 90 autres langues en conservant les horodatages. La traduction est effectuée par Claude après la transcription, phrase par phrase, afin que chaque cue conserve sa position temporelle. Le résultat est constitué de deux fichiers SRT/VTT : original et traduit.
Quelle durée doit avoir chaque ligne de sous-titre ?
Les directives du CSA, de la BBC et de Netflix concordent : maximum 42 caractères par ligne, maximum 2 lignes par cue, durée comprise entre 1 et 6 secondes, et vitesse de lecture inférieure à 17 caractères par seconde. VOCAP segmente automatiquement en respectant ces limites.
Pourquoi YouTube accepte SRT et VTT mais les affiche différemment ?
YouTube accepte les deux formats mais les convertit en interne dans son propre format JSON3. Le résultat visuel est identique pour le spectateur. La différence pratique est que VTT permet d'inclure des métadonnées (NOTE), des cue settings (position, alignement) et du formatage (italique, gras) que SRT ne prend pas en charge en standard.
Commencez à Créer des Sous-titres Professionnels Aujourd'hui
30 minutes de transcription gratuites avec exportation SRT et VTT. Sans carte de crédit.
Essayer VOCAP gratuitement