Pubblicare un video senza sottotitoli nel 2026 significa escludere l'85% degli spettatori che guardano contenuti in silenzio in metro, in ufficio o a letto. E creare sottotitoli a mano resta una delle attività più noiose del flusso di editing: marcare i tempi, dividere le frasi, regolare gli a capo, tradurre in altre lingue. L'IA cambia l'equazione: un file SRT o VTT ben fatto a partire da un video di 20 minuti si genera ora in meno di cinque.
Questa guida spiega come creare file SRT e VTT con l'IA da qualsiasi audio o video: differenze tecniche tra i due formati, esempi di codice, strumenti, come controllare la sincronizzazione e gli a capo, come tradurre i sottotitoli in più lingue mantenendo i timestamp e come caricarli su YouTube, Vimeo, Premiere e lettori HTML5.
Contenuti dell'articolo
- SRT vs VTT: differenze tecniche
- Quando usare ogni formato
- Struttura interna di un SRT e di un VTT
- Creare SRT e VTT con VOCAP
- Caricare VTT in HTML5 con <track>
- Caricare SRT/VTT su YouTube e Vimeo
- Importare SRT in Premiere e Final Cut
- Tradurre sottotitoli in altre lingue
- Best practice: lunghezza, tempi, lettura
- Domande frequenti
SRT vs VTT: differenze tecniche
Entrambi sono file di testo semplice che associano frasi a timestamp, ma appartengono a generazioni diverse. SRT (SubRip Text) è nato nel 2000 come formato di output del programma SubRip per estrarre sottotitoli da DVD. VTT (WebVTT) è lo standard moderno del W3C, progettato per i lettori HTML5 e il web semantico.
| Caratteristica | SRT | VTT |
|---|---|---|
| Anno dello standard | 2000 (de facto) | 2010 (W3C) |
| Estensione | .srt | .vtt |
| Intestazione obbligatoria | No | Sì (WEBVTT) |
| Separatore decimale | Virgola (,) | Punto (.) |
| HTML5 nativo (<track>) | Solo con conversione | Sì, ufficiale |
| Stili CSS | No | Sì, tramite ::cue |
| Posizionamento del cue | No | Sì (line, position, align) |
| Commenti NOTE | No | Sì |
| Capitoli / regioni | No | Sì |
| Supporto YouTube | Sì | Sì |
| Supporto Premiere / Final Cut | Sì, nativo | Conversione consigliata |
| Supporto Netflix / Disney+ | Tramite conversione in IMSC/TTML | Tramite conversione in IMSC/TTML |
Quando usare ogni formato
Regola pratica: se la destinazione è un lettore HTML5 su un sito web proprio o una piattaforma moderna, esporta VTT. Se la destinazione è un editor video (Premiere, Final Cut, DaVinci, CapCut), una piattaforma social (YouTube, Vimeo, Facebook) o un lettore desktop (VLC, MX Player), esporta SRT. In caso di dubbio, esporta SRT: ha più compatibilità storica e quasi tutti gli strumenti sanno convertirlo.
Quando scegliere SRT
- Editing video: Premiere Pro e DaVinci Resolve lo importano in timeline come traccia di sottotitoli modificabile
- Lettori desktop: VLC, MPC-HC, MX Player lo riconoscono automaticamente se condivide il nome con l'.mp4
- Caricamento su YouTube e Vimeo: entrambi lo accettano senza conversione
- Distribuzione ai clienti: è il formato che quasi tutti sanno aprire
Quando scegliere VTT
- Lettore HTML5 proprio: l'elemento <track> del <video> accetta ufficialmente solo VTT
- Corsi e piattaforme LMS: Moodle, Canvas, Coursera o il tuo lettore video preferiscono VTT
- Sottotitoli con stile: se hai bisogno di colori, posizionamento o corsivo senza bruciare il testo nel video
- Tracce di capitoli: VTT supporta <track kind="chapters"> per la navigazione tramite marcatori
- Applicazioni web moderne: React, Vue o qualsiasi framework che usi il lettore nativo del browser
Struttura interna di un SRT e di un VTT
Vedere il file dall'interno aiuta a capire come l'IA costruisce il risultato e come ripararlo se qualcosa si scompiglia.
Esempio di file .srt
1 00:00:00,000 --> 00:00:03,200 Benvenuti al podcast di oggi. 2 00:00:03,500 --> 00:00:07,800 Parleremo di come creare sottotitoli con l'intelligenza artificiale. 3 00:00:08,000 --> 00:00:11,400 In cinque minuti avrai un file SRT pronto all'uso.
Ogni cue ha tre parti: un numero d'ordine, un intervallo temporale con la freccia --> e separatore decimale con virgola, e il testo del sottotitolo (una o due righe al massimo). Una riga vuota separa i cue.
Esempio di file .vtt
WEBVTT NOTE Sottotitoli generati da VOCAP 1 00:00:00.000 --> 00:00:03.200 Benvenuti al podcast di oggi. 2 00:00:03.500 --> 00:00:07.800 line:90% align:center Parleremo di come creare sottotitoli con l'intelligenza artificiale. 3 00:00:08.000 --> 00:00:11.400 <v Speaker1>In cinque minuti avrai un file VTT pronto all'uso.</v>
Il VTT richiede l'intestazione WEBVTT come prima riga, usa il punto come separatore decimale e consente extra: commenti con NOTE, posizionamento del cue (line, align, position) e tag inline come <v Speaker> per la diarizzazione dei parlanti.
Suggerimento: non usare mai Word o Pages per modificare un .srt o .vtt: introducono codifica rich che rompe i lettori. Usa sempre un editor di testo semplice (VS Code, Sublime Text, Notepad++, BBEdit) e salva in UTF-8 senza BOM.
Creare SRT e VTT con VOCAP
VOCAP genera entrambi i formati nello stesso processo di trascrizione, con timestamp a livello di frase e rispettando le lunghezze consigliate.
Carica l'audio o il video
Vai su vocap.io/it/transcribe e trascina il file. VOCAP accetta MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC e OPUS, fino a 150 MB. Se il tuo video pesa di più, estrai l'audio con ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) e carica solo l'audio.
Attendi la trascrizione con timestamp
VOCAP usa Whisper di OpenAI per trascrivere e restituire timestamp a livello di frase. Per 20 minuti di video, la trascrizione impiega tra i 3 e i 5 minuti.
Esporta come SRT o VTT
Nel pannello dei risultati, fai clic su Esporta e scegli il formato. La segmentazione si regola automaticamente: massimo 42 caratteri per riga, massimo 6 secondi per cue, tagli alla punteggiatura naturale.
Verifica in un editor di testo
Apri il .srt o .vtt in VS Code o Sublime Text. Conferma che i timestamp siano sincronizzati con l'audio (puoi incollare il file in un lettore che carichi i sottotitoli per verificarlo) e correggi qualsiasi nome proprio che l'IA abbia trascritto male.
Carica il file sulla tua piattaforma
Passa alla sezione corrispondente: YouTube, Vimeo, Premiere o HTML5. Ognuno ha un flusso di caricamento diverso descritto nelle sezioni seguenti.
Crea il tuo primo SRT/VTT gratis
30 minuti di trascrizione con esportazione SRT e VTT incluse. Senza carta di credito.
Prova VOCAP gratisCaricare VTT in HTML5 con <track>
Il lettore HTML5 nativo supporta i sottotitoli in modo standard grazie all'elemento <track>. Accetta solo VTT.
<video controls width="720">
<source src="podcast.mp4" type="video/mp4">
<track
label="Italiano"
kind="subtitles"
srclang="it"
src="podcast-it.vtt"
default>
<track
label="English"
kind="subtitles"
srclang="en"
src="podcast-en.vtt">
<track
label="Capitoli"
kind="chapters"
srclang="it"
src="podcast-chapters.vtt">
</video>
L'attributo default indica la traccia che si attiva al caricamento del video. Se servi l'HTML da un dominio e il VTT da un altro (per esempio CDN), ricordati di configurare crossorigin="anonymous" sul <video> e gli header Access-Control-Allow-Origin sul server del VTT.
Errore comune: servire il .vtt con il MIME type errato. Configura il tuo server per restituire text/vtt; se restituisce text/plain o application/octet-stream, Chrome e Firefox ignorano silenziosamente il file. In Nginx: types { text/vtt vtt; }. In Apache: AddType text/vtt .vtt. In Vercel o Netlify si configura dal pannello.
Stilizzare i sottotitoli VTT con CSS
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffeb3b;
font-family: "Inter", sans-serif;
font-size: 1.1em;
text-shadow: 0 1px 2px #000;
}
video::cue(b) {
color: #ff5252;
}
Solo VTT supporta questo livello di controllo. Se esporti SRT e hai bisogno di stili, dovrai bruciarli nel video con ffmpeg o strumenti come HandBrake.
Caricare SRT/VTT su YouTube e Vimeo
YouTube
- Vai in YouTube Studio > Contenuti > seleziona il tuo video
- Scheda Sottotitoli nella barra di sinistra
- Aggiungi lingua > scegli la lingua del file
- Premi Aggiungi sotto "Sottotitoli" > Carica file
- Seleziona "Con timestamp" e carica il .srt o .vtt
- YouTube li attiva all'istante; il pulsante CC del lettore li mostra
YouTube genera anche sottotitoli automatici nel proprio sistema, ma la qualità in italiano è del 75-85%. Caricare il tuo SRT generato da VOCAP dà un'accuratezza superiore al 95% e migliora l'indicizzazione del video nel motore di ricerca.
Vimeo
- Apri il video in Vimeo e premi Impostazioni
- Scheda Distribuzione > sezione Sottotitoli
- Premi + Aggiungi file CC/Sottotitoli
- Carica il .srt o .vtt e seleziona la lingua
- Attiva la casella "Disponibile" affinché lo spettatore possa sceglierli
Importare SRT in Premiere e Final Cut
Premiere Pro
Dal 2022 Premiere importa direttamente i file .srt:
- Finestra > Testo > Sottotitoli > Importa da SRT
- Seleziona il file .srt generato da VOCAP
- Appare una nuova traccia di sottotitoli nella timeline
- Ogni cue può essere modificato individualmente; trascina i bordi per regolare i tempi
- Per esportare il video con sottotitoli bruciati, nel pannello Esporta attiva "Brucia sottotitoli nel video"
- Per esportare come traccia di sottotitoli separata (sidecar), scegli "Crea file di sottotitoli"
Final Cut Pro
Final Cut preferisce il formato iTT (iTunes Timed Text) ma accetta SRT con una scorciatoia:
- File > Importa > Sottotitoli
- Seleziona il .srt; FCP lo converte automaticamente in iTT internamente
- La traccia appare in timeline con i cue modificabili
- Per esportare traccia CEA-608 o iTT, usa Condividi > File principale > Ruoli
DaVinci Resolve e CapCut
DaVinci Resolve importa SRT dalla versione 18 (Edit > Importa > Sottotitoli). Anche CapCut Desktop e Web supportano SRT dal 2024 (timeline > Sottotitoli > Importa file). In CapCut mobile l'importazione è un po' più limitata e conviene generare i sottotitoli dall'app stessa a partire dall'audio.
Tradurre sottotitoli in altre lingue
Il flusso classico di traduzione dei sottotitoli consisteva nel passare l'SRT attraverso un traduttore umano o DeepL incollando manualmente cue per cue. Con l'IA, il processo si riduce a un solo passaggio perché VOCAP traduce mantenendo i timestamp.
Trascrivi l'audio nella sua lingua originale
Per esempio, un podcast in italiano. VOCAP genera l'SRT/VTT in italiano con timestamp.
Attiva la traduzione nelle lingue che ti servono
Inglese, francese, tedesco, spagnolo, portoghese o qualsiasi delle 90 lingue supportate. Ogni lingua genera un file SRT/VTT indipendente con gli stessi timestamp.
Carica le tracce alternative su YouTube o sul tuo lettore
YouTube consente di aggiungere quante lingue vuoi da Sottotitoli > Aggiungi lingua. In HTML5, basta aggiungere un <track> per lingua con l'attributo srclang corrispondente.
Perché conta la traduzione dei sottotitoli: un video con sottotitoli in 3 lingue moltiplica la portata potenziale per 3-5x. YouTube indicizza per lingua di sottotitoli, quindi un podcast in italiano con sub in inglese e portoghese apparirà nelle ricerche di tutti e tre i mercati. Il costo marginale con l'IA è di centesimi per lingua; il costo con un traduttore umano sarebbe di 50-100 EUR.
Best practice: lunghezza, tempi, lettura
Le linee guida CSA (Francia), BBC (UK), Netflix Style Guide e CPL (Captioned Media Program degli USA) coincidono in quasi tutto.
| Regola | Valore consigliato | Perché |
|---|---|---|
| Caratteri per riga | Max. 42 | Sta in schermi 16:9 senza saturare |
| Righe per cue | Max. 2 | Di più blocca l'immagine |
| Durata per cue | 1-6 secondi | Tempo di lettura comodo |
| Velocità di lettura | < 17 caratteri/secondo | Standard BBC e Netflix |
| Pausa tra cue | ≥ 80 ms | Evita lampeggi tra sottotitoli |
| Taglio di riga | Alla punteggiatura naturale | Non tagliare sintagmi |
| Identificazione dei parlanti | Solo se c'è confusione | Usa "- " o <v> in VTT |
Sottotitoli fatti a mano
- 3-5 ore per ogni ora di video
- Errori frequenti di sincronizzazione
- Incoerenza tra cue
- Tradurre moltiplica il costo per lingua
- Noia garantita
Sottotitoli con VOCAP + IA
- 3-5 minuti per ogni ora di video
- Sincronizzazione perfetta a livello di frase
- Regole CSA/BBC applicate per impostazione predefinita
- Traduzione in 90 lingue nello stesso passaggio
- Tempo libero per l'editing creativo
Casi d'uso reali
Podcaster video
Trasformano episodi YouTube e Spotify Video in contenuti accessibili e meglio indicizzati.
- SRT per caricare su YouTube
- VTT per il sito web del podcast
- Traduzioni in inglese e portoghese
- Migliora la SEO del video
Corsi online e formatori
Generano sottotitoli accessibili per le loro accademie su Moodle, Teachable o sito proprio.
- VTT per lettore HTML5
- Capitoli in VTT separato
- Conformità WCAG 2.2
- Studenti in lingue diverse
Creator di Reels e Shorts
Sottotitoli bruciati o sidecar per Instagram, TikTok e YouTube Shorts.
- SRT come fonte
- Bruciatura tramite ffmpeg o CapCut
- Stili per piattaforma
- Migliora la retention dell'80%
Aziende e video corporate
Onboarding, formazione interna, video prodotto multilingue.
- SRT per Premiere
- Traduzione in inglese/francese
- Accessibilità in intranet
- Valorizzazione internazionale
Giornalisti e documentari
Interviste registrate con sottotitoli esatti per la trasmissione.
- SRT compatibile con editor broadcast
- Marcature dei parlanti in VTT
- Citazioni con timestamp esatto
- Versionamento in più lingue
Streamer ed editor di gaming
VOD di Twitch e YouTube Gaming con sottotitoli automatici.
- SRT dal VOD lungo
- Traduzione per pubblico globale
- Migliore SEO su YouTube
- Accessibilità della community
Genera i tuoi sottotitoli SRT e VTT in pochi minuti
Prova VOCAP gratis: 30 minuti di trascrizione con esportazione SRT e VTT incluse. Senza carta. Funziona su Mac, Windows, Linux, iPhone e Android da Safari o Chrome.
Inizia gratisDomande frequenti
Qual è la differenza tra SRT e VTT?
SRT (SubRip Text) è il formato più vecchio e compatibile: è supportato da YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix e praticamente qualsiasi lettore. Usa timestamp con virgola come separatore decimale. VTT (WebVTT) è lo standard moderno del web: viene utilizzato dai lettori HTML5 attraverso l'elemento <track>, supporta stili CSS, posizionamento del testo sullo schermo e commenti. Usa il punto come separatore decimale. Per il web moderno usa VTT, per video editato o caricato su piattaforme usa SRT.
Posso creare un SRT direttamente da un audio senza video?
Sì. SRT e VTT sono solo testo con timestamp, non contengono video. VOCAP genera il file da qualsiasi MP3, WAV, M4A o OGG. L'audio viene trascritto con Whisper, segmentato automaticamente in frasi di 3-6 secondi ed esportato come .srt o .vtt pronto per essere sincronizzato con il video che creerai successivamente o per essere usato come base per i sottotitoli di un podcast.
Come avviene la traduzione automatica di un SRT in un'altra lingua?
VOCAP trascrive l'audio nella sua lingua originale e, nello stesso processo, può tradurre il risultato in inglese, francese, tedesco, spagnolo, portoghese o altre 90 lingue mantenendo i timestamp. La traduzione viene effettuata da Claude dopo la trascrizione, frase per frase, in modo che ogni cue conservi la sua posizione temporale. Il risultato sono due file SRT/VTT: originale e tradotto.
Quale durata deve avere ogni riga di sottotitolo?
Le linee guida di CSA, BBC e Netflix coincidono: massimo 42 caratteri per riga, massimo 2 righe per cue, durata tra 1 e 6 secondi e velocità di lettura inferiore a 17 caratteri al secondo. VOCAP segmenta automaticamente rispettando questi limiti.
Perché YouTube accetta SRT e VTT ma li mostra in modo diverso?
YouTube acquisisce entrambi i formati ma internamente li converte nel proprio formato JSON3. Il risultato visivo è identico per lo spettatore. La differenza pratica è che VTT consente di includere metadati (NOTE), cue setting (posizione, allineamento) e formattazione (corsivo, grassetto) che SRT non supporta in modo standard.
Inizia a creare sottotitoli professionali oggi
30 minuti di trascrizione gratis con esportazione SRT e VTT. Senza carta di credito.
Prova VOCAP gratis