Home Prezzi Blog

Come Creare Sottotitoli SRT e VTT con l'IA nel 2026

22 maggio 2026 Di VOCAP 12 min di lettura

Pubblicare un video senza sottotitoli nel 2026 significa escludere l'85% degli spettatori che guardano contenuti in silenzio in metro, in ufficio o a letto. E creare sottotitoli a mano resta una delle attività più noiose del flusso di editing: marcare i tempi, dividere le frasi, regolare gli a capo, tradurre in altre lingue. L'IA cambia l'equazione: un file SRT o VTT ben fatto a partire da un video di 20 minuti si genera ora in meno di cinque.

Questa guida spiega come creare file SRT e VTT con l'IA da qualsiasi audio o video: differenze tecniche tra i due formati, esempi di codice, strumenti, come controllare la sincronizzazione e gli a capo, come tradurre i sottotitoli in più lingue mantenendo i timestamp e come caricarli su YouTube, Vimeo, Premiere e lettori HTML5.

85% dei video sui social vengono visti senza audio
12%+ di retention in più con i sottotitoli
3-5 min per generare SRT/VTT di 20 min di video

SRT vs VTT: differenze tecniche

Entrambi sono file di testo semplice che associano frasi a timestamp, ma appartengono a generazioni diverse. SRT (SubRip Text) è nato nel 2000 come formato di output del programma SubRip per estrarre sottotitoli da DVD. VTT (WebVTT) è lo standard moderno del W3C, progettato per i lettori HTML5 e il web semantico.

Caratteristica SRT VTT
Anno dello standard 2000 (de facto) 2010 (W3C)
Estensione .srt .vtt
Intestazione obbligatoria No Sì (WEBVTT)
Separatore decimale Virgola (,) Punto (.)
HTML5 nativo (<track>) Solo con conversione Sì, ufficiale
Stili CSS No Sì, tramite ::cue
Posizionamento del cue No Sì (line, position, align)
Commenti NOTE No
Capitoli / regioni No
Supporto YouTube
Supporto Premiere / Final Cut Sì, nativo Conversione consigliata
Supporto Netflix / Disney+ Tramite conversione in IMSC/TTML Tramite conversione in IMSC/TTML

Quando usare ogni formato

Regola pratica: se la destinazione è un lettore HTML5 su un sito web proprio o una piattaforma moderna, esporta VTT. Se la destinazione è un editor video (Premiere, Final Cut, DaVinci, CapCut), una piattaforma social (YouTube, Vimeo, Facebook) o un lettore desktop (VLC, MX Player), esporta SRT. In caso di dubbio, esporta SRT: ha più compatibilità storica e quasi tutti gli strumenti sanno convertirlo.

Quando scegliere SRT

Quando scegliere VTT

Struttura interna di un SRT e di un VTT

Vedere il file dall'interno aiuta a capire come l'IA costruisce il risultato e come ripararlo se qualcosa si scompiglia.

Esempio di file .srt

1
00:00:00,000 --> 00:00:03,200
Benvenuti al podcast di oggi.

2
00:00:03,500 --> 00:00:07,800
Parleremo di come creare
sottotitoli con l'intelligenza artificiale.

3
00:00:08,000 --> 00:00:11,400
In cinque minuti avrai
un file SRT pronto all'uso.

Ogni cue ha tre parti: un numero d'ordine, un intervallo temporale con la freccia --> e separatore decimale con virgola, e il testo del sottotitolo (una o due righe al massimo). Una riga vuota separa i cue.

Esempio di file .vtt

WEBVTT

NOTE Sottotitoli generati da VOCAP

1
00:00:00.000 --> 00:00:03.200
Benvenuti al podcast di oggi.

2
00:00:03.500 --> 00:00:07.800 line:90% align:center
Parleremo di come creare
sottotitoli con l'intelligenza artificiale.

3
00:00:08.000 --> 00:00:11.400
<v Speaker1>In cinque minuti avrai un file VTT pronto all'uso.</v>

Il VTT richiede l'intestazione WEBVTT come prima riga, usa il punto come separatore decimale e consente extra: commenti con NOTE, posizionamento del cue (line, align, position) e tag inline come <v Speaker> per la diarizzazione dei parlanti.

Suggerimento: non usare mai Word o Pages per modificare un .srt o .vtt: introducono codifica rich che rompe i lettori. Usa sempre un editor di testo semplice (VS Code, Sublime Text, Notepad++, BBEdit) e salva in UTF-8 senza BOM.

Creare SRT e VTT con VOCAP

VOCAP genera entrambi i formati nello stesso processo di trascrizione, con timestamp a livello di frase e rispettando le lunghezze consigliate.

1

Carica l'audio o il video

Vai su vocap.io/it/transcribe e trascina il file. VOCAP accetta MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC e OPUS, fino a 150 MB. Se il tuo video pesa di più, estrai l'audio con ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) e carica solo l'audio.

2

Attendi la trascrizione con timestamp

VOCAP usa Whisper di OpenAI per trascrivere e restituire timestamp a livello di frase. Per 20 minuti di video, la trascrizione impiega tra i 3 e i 5 minuti.

3

Esporta come SRT o VTT

Nel pannello dei risultati, fai clic su Esporta e scegli il formato. La segmentazione si regola automaticamente: massimo 42 caratteri per riga, massimo 6 secondi per cue, tagli alla punteggiatura naturale.

4

Verifica in un editor di testo

Apri il .srt o .vtt in VS Code o Sublime Text. Conferma che i timestamp siano sincronizzati con l'audio (puoi incollare il file in un lettore che carichi i sottotitoli per verificarlo) e correggi qualsiasi nome proprio che l'IA abbia trascritto male.

5

Carica il file sulla tua piattaforma

Passa alla sezione corrispondente: YouTube, Vimeo, Premiere o HTML5. Ognuno ha un flusso di caricamento diverso descritto nelle sezioni seguenti.

Crea il tuo primo SRT/VTT gratis

30 minuti di trascrizione con esportazione SRT e VTT incluse. Senza carta di credito.

Prova VOCAP gratis

Caricare VTT in HTML5 con <track>

Il lettore HTML5 nativo supporta i sottotitoli in modo standard grazie all'elemento <track>. Accetta solo VTT.

<video controls width="720">
  <source src="podcast.mp4" type="video/mp4">

  <track
    label="Italiano"
    kind="subtitles"
    srclang="it"
    src="podcast-it.vtt"
    default>

  <track
    label="English"
    kind="subtitles"
    srclang="en"
    src="podcast-en.vtt">

  <track
    label="Capitoli"
    kind="chapters"
    srclang="it"
    src="podcast-chapters.vtt">
</video>

L'attributo default indica la traccia che si attiva al caricamento del video. Se servi l'HTML da un dominio e il VTT da un altro (per esempio CDN), ricordati di configurare crossorigin="anonymous" sul <video> e gli header Access-Control-Allow-Origin sul server del VTT.

Errore comune: servire il .vtt con il MIME type errato. Configura il tuo server per restituire text/vtt; se restituisce text/plain o application/octet-stream, Chrome e Firefox ignorano silenziosamente il file. In Nginx: types { text/vtt vtt; }. In Apache: AddType text/vtt .vtt. In Vercel o Netlify si configura dal pannello.

Stilizzare i sottotitoli VTT con CSS

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffeb3b;
  font-family: "Inter", sans-serif;
  font-size: 1.1em;
  text-shadow: 0 1px 2px #000;
}

video::cue(b) {
  color: #ff5252;
}

Solo VTT supporta questo livello di controllo. Se esporti SRT e hai bisogno di stili, dovrai bruciarli nel video con ffmpeg o strumenti come HandBrake.

Caricare SRT/VTT su YouTube e Vimeo

YouTube

  1. Vai in YouTube Studio > Contenuti > seleziona il tuo video
  2. Scheda Sottotitoli nella barra di sinistra
  3. Aggiungi lingua > scegli la lingua del file
  4. Premi Aggiungi sotto "Sottotitoli" > Carica file
  5. Seleziona "Con timestamp" e carica il .srt o .vtt
  6. YouTube li attiva all'istante; il pulsante CC del lettore li mostra

YouTube genera anche sottotitoli automatici nel proprio sistema, ma la qualità in italiano è del 75-85%. Caricare il tuo SRT generato da VOCAP dà un'accuratezza superiore al 95% e migliora l'indicizzazione del video nel motore di ricerca.

Vimeo

  1. Apri il video in Vimeo e premi Impostazioni
  2. Scheda Distribuzione > sezione Sottotitoli
  3. Premi + Aggiungi file CC/Sottotitoli
  4. Carica il .srt o .vtt e seleziona la lingua
  5. Attiva la casella "Disponibile" affinché lo spettatore possa sceglierli

Importare SRT in Premiere e Final Cut

Premiere Pro

Dal 2022 Premiere importa direttamente i file .srt:

  1. Finestra > Testo > Sottotitoli > Importa da SRT
  2. Seleziona il file .srt generato da VOCAP
  3. Appare una nuova traccia di sottotitoli nella timeline
  4. Ogni cue può essere modificato individualmente; trascina i bordi per regolare i tempi
  5. Per esportare il video con sottotitoli bruciati, nel pannello Esporta attiva "Brucia sottotitoli nel video"
  6. Per esportare come traccia di sottotitoli separata (sidecar), scegli "Crea file di sottotitoli"

Final Cut Pro

Final Cut preferisce il formato iTT (iTunes Timed Text) ma accetta SRT con una scorciatoia:

  1. File > Importa > Sottotitoli
  2. Seleziona il .srt; FCP lo converte automaticamente in iTT internamente
  3. La traccia appare in timeline con i cue modificabili
  4. Per esportare traccia CEA-608 o iTT, usa Condividi > File principale > Ruoli

DaVinci Resolve e CapCut

DaVinci Resolve importa SRT dalla versione 18 (Edit > Importa > Sottotitoli). Anche CapCut Desktop e Web supportano SRT dal 2024 (timeline > Sottotitoli > Importa file). In CapCut mobile l'importazione è un po' più limitata e conviene generare i sottotitoli dall'app stessa a partire dall'audio.

Tradurre sottotitoli in altre lingue

Il flusso classico di traduzione dei sottotitoli consisteva nel passare l'SRT attraverso un traduttore umano o DeepL incollando manualmente cue per cue. Con l'IA, il processo si riduce a un solo passaggio perché VOCAP traduce mantenendo i timestamp.

1

Trascrivi l'audio nella sua lingua originale

Per esempio, un podcast in italiano. VOCAP genera l'SRT/VTT in italiano con timestamp.

2

Attiva la traduzione nelle lingue che ti servono

Inglese, francese, tedesco, spagnolo, portoghese o qualsiasi delle 90 lingue supportate. Ogni lingua genera un file SRT/VTT indipendente con gli stessi timestamp.

3

Carica le tracce alternative su YouTube o sul tuo lettore

YouTube consente di aggiungere quante lingue vuoi da Sottotitoli > Aggiungi lingua. In HTML5, basta aggiungere un <track> per lingua con l'attributo srclang corrispondente.

Perché conta la traduzione dei sottotitoli: un video con sottotitoli in 3 lingue moltiplica la portata potenziale per 3-5x. YouTube indicizza per lingua di sottotitoli, quindi un podcast in italiano con sub in inglese e portoghese apparirà nelle ricerche di tutti e tre i mercati. Il costo marginale con l'IA è di centesimi per lingua; il costo con un traduttore umano sarebbe di 50-100 EUR.

Best practice: lunghezza, tempi, lettura

Le linee guida CSA (Francia), BBC (UK), Netflix Style Guide e CPL (Captioned Media Program degli USA) coincidono in quasi tutto.

Regola Valore consigliato Perché
Caratteri per riga Max. 42 Sta in schermi 16:9 senza saturare
Righe per cue Max. 2 Di più blocca l'immagine
Durata per cue 1-6 secondi Tempo di lettura comodo
Velocità di lettura < 17 caratteri/secondo Standard BBC e Netflix
Pausa tra cue ≥ 80 ms Evita lampeggi tra sottotitoli
Taglio di riga Alla punteggiatura naturale Non tagliare sintagmi
Identificazione dei parlanti Solo se c'è confusione Usa "- " o <v> in VTT

Sottotitoli fatti a mano

  • 3-5 ore per ogni ora di video
  • Errori frequenti di sincronizzazione
  • Incoerenza tra cue
  • Tradurre moltiplica il costo per lingua
  • Noia garantita

Sottotitoli con VOCAP + IA

  • 3-5 minuti per ogni ora di video
  • Sincronizzazione perfetta a livello di frase
  • Regole CSA/BBC applicate per impostazione predefinita
  • Traduzione in 90 lingue nello stesso passaggio
  • Tempo libero per l'editing creativo

Casi d'uso reali

Podcaster video

Trasformano episodi YouTube e Spotify Video in contenuti accessibili e meglio indicizzati.

  • SRT per caricare su YouTube
  • VTT per il sito web del podcast
  • Traduzioni in inglese e portoghese
  • Migliora la SEO del video

Corsi online e formatori

Generano sottotitoli accessibili per le loro accademie su Moodle, Teachable o sito proprio.

  • VTT per lettore HTML5
  • Capitoli in VTT separato
  • Conformità WCAG 2.2
  • Studenti in lingue diverse

Creator di Reels e Shorts

Sottotitoli bruciati o sidecar per Instagram, TikTok e YouTube Shorts.

  • SRT come fonte
  • Bruciatura tramite ffmpeg o CapCut
  • Stili per piattaforma
  • Migliora la retention dell'80%

Aziende e video corporate

Onboarding, formazione interna, video prodotto multilingue.

  • SRT per Premiere
  • Traduzione in inglese/francese
  • Accessibilità in intranet
  • Valorizzazione internazionale

Giornalisti e documentari

Interviste registrate con sottotitoli esatti per la trasmissione.

  • SRT compatibile con editor broadcast
  • Marcature dei parlanti in VTT
  • Citazioni con timestamp esatto
  • Versionamento in più lingue

Streamer ed editor di gaming

VOD di Twitch e YouTube Gaming con sottotitoli automatici.

  • SRT dal VOD lungo
  • Traduzione per pubblico globale
  • Migliore SEO su YouTube
  • Accessibilità della community

Genera i tuoi sottotitoli SRT e VTT in pochi minuti

Prova VOCAP gratis: 30 minuti di trascrizione con esportazione SRT e VTT incluse. Senza carta. Funziona su Mac, Windows, Linux, iPhone e Android da Safari o Chrome.

Inizia gratis

Domande frequenti

Qual è la differenza tra SRT e VTT?

SRT (SubRip Text) è il formato più vecchio e compatibile: è supportato da YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix e praticamente qualsiasi lettore. Usa timestamp con virgola come separatore decimale. VTT (WebVTT) è lo standard moderno del web: viene utilizzato dai lettori HTML5 attraverso l'elemento <track>, supporta stili CSS, posizionamento del testo sullo schermo e commenti. Usa il punto come separatore decimale. Per il web moderno usa VTT, per video editato o caricato su piattaforme usa SRT.

Posso creare un SRT direttamente da un audio senza video?

Sì. SRT e VTT sono solo testo con timestamp, non contengono video. VOCAP genera il file da qualsiasi MP3, WAV, M4A o OGG. L'audio viene trascritto con Whisper, segmentato automaticamente in frasi di 3-6 secondi ed esportato come .srt o .vtt pronto per essere sincronizzato con il video che creerai successivamente o per essere usato come base per i sottotitoli di un podcast.

Come avviene la traduzione automatica di un SRT in un'altra lingua?

VOCAP trascrive l'audio nella sua lingua originale e, nello stesso processo, può tradurre il risultato in inglese, francese, tedesco, spagnolo, portoghese o altre 90 lingue mantenendo i timestamp. La traduzione viene effettuata da Claude dopo la trascrizione, frase per frase, in modo che ogni cue conservi la sua posizione temporale. Il risultato sono due file SRT/VTT: originale e tradotto.

Quale durata deve avere ogni riga di sottotitolo?

Le linee guida di CSA, BBC e Netflix coincidono: massimo 42 caratteri per riga, massimo 2 righe per cue, durata tra 1 e 6 secondi e velocità di lettura inferiore a 17 caratteri al secondo. VOCAP segmenta automaticamente rispettando questi limiti.

Perché YouTube accetta SRT e VTT ma li mostra in modo diverso?

YouTube acquisisce entrambi i formati ma internamente li converte nel proprio formato JSON3. Il risultato visivo è identico per lo spettatore. La differenza pratica è che VTT consente di includere metadati (NOTE), cue setting (posizione, allineamento) e formattazione (corsivo, grassetto) che SRT non supporta in modo standard.

Inizia a creare sottotitoli professionali oggi

30 minuti di trascrizione gratis con esportazione SRT e VTT. Senza carta di credito.

Prova VOCAP gratis
Prova VOCAP gratis 15 min di trascrizione
Inizia gratis →