Risposta rapida: un timestamp è il codice temporale (HH:MM:SS) che indica il momento esatto dell'audio in cui qualcosa viene detto. Nel 2026, motori come Whisper o gpt-4o-mini-transcribe li generano automaticamente con precisione di ±0,5-2 secondi a livello di segmento e ±100-300 ms a livello di parola. I formati più usati sono SRT e VTT per i sottotitoli, JSON per le automazioni e testo semplice con marche tipo [00:01:23] per citazioni e revisione umana. VOCAP restituisce tutti e quattro a partire dallo stesso audio.
Se ti è mai capitato di cercare una frase precisa in una registrazione di due ore, conosci il problema: il testo senza tempi è testo scomodo. Non puoi saltare al minuto esatto, non puoi citare con precisione, non puoi generare sottotitoli. I timestamp risolvono tutto questo in un colpo solo.
Questa guida spiega cosa sono, quale formato serve quando, come si generano nel 2026 con l'IA e quali errori comuni evitare.
Cos'è un timestamp in una trascrizione
Un timestamp (o marca temporale) è un valore che indica il momento dell'audio in cui viene pronunciata una parola o frase. Si esprime in uno di questi formati:
HH:MM:SS— ore, minuti, secondi. Il più leggibile per gli umani.HH:MM:SS,mmmoHH:MM:SS.mmm— con millisecondi. Standard SRT e VTT.secondiin valore decimale (83.42) — comune in JSON e API.
Ogni timestamp può essere di inizio (start), fine (end) o entrambi. I formati professionali portano sempre entrambi: il sottotitolo appare a start e scompare a end.
A cosa servono i timestamp (casi reali)
1. Sottotitoli sincronizzati
Il caso più ovvio: sottotitolare video YouTube, corsi online, webinar, contenuti social, accessibilità. Senza timestamp, niente sottotitoli. Formati: SRT (universale) o VTT (web HTML5).
2. Montaggio video e audio
Gli editor professionali (Premiere, DaVinci Resolve, Final Cut) importano trascrizioni con timestamp per fare montaggio basato su testo: cancelli una parola dal transcript e il clip video viene tagliato da solo. Descript ha popolarizzato questo flusso ed è oggi standard.
3. Citazioni precise in ricerca, giornalismo e diritto
Quando un giornalista cita "come ha dichiarato il ministro al minuto 14:23 della conferenza stampa…" o un avvocato fa riferimento a "vedi deposizione, audio della testimone, 00:42:18", quella precisione è possibile solo con timestamp. I ricercatori qualitativi li usano per ancorare verbatim in registrazioni di interviste e focus group.
4. Ricerca e navigazione dentro l'audio
Una trascrizione con timestamp trasforma una registrazione di tre ore in una traccia navigabile: cerchi una parola chiave, vedi a quale minuto è stata detta, salti lì. Essenziale per podcast lunghi, formazioni, archivi di riunioni.
5. Capitoli automatici per podcast e YouTube
YouTube permette di definire capitoli con marche 00:05:30 Argomento X nella descrizione. Spotify e Apple Podcasts supportano i capitoli in alcuni formati. Generarli a mano è lento; con timestamp + analisi IA del contenuto si ottengono in secondi.
6. Analisi dei parlanti e partecipazione
Combinando timestamp e diarizzazione (separazione dei parlanti) si può calcolare quanto ha parlato ogni persona in una riunione, in un colloquio HR o in un focus group. Utile per coaching commerciale, equilibrio dei meeting, ricerca.
Timestamp per segmento vs per parola
Non tutti i timestamp hanno la stessa granularità. Esistono due livelli, e scegliere quello giusto conta.
| Tipo | Granularità | Quando usarlo | Esempio |
|---|---|---|---|
| Per segmento | 5-15 secondi per blocco (frase o paragrafo breve) | Sottotitoli, testo navigabile, citazioni umane, capitoli | [00:01:23] Ciao, benvenuti al podcast. |
| Per parola | Ogni parola con start/end in millisecondi | Montaggio video basato su testo, karaoke, caption animate, analisi quantitativa | {"word":"Ciao","start":1.23,"end":1.45} |
Regola pratica: se devi solo leggere la trascrizione o generare sottotitoli classici, i timestamp per segmento bastano. Se fai montaggio video basato su testo o caption animate stile TikTok, ti serve word-level.
Formati di output con timestamp
SRT (SubRip Subtitle)
Lo standard universale dei sottotitoli. Lo capiscono YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix e praticamente qualsiasi player.
1
00:00:01,200 --> 00:00:04,800
Ciao, benvenuti al podcast.
2
00:00:05,000 --> 00:00:09,500
Oggi parliamo di timestamp nelle trascrizioni.
VTT (WebVTT)
Variante per HTML5 (tag <track>). Supporta posizionamento, stili e metadati extra. Se il video è incorporato in una pagina web, VTT è la scelta naturale.
WEBVTT
00:00:01.200 --> 00:00:04.800
Ciao, benvenuti al podcast.
00:00:05.000 --> 00:00:09.500
Oggi parliamo di timestamp nelle trascrizioni.
JSON (strutturato)
Lo usano API e automazioni. Whisper restituisce qualcosa come:
{
"text": "Ciao, benvenuti al podcast.",
"segments": [
{
"id": 0,
"start": 1.20,
"end": 4.80,
"text": "Ciao, benvenuti al podcast."
}
]
}
Testo semplice con marche [HH:MM:SS]
Il più comodo da leggere, citare e condividere. Preferito da giornalisti, ricercatori e team di verbali.
[00:00:01] Ciao, benvenuti al podcast.
[00:00:05] Oggi parliamo di timestamp nelle trascrizioni.
[00:00:14] Primo punto: differenza tra segmento e parola.
TSV / CSV
Utile quando devi portare la trascrizione in Excel, BigQuery o un'analisi tabellare. Ogni riga è un segmento con colonne start, end, text.
Come si generano i timestamp nel 2026
Tre strade:
- Whisper diretto (OpenAI o locale). Sia l'API OpenAI sia le versioni open-source (whisper.cpp, faster-whisper) restituiscono timestamp per segmento di default e per parola attivando
word_timestamps=True. È la base tecnica della maggior parte degli strumenti moderni. - Strumenti SaaS basati su Whisper o simili. VOCAP, Otter, Descript, Riverside, ecc. Elaborano l'audio con Whisper o motori proprietari ed espongono i timestamp nell'interfaccia, con esportazione SRT/VTT/JSON senza dover toccare codice.
- Manuale con software di sottotitolazione. Aegisub, Subtitle Edit, Kapwing. Permettono di marcare timestamp a mano su una trascrizione esistente. Utile per correzioni fini, non per volumi.
Dato 2026: Whisper resta il motore di riferimento per la trascrizione multilingue con timestamp in italiano. gpt-4o-mini-transcribe offre risultati paragonabili o migliori in molte lingue e sta diventando l'opzione predefinita in strumenti moderni come VOCAP.
Passo passo: trascrivere con timestamp in VOCAP
- Carica il file. MP3, WAV, M4A, MP4, OGG o FLAC, fino a 150 MB. Se pesa di più, comprimi a 64 kbps mono (è ciò che il motore elabora internamente; non perdi qualità di trascrizione).
- Aspetta l'elaborazione. Un'ora di audio richiede tra 2 e 8 minuti a seconda della lingua e della coda. Audio lunghi (1-3 h) vanno in elaborazione asincrona e ricevi notifica al termine.
- Rivedi la trascrizione. La vista web mostra il testo con marche
[HH:MM:SS]all'inizio di ogni blocco, oltre a un riassunto esecutivo, punti chiave, attività e decisioni generati da Claude. - Esporta nel formato che ti serve. Testo con timestamp per citare, SRT/VTT per sottotitoli, JSON per automatizzare (Zapier, Make, n8n).
- Correggi nomi propri e cifre. È dove i modelli sbagliano di più. Una passata di 2-3 minuti per ora di audio basta per arrivare al 99 %.
Prova VOCAP con 30 minuti gratis
Carica un audio e scarica la trascrizione con timestamp in SRT, VTT o testo con [HH:MM:SS]. Senza carta.
Prova VOCAP gratisPrecisione tipica e limiti
Con audio pulito (un solo parlante, microfono decente, senza rumore) la precisione tipica di Whisper nel 2026 è:
- Testo: 95-98 % in italiano standard e nelle principali lingue.
- Timestamp per segmento: ±0,5-2 secondi.
- Timestamp per parola: ±100-300 ms con buona articolazione.
Dove la precisione cala:
- Audio con eco, rumore di fondo o più voci sovrapposte.
- Accenti molto marcati o dialetti minoritari.
- Musica o effetti sonori che il modello cerca di interpretare come parlato.
- Silenzi lunghi: a volte il modello "allucina" testo dove non c'è.
- Cambi bruschi di parlante a metà parola.
Errori comuni da evitare
- Chiedere word-level quando bastano i segmenti. Triplica la dimensione del file e raramente aggiunge valore per sottotitoli classici.
- Mischiare separatori decimali. SRT usa la virgola (
00:00:01,200), VTT usa il punto (00:00:01.200). Confonderli rompe il parser. - Non verificare la sincronia. I timestamp automatici sono buoni, non perfetti. Controlla in 3-4 punti dell'audio prima di pubblicare i sottotitoli.
- Sottotitoli troppo lunghi. Più di 42 caratteri per riga o più di 7 secondi per blocco peggiorano la lettura. Dividi.
- Dimenticare la lingua. Specificare la lingua (invece dell'auto-rilevamento) accelera e migliora leggermente la precisione, soprattutto su audio brevi.
- Sottotitolare senza rivedere i nomi propri. "VOCAP" può uscire come "vocap", "Bocap" o "Vokap". Lo stesso per marchi, città e sigle.
- Fidarsi al 100 % dei silenzi. Se il modello non rileva bene i silenzi, i timestamp di inizio possono anticiparsi di 200-500 ms. Controlla i primi 30 secondi a mano.
Domande frequenti
Cos'è un timestamp in una trascrizione?
La marca che indica il momento esatto dell'audio (HH:MM:SS) in cui viene pronunciata una parola o frase. Permette di localizzare frammenti senza riascoltare tutto, generare sottotitoli sincronizzati e citare con precisione.
Differenza tra timestamp per parola e per segmento?
Per segmento: inizio/fine di ogni frase (5-15 s). Per parola: ogni parola al millisecondo. Sottotitoli classici: segmento. Montaggio basato su testo, karaoke, analisi quantitativa: parola.
Quali formati con timestamp esistono?
SRT (standard universale), VTT (HTML5 web), JSON (API e automazione), TSV/CSV (tabellare) e testo semplice con marche [HH:MM:SS] per la lettura umana. VOCAP esporta i principali.
Quanto sono precisi i timestamp automatici?
Con Whisper e audio pulito, ±0,5-2 s a livello di segmento e ±100-300 ms a livello di parola. La precisione cala con rumore, voci sovrapposte o accenti marcati.
Posso aggiungere timestamp a una trascrizione esistente?
Sì, con software come Aegisub o Subtitle Edit, ma servono 4-6 ore per ora di audio. Più rapido rielaborare l'originale con un motore che restituisca timestamp automatici.
Come ottengo timestamp in VOCAP?
Carica l'audio e VOCAP restituisce la trascrizione con marche [HH:MM:SS] all'inizio di ogni segmento, scaricabile come SRT/VTT per sottotitoli o come testo con timestamp. Whisper sotto il cofano.