Home Prezzi Blog

Trascrivere Audio con Timestamp (Marche Temporali) con IA: Guida 2026

Formati SRT, VTT, JSON e testo con [00:00:00]. A cosa servono, come si generano e dove falliscono nel 2026.

Risposta rapida: un timestamp è il codice temporale (HH:MM:SS) che indica il momento esatto dell'audio in cui qualcosa viene detto. Nel 2026, motori come Whisper o gpt-4o-mini-transcribe li generano automaticamente con precisione di ±0,5-2 secondi a livello di segmento e ±100-300 ms a livello di parola. I formati più usati sono SRT e VTT per i sottotitoli, JSON per le automazioni e testo semplice con marche tipo [00:01:23] per citazioni e revisione umana. VOCAP restituisce tutti e quattro a partire dallo stesso audio.

Se ti è mai capitato di cercare una frase precisa in una registrazione di due ore, conosci il problema: il testo senza tempi è testo scomodo. Non puoi saltare al minuto esatto, non puoi citare con precisione, non puoi generare sottotitoli. I timestamp risolvono tutto questo in un colpo solo.

Questa guida spiega cosa sono, quale formato serve quando, come si generano nel 2026 con l'IA e quali errori comuni evitare.

Cos'è un timestamp in una trascrizione

Un timestamp (o marca temporale) è un valore che indica il momento dell'audio in cui viene pronunciata una parola o frase. Si esprime in uno di questi formati:

Ogni timestamp può essere di inizio (start), fine (end) o entrambi. I formati professionali portano sempre entrambi: il sottotitolo appare a start e scompare a end.

A cosa servono i timestamp (casi reali)

1. Sottotitoli sincronizzati

Il caso più ovvio: sottotitolare video YouTube, corsi online, webinar, contenuti social, accessibilità. Senza timestamp, niente sottotitoli. Formati: SRT (universale) o VTT (web HTML5).

2. Montaggio video e audio

Gli editor professionali (Premiere, DaVinci Resolve, Final Cut) importano trascrizioni con timestamp per fare montaggio basato su testo: cancelli una parola dal transcript e il clip video viene tagliato da solo. Descript ha popolarizzato questo flusso ed è oggi standard.

3. Citazioni precise in ricerca, giornalismo e diritto

Quando un giornalista cita "come ha dichiarato il ministro al minuto 14:23 della conferenza stampa…" o un avvocato fa riferimento a "vedi deposizione, audio della testimone, 00:42:18", quella precisione è possibile solo con timestamp. I ricercatori qualitativi li usano per ancorare verbatim in registrazioni di interviste e focus group.

4. Ricerca e navigazione dentro l'audio

Una trascrizione con timestamp trasforma una registrazione di tre ore in una traccia navigabile: cerchi una parola chiave, vedi a quale minuto è stata detta, salti lì. Essenziale per podcast lunghi, formazioni, archivi di riunioni.

5. Capitoli automatici per podcast e YouTube

YouTube permette di definire capitoli con marche 00:05:30 Argomento X nella descrizione. Spotify e Apple Podcasts supportano i capitoli in alcuni formati. Generarli a mano è lento; con timestamp + analisi IA del contenuto si ottengono in secondi.

6. Analisi dei parlanti e partecipazione

Combinando timestamp e diarizzazione (separazione dei parlanti) si può calcolare quanto ha parlato ogni persona in una riunione, in un colloquio HR o in un focus group. Utile per coaching commerciale, equilibrio dei meeting, ricerca.

Timestamp per segmento vs per parola

Non tutti i timestamp hanno la stessa granularità. Esistono due livelli, e scegliere quello giusto conta.

Tipo Granularità Quando usarlo Esempio
Per segmento 5-15 secondi per blocco (frase o paragrafo breve) Sottotitoli, testo navigabile, citazioni umane, capitoli [00:01:23] Ciao, benvenuti al podcast.
Per parola Ogni parola con start/end in millisecondi Montaggio video basato su testo, karaoke, caption animate, analisi quantitativa {"word":"Ciao","start":1.23,"end":1.45}

Regola pratica: se devi solo leggere la trascrizione o generare sottotitoli classici, i timestamp per segmento bastano. Se fai montaggio video basato su testo o caption animate stile TikTok, ti serve word-level.

Formati di output con timestamp

SRT (SubRip Subtitle)

Lo standard universale dei sottotitoli. Lo capiscono YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix e praticamente qualsiasi player.

1
00:00:01,200 --> 00:00:04,800
Ciao, benvenuti al podcast.

2
00:00:05,000 --> 00:00:09,500
Oggi parliamo di timestamp nelle trascrizioni.

VTT (WebVTT)

Variante per HTML5 (tag <track>). Supporta posizionamento, stili e metadati extra. Se il video è incorporato in una pagina web, VTT è la scelta naturale.

WEBVTT

00:00:01.200 --> 00:00:04.800
Ciao, benvenuti al podcast.

00:00:05.000 --> 00:00:09.500
Oggi parliamo di timestamp nelle trascrizioni.

JSON (strutturato)

Lo usano API e automazioni. Whisper restituisce qualcosa come:

{
  "text": "Ciao, benvenuti al podcast.",
  "segments": [
    {
      "id": 0,
      "start": 1.20,
      "end": 4.80,
      "text": "Ciao, benvenuti al podcast."
    }
  ]
}

Testo semplice con marche [HH:MM:SS]

Il più comodo da leggere, citare e condividere. Preferito da giornalisti, ricercatori e team di verbali.

[00:00:01] Ciao, benvenuti al podcast.
[00:00:05] Oggi parliamo di timestamp nelle trascrizioni.
[00:00:14] Primo punto: differenza tra segmento e parola.

TSV / CSV

Utile quando devi portare la trascrizione in Excel, BigQuery o un'analisi tabellare. Ogni riga è un segmento con colonne start, end, text.

Come si generano i timestamp nel 2026

Tre strade:

  1. Whisper diretto (OpenAI o locale). Sia l'API OpenAI sia le versioni open-source (whisper.cpp, faster-whisper) restituiscono timestamp per segmento di default e per parola attivando word_timestamps=True. È la base tecnica della maggior parte degli strumenti moderni.
  2. Strumenti SaaS basati su Whisper o simili. VOCAP, Otter, Descript, Riverside, ecc. Elaborano l'audio con Whisper o motori proprietari ed espongono i timestamp nell'interfaccia, con esportazione SRT/VTT/JSON senza dover toccare codice.
  3. Manuale con software di sottotitolazione. Aegisub, Subtitle Edit, Kapwing. Permettono di marcare timestamp a mano su una trascrizione esistente. Utile per correzioni fini, non per volumi.

Dato 2026: Whisper resta il motore di riferimento per la trascrizione multilingue con timestamp in italiano. gpt-4o-mini-transcribe offre risultati paragonabili o migliori in molte lingue e sta diventando l'opzione predefinita in strumenti moderni come VOCAP.

Passo passo: trascrivere con timestamp in VOCAP

  1. Carica il file. MP3, WAV, M4A, MP4, OGG o FLAC, fino a 150 MB. Se pesa di più, comprimi a 64 kbps mono (è ciò che il motore elabora internamente; non perdi qualità di trascrizione).
  2. Aspetta l'elaborazione. Un'ora di audio richiede tra 2 e 8 minuti a seconda della lingua e della coda. Audio lunghi (1-3 h) vanno in elaborazione asincrona e ricevi notifica al termine.
  3. Rivedi la trascrizione. La vista web mostra il testo con marche [HH:MM:SS] all'inizio di ogni blocco, oltre a un riassunto esecutivo, punti chiave, attività e decisioni generati da Claude.
  4. Esporta nel formato che ti serve. Testo con timestamp per citare, SRT/VTT per sottotitoli, JSON per automatizzare (Zapier, Make, n8n).
  5. Correggi nomi propri e cifre. È dove i modelli sbagliano di più. Una passata di 2-3 minuti per ora di audio basta per arrivare al 99 %.

Prova VOCAP con 30 minuti gratis

Carica un audio e scarica la trascrizione con timestamp in SRT, VTT o testo con [HH:MM:SS]. Senza carta.

Prova VOCAP gratis

Precisione tipica e limiti

Con audio pulito (un solo parlante, microfono decente, senza rumore) la precisione tipica di Whisper nel 2026 è:

Dove la precisione cala:

Errori comuni da evitare

Domande frequenti

Cos'è un timestamp in una trascrizione?

La marca che indica il momento esatto dell'audio (HH:MM:SS) in cui viene pronunciata una parola o frase. Permette di localizzare frammenti senza riascoltare tutto, generare sottotitoli sincronizzati e citare con precisione.

Differenza tra timestamp per parola e per segmento?

Per segmento: inizio/fine di ogni frase (5-15 s). Per parola: ogni parola al millisecondo. Sottotitoli classici: segmento. Montaggio basato su testo, karaoke, analisi quantitativa: parola.

Quali formati con timestamp esistono?

SRT (standard universale), VTT (HTML5 web), JSON (API e automazione), TSV/CSV (tabellare) e testo semplice con marche [HH:MM:SS] per la lettura umana. VOCAP esporta i principali.

Quanto sono precisi i timestamp automatici?

Con Whisper e audio pulito, ±0,5-2 s a livello di segmento e ±100-300 ms a livello di parola. La precisione cala con rumore, voci sovrapposte o accenti marcati.

Posso aggiungere timestamp a una trascrizione esistente?

Sì, con software come Aegisub o Subtitle Edit, ma servono 4-6 ore per ora di audio. Più rapido rielaborare l'originale con un motore che restituisca timestamp automatici.

Come ottengo timestamp in VOCAP?

Carica l'audio e VOCAP restituisce la trascrizione con marche [HH:MM:SS] all'inizio di ogni segmento, scaricabile come SRT/VTT per sottotitoli o come testo con timestamp. Whisper sotto il cofano.

Prova VOCAP gratis 15 min di trascrizione
Inizia gratis →