Resposta rápida: um timestamp é a marca de tempo (HH:MM:SS) que indica o momento exato do áudio em que algo é dito. Em 2026, motores como o Whisper ou o gpt-4o-mini-transcribe geram-nos automaticamente com precisão de ±0,5-2 segundos a nível de segmento e ±100-300 ms a nível de palavra. Os formatos mais usados são SRT e VTT para legendas, JSON para automatização e texto simples com marcas tipo [00:01:23] para citações e revisão humana. O VOCAP devolve os quatro a partir do mesmo áudio.
Se já tiveste de procurar uma frase concreta numa gravação de duas horas, conheces o problema: texto sem tempos é texto desconfortável. Não consegues saltar ao minuto exato, não consegues citar com precisão, não consegues gerar legendas. Os timestamps resolvem tudo isso de uma vez.
Este guia explica o que são, que formato escolher, como se geram em 2026 com IA e que erros comuns evitar.
O que é um timestamp numa transcrição
Um timestamp (também chamado marca de tempo) é um valor que indica o momento do áudio em que uma palavra ou frase é dita. Costuma aparecer num destes formatos:
HH:MM:SS— horas, minutos, segundos. O mais legível para humanos.HH:MM:SS,mmmouHH:MM:SS.mmm— com milissegundos. Padrão SRT e VTT.segundosem valor decimal (83.42) — habitual em JSON e APIs.
Cada timestamp pode ser de início (start), de fim (end) ou ambos. Os formatos profissionais trazem sempre os dois: a legenda aparece em start e desaparece em end.
Para que servem os timestamps (casos reais)
1. Legendas sincronizadas
O caso mais óbvio: legendar vídeos do YouTube, cursos online, webinars, conteúdo social, acessibilidade. Sem timestamps, sem legendas. Formatos: SRT (universal) ou VTT (web HTML5).
2. Edição de vídeo e áudio
Os editores profissionais (Premiere, DaVinci Resolve, Final Cut) importam transcrições com timestamps para fazer edição baseada em texto: apagas uma palavra do transcript e o clip de vídeo é cortado sozinho. O Descript popularizou este fluxo e hoje é padrão.
3. Citações precisas em investigação, jornalismo e direito
Quando um jornalista cita "como o ministro declarou ao minuto 14:23 da conferência de imprensa…" ou um advogado refere "ver depoimento, áudio da testemunha, 00:42:18", essa precisão só é possível com timestamps. Investigadores qualitativos usam-nos para ancorar verbatims em gravações de entrevistas e focus groups.
4. Pesquisa e navegação dentro do áudio
Uma transcrição com timestamps transforma uma gravação de três horas numa pista navegável: procuras uma palavra-chave, vês a que minuto foi dita, saltas para lá. Essencial para podcasts longos, formações, arquivos de reuniões.
5. Capítulos automáticos para podcast e YouTube
O YouTube permite definir capítulos com marcas 00:05:30 Tema X na descrição. O Spotify e o Apple Podcasts suportam capítulos em alguns formatos. Gerá-los à mão é lento; com timestamps + análise IA do conteúdo obtêm-se em segundos.
6. Análise de falantes e participação
Combinando timestamps com diarização (separação de falantes) podes calcular quanto cada pessoa falou numa reunião, numa entrevista de RH ou num focus group. Útil para coaching comercial, equilíbrio de meetings, investigação.
Timestamps por segmento vs por palavra
Nem todos os timestamps têm a mesma granularidade. Há dois níveis e escolher o certo importa.
| Tipo | Granularidade | Quando usar | Exemplo |
|---|---|---|---|
| Por segmento | 5-15 segundos por bloco (frase ou parágrafo curto) | Legendas, texto navegável, citações humanas, capítulos | [00:01:23] Olá, bem-vindos ao podcast. |
| Por palavra | Cada palavra com start/end em milissegundos | Edição de vídeo baseada em texto, karaoke, captions animadas, análise quantitativa | {"word":"Olá","start":1.23,"end":1.45} |
Regra prática: se só vais ler a transcrição ou gerar legendas clássicas, os timestamps por segmento chegam. Se vais fazer edição de vídeo baseada em texto ou captions animadas estilo TikTok, precisas de word-level.
Formatos de saída com timestamps
SRT (SubRip Subtitle)
O padrão universal de legendas. Compreendido pelo YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix e praticamente qualquer player.
1
00:00:01,200 --> 00:00:04,800
Olá, bem-vindos ao podcast.
2
00:00:05,000 --> 00:00:09,500
Hoje falamos de timestamps em transcrições.
VTT (WebVTT)
Variante para HTML5 (tag <track>). Suporta posicionamento, estilos e metadados extra. Se o vídeo está embebido numa página web, VTT é o natural.
WEBVTT
00:00:01.200 --> 00:00:04.800
Olá, bem-vindos ao podcast.
00:00:05.000 --> 00:00:09.500
Hoje falamos de timestamps em transcrições.
JSON (estruturado)
Usado por APIs e automatizações. O Whisper devolve algo assim:
{
"text": "Olá, bem-vindos ao podcast.",
"segments": [
{
"id": 0,
"start": 1.20,
"end": 4.80,
"text": "Olá, bem-vindos ao podcast."
}
]
}
Texto simples com marcas [HH:MM:SS]
O mais cómodo para ler, citar e partilhar. Preferido por jornalistas, investigadores e equipas de atas.
[00:00:01] Olá, bem-vindos ao podcast.
[00:00:05] Hoje falamos de timestamps em transcrições.
[00:00:14] Primeiro ponto: diferença entre segmento e palavra.
TSV / CSV
Útil quando precisas de passar a transcrição para Excel, BigQuery ou uma análise tabular. Cada linha é um segmento com colunas start, end, text.
Como se geram timestamps em 2026
Há três caminhos:
- Whisper diretamente (OpenAI ou local). Tanto a API da OpenAI como as versões open-source (whisper.cpp, faster-whisper) devolvem timestamps por segmento por defeito e por palavra ativando
word_timestamps=True. É a base técnica que usa a maioria das ferramentas modernas. - Ferramentas SaaS sobre Whisper ou semelhantes. VOCAP, Otter, Descript, Riverside, etc. Processam o áudio com Whisper ou motores próprios e expõem os timestamps na sua interface, com exportação em SRT/VTT/JSON sem ter de tocar em código.
- Manual com software de legendagem. Aegisub, Subtitle Edit, Kapwing. Permitem marcar timestamps à mão sobre uma transcrição já feita. Útil para correções finas, não para volume.
Dado 2026: O Whisper continua a ser o motor de referência para transcrição multilingue com timestamps em português. O gpt-4o-mini-transcribe oferece resultados comparáveis ou melhores em muitos idiomas e está a tornar-se a opção por defeito em ferramentas modernas como o VOCAP.
Passo a passo: transcrever com timestamps no VOCAP
- Carrega o ficheiro. MP3, WAV, M4A, MP4, OGG ou FLAC, até 150 MB. Se pesar mais, comprime para 64 kbps mono (é o que o motor processa internamente; não perdes qualidade de transcrição).
- Espera pelo processamento. Uma hora de áudio demora entre 2 e 8 minutos consoante o idioma e a fila. Áudios longos (1-3 h) vão por processamento assíncrono e recebes notificação no fim.
- Revê a transcrição. Na vista web verás o texto com marcas
[HH:MM:SS]no início de cada bloco, mais resumo executivo, pontos-chave, tarefas e decisões gerados pelo Claude. - Exporta no formato que precisares. Texto com timestamps para citar, SRT/VTT para legendas, JSON para automatizar (Zapier, Make, n8n).
- Corrige nomes próprios e números. É onde os modelos mais falham. Uma passagem de 2-3 minutos por hora de áudio basta para chegar aos 99 %.
Experimenta o VOCAP com 30 minutos grátis
Carrega um áudio e descarrega a transcrição com timestamps em SRT, VTT ou texto com [HH:MM:SS]. Sem cartão.
Experimentar VOCAP grátisPrecisão típica e limites
Com áudio limpo (um único falante, microfone decente, sem ruído) a precisão típica do Whisper em 2026 é:
- Texto: 95-98 % em português europeu, brasileiro e nas principais línguas.
- Timestamps por segmento: ±0,5 a ±2 segundos.
- Timestamps por palavra: ±100 a ±300 ms com boa articulação.
Onde a precisão cai:
- Áudio com eco, ruído de fundo ou várias vozes sobrepostas.
- Sotaques muito marcados ou dialetos minoritários.
- Música ou efeitos sonoros que o modelo tenta interpretar como fala.
- Silêncios longos: por vezes o modelo "alucina" texto onde não há.
- Mudanças bruscas de falante a meio de uma palavra.
Erros comuns a evitar
- Pedir word-level quando só precisas de segmentos. Triplica o tamanho do ficheiro e raramente acrescenta valor para legendas clássicas.
- Misturar separadores decimais. SRT usa vírgula (
00:00:01,200), VTT usa ponto (00:00:01.200). Confundi-los parte o parser. - Não verificar a sincronia. Os timestamps automáticos são bons, não perfeitos. Verifica em 3-4 pontos do áudio antes de publicar legendas.
- Legendas demasiado longas. Mais de 42 caracteres por linha ou mais de 7 segundos por bloco prejudicam a leitura. Divide.
- Esquecer o idioma. Especificar o idioma (em vez de o deixar em automático) acelera o processo e melhora ligeiramente a precisão, sobretudo em áudios curtos.
- Legendar sem rever os nomes próprios. "VOCAP" pode sair como "vocap", "Bocap" ou "Vokap". O mesmo para marcas, cidades e siglas.
- Confiar 100 % nos silêncios. Se o modelo não detetar bem os silêncios, os timestamps de início podem adiantar-se 200-500 ms. Olha para os primeiros 30 segundos manualmente.
Perguntas frequentes
O que é um timestamp numa transcrição?
A marca que indica o momento exato do áudio (HH:MM:SS) em que uma palavra ou frase é dita. Permite localizar fragmentos sem ouvir tudo, gerar legendas sincronizadas e citar com precisão.
Diferença entre timestamps por palavra e por segmento?
Por segmento: início/fim de cada frase (5-15 s). Por palavra: cada palavra ao milissegundo. Legendas clássicas: segmento. Edição baseada em texto, karaoke, análise quantitativa: palavra.
Que formatos com timestamps existem?
SRT (padrão universal), VTT (HTML5 web), JSON (APIs e automação), TSV/CSV (tabular) e texto simples com marcas [HH:MM:SS] para leitura humana. O VOCAP exporta os principais.
Que precisão têm os timestamps automáticos?
Com Whisper e áudio limpo, ±0,5 a ±2 s a nível de segmento e ±100-300 ms a nível de palavra. A precisão cai com ruído, vozes sobrepostas ou sotaques marcados.
Posso adicionar timestamps a uma transcrição já existente?
Sim, com software como Aegisub ou Subtitle Edit, mas leva 4-6 horas por hora de áudio. Mais rápido reprocessar o original com um motor que devolva timestamps automáticos.
Como obtenho timestamps no VOCAP?
Carrega o áudio e o VOCAP devolve a transcrição com marcas [HH:MM:SS] no início de cada segmento, descarregável como SRT/VTT para legendas ou como texto com timestamps. Whisper por baixo.