Inicio Precos Blog

Transcrever Áudio com Timestamps (Marcas de Tempo) com IA: Guia 2026

Formatos SRT, VTT, JSON e texto com [00:00:00]. Para que servem, como se geram e onde falham em 2026.

Resposta rápida: um timestamp é a marca de tempo (HH:MM:SS) que indica o momento exato do áudio em que algo é dito. Em 2026, motores como o Whisper ou o gpt-4o-mini-transcribe geram-nos automaticamente com precisão de ±0,5-2 segundos a nível de segmento e ±100-300 ms a nível de palavra. Os formatos mais usados são SRT e VTT para legendas, JSON para automatização e texto simples com marcas tipo [00:01:23] para citações e revisão humana. O VOCAP devolve os quatro a partir do mesmo áudio.

Se já tiveste de procurar uma frase concreta numa gravação de duas horas, conheces o problema: texto sem tempos é texto desconfortável. Não consegues saltar ao minuto exato, não consegues citar com precisão, não consegues gerar legendas. Os timestamps resolvem tudo isso de uma vez.

Este guia explica o que são, que formato escolher, como se geram em 2026 com IA e que erros comuns evitar.

O que é um timestamp numa transcrição

Um timestamp (também chamado marca de tempo) é um valor que indica o momento do áudio em que uma palavra ou frase é dita. Costuma aparecer num destes formatos:

Cada timestamp pode ser de início (start), de fim (end) ou ambos. Os formatos profissionais trazem sempre os dois: a legenda aparece em start e desaparece em end.

Para que servem os timestamps (casos reais)

1. Legendas sincronizadas

O caso mais óbvio: legendar vídeos do YouTube, cursos online, webinars, conteúdo social, acessibilidade. Sem timestamps, sem legendas. Formatos: SRT (universal) ou VTT (web HTML5).

2. Edição de vídeo e áudio

Os editores profissionais (Premiere, DaVinci Resolve, Final Cut) importam transcrições com timestamps para fazer edição baseada em texto: apagas uma palavra do transcript e o clip de vídeo é cortado sozinho. O Descript popularizou este fluxo e hoje é padrão.

3. Citações precisas em investigação, jornalismo e direito

Quando um jornalista cita "como o ministro declarou ao minuto 14:23 da conferência de imprensa…" ou um advogado refere "ver depoimento, áudio da testemunha, 00:42:18", essa precisão só é possível com timestamps. Investigadores qualitativos usam-nos para ancorar verbatims em gravações de entrevistas e focus groups.

4. Pesquisa e navegação dentro do áudio

Uma transcrição com timestamps transforma uma gravação de três horas numa pista navegável: procuras uma palavra-chave, vês a que minuto foi dita, saltas para lá. Essencial para podcasts longos, formações, arquivos de reuniões.

5. Capítulos automáticos para podcast e YouTube

O YouTube permite definir capítulos com marcas 00:05:30 Tema X na descrição. O Spotify e o Apple Podcasts suportam capítulos em alguns formatos. Gerá-los à mão é lento; com timestamps + análise IA do conteúdo obtêm-se em segundos.

6. Análise de falantes e participação

Combinando timestamps com diarização (separação de falantes) podes calcular quanto cada pessoa falou numa reunião, numa entrevista de RH ou num focus group. Útil para coaching comercial, equilíbrio de meetings, investigação.

Timestamps por segmento vs por palavra

Nem todos os timestamps têm a mesma granularidade. Há dois níveis e escolher o certo importa.

Tipo Granularidade Quando usar Exemplo
Por segmento 5-15 segundos por bloco (frase ou parágrafo curto) Legendas, texto navegável, citações humanas, capítulos [00:01:23] Olá, bem-vindos ao podcast.
Por palavra Cada palavra com start/end em milissegundos Edição de vídeo baseada em texto, karaoke, captions animadas, análise quantitativa {"word":"Olá","start":1.23,"end":1.45}

Regra prática: se só vais ler a transcrição ou gerar legendas clássicas, os timestamps por segmento chegam. Se vais fazer edição de vídeo baseada em texto ou captions animadas estilo TikTok, precisas de word-level.

Formatos de saída com timestamps

SRT (SubRip Subtitle)

O padrão universal de legendas. Compreendido pelo YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix e praticamente qualquer player.

1
00:00:01,200 --> 00:00:04,800
Olá, bem-vindos ao podcast.

2
00:00:05,000 --> 00:00:09,500
Hoje falamos de timestamps em transcrições.

VTT (WebVTT)

Variante para HTML5 (tag <track>). Suporta posicionamento, estilos e metadados extra. Se o vídeo está embebido numa página web, VTT é o natural.

WEBVTT

00:00:01.200 --> 00:00:04.800
Olá, bem-vindos ao podcast.

00:00:05.000 --> 00:00:09.500
Hoje falamos de timestamps em transcrições.

JSON (estruturado)

Usado por APIs e automatizações. O Whisper devolve algo assim:

{
  "text": "Olá, bem-vindos ao podcast.",
  "segments": [
    {
      "id": 0,
      "start": 1.20,
      "end": 4.80,
      "text": "Olá, bem-vindos ao podcast."
    }
  ]
}

Texto simples com marcas [HH:MM:SS]

O mais cómodo para ler, citar e partilhar. Preferido por jornalistas, investigadores e equipas de atas.

[00:00:01] Olá, bem-vindos ao podcast.
[00:00:05] Hoje falamos de timestamps em transcrições.
[00:00:14] Primeiro ponto: diferença entre segmento e palavra.

TSV / CSV

Útil quando precisas de passar a transcrição para Excel, BigQuery ou uma análise tabular. Cada linha é um segmento com colunas start, end, text.

Como se geram timestamps em 2026

Há três caminhos:

  1. Whisper diretamente (OpenAI ou local). Tanto a API da OpenAI como as versões open-source (whisper.cpp, faster-whisper) devolvem timestamps por segmento por defeito e por palavra ativando word_timestamps=True. É a base técnica que usa a maioria das ferramentas modernas.
  2. Ferramentas SaaS sobre Whisper ou semelhantes. VOCAP, Otter, Descript, Riverside, etc. Processam o áudio com Whisper ou motores próprios e expõem os timestamps na sua interface, com exportação em SRT/VTT/JSON sem ter de tocar em código.
  3. Manual com software de legendagem. Aegisub, Subtitle Edit, Kapwing. Permitem marcar timestamps à mão sobre uma transcrição já feita. Útil para correções finas, não para volume.

Dado 2026: O Whisper continua a ser o motor de referência para transcrição multilingue com timestamps em português. O gpt-4o-mini-transcribe oferece resultados comparáveis ou melhores em muitos idiomas e está a tornar-se a opção por defeito em ferramentas modernas como o VOCAP.

Passo a passo: transcrever com timestamps no VOCAP

  1. Carrega o ficheiro. MP3, WAV, M4A, MP4, OGG ou FLAC, até 150 MB. Se pesar mais, comprime para 64 kbps mono (é o que o motor processa internamente; não perdes qualidade de transcrição).
  2. Espera pelo processamento. Uma hora de áudio demora entre 2 e 8 minutos consoante o idioma e a fila. Áudios longos (1-3 h) vão por processamento assíncrono e recebes notificação no fim.
  3. Revê a transcrição. Na vista web verás o texto com marcas [HH:MM:SS] no início de cada bloco, mais resumo executivo, pontos-chave, tarefas e decisões gerados pelo Claude.
  4. Exporta no formato que precisares. Texto com timestamps para citar, SRT/VTT para legendas, JSON para automatizar (Zapier, Make, n8n).
  5. Corrige nomes próprios e números. É onde os modelos mais falham. Uma passagem de 2-3 minutos por hora de áudio basta para chegar aos 99 %.

Experimenta o VOCAP com 30 minutos grátis

Carrega um áudio e descarrega a transcrição com timestamps em SRT, VTT ou texto com [HH:MM:SS]. Sem cartão.

Experimentar VOCAP grátis

Precisão típica e limites

Com áudio limpo (um único falante, microfone decente, sem ruído) a precisão típica do Whisper em 2026 é:

Onde a precisão cai:

Erros comuns a evitar

Perguntas frequentes

O que é um timestamp numa transcrição?

A marca que indica o momento exato do áudio (HH:MM:SS) em que uma palavra ou frase é dita. Permite localizar fragmentos sem ouvir tudo, gerar legendas sincronizadas e citar com precisão.

Diferença entre timestamps por palavra e por segmento?

Por segmento: início/fim de cada frase (5-15 s). Por palavra: cada palavra ao milissegundo. Legendas clássicas: segmento. Edição baseada em texto, karaoke, análise quantitativa: palavra.

Que formatos com timestamps existem?

SRT (padrão universal), VTT (HTML5 web), JSON (APIs e automação), TSV/CSV (tabular) e texto simples com marcas [HH:MM:SS] para leitura humana. O VOCAP exporta os principais.

Que precisão têm os timestamps automáticos?

Com Whisper e áudio limpo, ±0,5 a ±2 s a nível de segmento e ±100-300 ms a nível de palavra. A precisão cai com ruído, vozes sobrepostas ou sotaques marcados.

Posso adicionar timestamps a uma transcrição já existente?

Sim, com software como Aegisub ou Subtitle Edit, mas leva 4-6 horas por hora de áudio. Mais rápido reprocessar o original com um motor que devolva timestamps automáticos.

Como obtenho timestamps no VOCAP?

Carrega o áudio e o VOCAP devolve a transcrição com marcas [HH:MM:SS] no início de cada segmento, descarregável como SRT/VTT para legendas ou como texto com timestamps. Whisper por baixo.

Experimente VOCAP gratis 15 min de transcricao
Comecar gratis →