Qual é a diferença entre SRT e VTT?

SRT (SubRip Text) é o formato mais antigo e compatível: é suportado pelo YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix e praticamente qualquer leitor. Usa marcas de tempo com vírgula como separador decimal (00:00:01,500). VTT (WebVTT) é o padrão moderno da web: é utilizado pelos leitores HTML5 através do elemento , suporta estilos CSS, posicionamento de texto no ecrã, regiões, metadados e cue settings. Usa ponto como separador decimal (00:00:01.500). Para web moderna usa VTT; para vídeo editado ou carregado em plataformas, usa SRT.

Posso criar um SRT diretamente a partir de um áudio sem vídeo?

Sim. SRT e VTT são apenas texto com marcas de tempo, não contêm vídeo. O VOCAP gera o ficheiro a partir de qualquer MP3, WAV, M4A ou OGG. O áudio é transcrito com Whisper, segmentado automaticamente em frases de 3-6 segundos e exportado como .srt ou .vtt pronto a sincronizar com o vídeo que criares depois ou para usar como base para legendas de um podcast.

Como se faz a tradução automática de um SRT para outro idioma?

O VOCAP transcreve o áudio no seu idioma original e, no mesmo processo, pode traduzir o resultado para inglês, francês, alemão, italiano, espanhol ou outros 90 idiomas mantendo as marcas de tempo. A tradução é feita por Claude após a transcrição, frase a frase, para que cada cue mantenha a sua posição temporal. O resultado são dois ficheiros SRT/VTT: original e traduzido, que o YouTube e os leitores HTML5 podem oferecer como faixas alternativas.

Qual deve ser a duração de cada linha de legenda?

As diretrizes do CSA, BBC e Netflix coincidem: máximo 42 caracteres por linha, máximo 2 linhas por cue, duração entre 1 e 6 segundos e uma velocidade de leitura abaixo de 17 caracteres por segundo. O VOCAP segmenta automaticamente respeitando estes limites, mas se reescreveres um cue manualmente, mantém a regra. Cues demasiado longos cansam o espectador; cues demasiado curtos piscam.

Porque é que o YouTube aceita SRT e VTT mas os mostra de forma diferente?

O YouTube ingere ambos os formatos mas internamente converte-os no seu próprio formato JSON3. O resultado visual é idêntico para o espectador. A diferença prática é que VTT permite incluir metadados (NOTE), cue settings (posição, alinhamento) e formatação (itálico, negrito) que SRT não suporta de forma padrão. Se vais carregar no YouTube e não precisas de estilos, ambos servem; se queres manter posicionamento ou markup, usa VTT.

Como Criar Legendas SRT e VTT com IA [Guia 2026]

Publicar um vídeo sem legendas em 2026 é deixar de fora 85% dos espectadores que veem conteúdo em silêncio no metro, no escritório ou na cama. E criar legendas à mão continua a ser uma das tarefas mais entediantes do fluxo de edição: marcar tempos, dividir frases, ajustar quebras de linha, traduzir para outros idiomas. A IA muda a equação: um ficheiro SRT ou VTT bem feito a partir de um vídeo de 20 minutos é agora gerado em menos de cinco.

Este guia explica como criar ficheiros SRT e VTT com IA a partir de qualquer áudio ou vídeo: diferenças técnicas entre os dois formatos, exemplos de código, ferramentas, como controlar a sincronização e as quebras de linha, como traduzir as legendas para vários idiomas mantendo os timestamps e como carregá-los no YouTube, Vimeo, Premiere e leitores HTML5.

85% dos vídeos nas redes são vistos sem som

12%+ de retenção extra com legendas

3-5 min para gerar SRT/VTT de 20 min de vídeo

Conteúdos do artigo

SRT vs VTT: diferenças técnicas
Quando usar cada formato
Estrutura interna de um SRT e de um VTT
Criar SRT e VTT com VOCAP
Carregar VTT em HTML5 com <track>
Carregar SRT/VTT no YouTube e Vimeo
Importar SRT no Premiere e Final Cut
Traduzir legendas para outros idiomas
Melhores práticas: comprimento, tempos, leitura
Perguntas frequentes

SRT vs VTT: diferenças técnicas

Ambos são ficheiros de texto simples que associam frases a marcas de tempo, mas pertencem a gerações diferentes. SRT (SubRip Text) nasceu em 2000 como formato de saída do programa SubRip para extração de legendas de DVD. VTT (WebVTT) é o padrão moderno do W3C, concebido para leitores HTML5 e a web semântica.

Característica	SRT	VTT
Ano do padrão	2000 (de facto)	2010 (W3C)
Extensão	.srt	.vtt
Cabeçalho obrigatório	Não	Sim (WEBVTT)
Separador decimal	Vírgula (,)	Ponto (.)
HTML5 nativo (<track>)	Só com conversão	Sim, oficial
Estilos CSS	Não	Sim, via ::cue
Posicionamento do cue	Não	Sim (line, position, align)
Comentários NOTE	Não	Sim
Capítulos / regiões	Não	Sim
Suporte YouTube	Sim	Sim
Suporte Premiere / Final Cut	Sim, nativo	Conversão recomendada
Suporte Netflix / Disney+	Via conversão para IMSC/TTML	Via conversão para IMSC/TTML

Quando usar cada formato

Regra prática: se o destino for um leitor HTML5 num site próprio ou numa plataforma moderna, exporta VTT. Se o destino for um editor de vídeo (Premiere, Final Cut, DaVinci, CapCut), uma plataforma social (YouTube, Vimeo, Facebook) ou um leitor de desktop (VLC, MX Player), exporta SRT. Em caso de dúvida, exporta SRT: tem mais compatibilidade histórica e quase todas as ferramentas sabem convertê-lo.

Quando escolher SRT

Edição de vídeo: Premiere Pro e DaVinci Resolve importam-no para a timeline como faixa de legendas editável
Leitores de desktop: VLC, MPC-HC, MX Player reconhecem-no automaticamente se partilhar o nome com o .mp4
Carregar no YouTube e Vimeo: ambos o aceitam sem conversão
Distribuição a clientes: é o formato que quase toda a gente sabe abrir

Quando escolher VTT

Leitor HTML5 próprio: o elemento <track> do <video> só aceita VTT oficialmente
Cursos e plataformas LMS: Moodle, Canvas, Coursera ou o teu próprio leitor de vídeo preferem VTT
Legendas com estilo: se precisares de cores, posicionamento ou itálico sem queimar texto no vídeo
Faixas de capítulos: VTT suporta <track kind="chapters"> para navegação por marcadores
Aplicações web modernas: React, Vue ou qualquer framework que use o leitor nativo do browser

Estrutura interna de um SRT e de um VTT

Ver o ficheiro por dentro ajuda a perceber como a IA constrói o resultado e como o arranjar se algo se desorganizar.

Exemplo de ficheiro .srt

1
00:00:00,000 --> 00:00:03,200
Bem-vindos ao podcast de hoje.

2
00:00:03,500 --> 00:00:07,800
Vamos falar sobre como criar
legendas com inteligência artificial.

3
00:00:08,000 --> 00:00:11,400
Em cinco minutos vais ter
um ficheiro SRT pronto a usar.

Cada cue tem três partes: um número de ordem, um intervalo temporal com a seta --> e separador decimal com vírgula, e o texto da legenda (uma ou duas linhas no máximo). Uma linha em branco separa os cues.

Exemplo de ficheiro .vtt

WEBVTT

NOTE Legendas geradas por VOCAP

1
00:00:00.000 --> 00:00:03.200
Bem-vindos ao podcast de hoje.

2
00:00:03.500 --> 00:00:07.800 line:90% align:center
Vamos falar sobre como criar
legendas com inteligência artificial.

3
00:00:08.000 --> 00:00:11.400
<v Speaker1>Em cinco minutos vais ter um ficheiro VTT pronto a usar.</v>

O VTT exige o cabeçalho WEBVTT como primeira linha, usa ponto como separador decimal e permite extras: comentários com NOTE, posicionamento do cue (line, align, position) e etiquetas inline como <v Speaker> para diarização de falantes.

Dica: nunca uses Word ou Pages para editar um .srt ou .vtt: introduzem codificação rica que parte os leitores. Usa sempre um editor de texto simples (VS Code, Sublime Text, Notepad++, BBEdit) e grava em UTF-8 sem BOM.

Criar SRT e VTT com VOCAP

O VOCAP gera ambos os formatos no mesmo processo de transcrição, com marcas de tempo ao nível da frase e respeitando os comprimentos recomendados.

Carrega o áudio ou vídeo

Acede a vocap.io/pt/transcribe e arrasta o ficheiro. O VOCAP aceita MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC e OPUS, até 150 MB. Se o teu vídeo pesar mais, extrai o áudio com ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) e carrega apenas o áudio.

Espera pela transcrição com timestamps

O VOCAP usa Whisper da OpenAI para transcrever e devolver marcas de tempo ao nível da frase. Para 20 minutos de vídeo, a transcrição demora entre 3 e 5 minutos.

Exporta como SRT ou VTT

No painel de resultados, clica em Exportar e escolhe o formato. A segmentação ajusta-se automaticamente: máximo 42 caracteres por linha, máximo 6 segundos por cue, cortes em pontuação natural.

Revê num editor de texto

Abre o .srt ou .vtt no VS Code ou Sublime Text. Confirma que os timestamps estão sincronizados com o áudio (podes colar o ficheiro num leitor que carregue legendas para verificar) e corrige qualquer nome próprio que a IA tenha transcrito mal.

Carrega o ficheiro na tua plataforma

Passa para a secção correspondente: YouTube, Vimeo, Premiere ou HTML5. Cada um tem um fluxo de carregamento diferente, descrito nas secções seguintes.

Cria o teu primeiro SRT/VTT grátis

30 minutos de transcrição com exportação SRT e VTT incluídas. Sem cartão de crédito.

Experimentar VOCAP grátis

Carregar VTT em HTML5 com <track>

O leitor HTML5 nativo suporta legendas de forma padrão graças ao elemento <track>. Só aceita VTT.

<video controls width="720">
  <source src="podcast.mp4" type="video/mp4">

  <track
    label="Português"
    kind="subtitles"
    srclang="pt"
    src="podcast-pt.vtt"
    default>

  <track
    label="English"
    kind="subtitles"
    srclang="en"
    src="podcast-en.vtt">

  <track
    label="Capítulos"
    kind="chapters"
    srclang="pt"
    src="podcast-chapters.vtt">
</video>

O atributo default marca a faixa que se ativa ao carregar o vídeo. Se servires o HTML a partir de um domínio e o VTT a partir de outro (por exemplo CDN), lembra-te de configurar crossorigin="anonymous" no <video> e os headers Access-Control-Allow-Origin no servidor do VTT.

Erro comum: servir o .vtt com o MIME type errado. Configura o teu servidor para devolver text/vtt; se devolver text/plain ou application/octet-stream, o Chrome e o Firefox ignoram o ficheiro silenciosamente. No Nginx: types { text/vtt vtt; }. No Apache: AddType text/vtt .vtt. No Vercel ou Netlify configura-se a partir do painel.

Estilizar as legendas VTT com CSS

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffeb3b;
  font-family: "Inter", sans-serif;
  font-size: 1.1em;
  text-shadow: 0 1px 2px #000;
}

video::cue(b) {
  color: #ff5252;
}

Só o VTT suporta este nível de controlo. Se exportares SRT e precisares de estilos, terás de os queimar no vídeo com ffmpeg ou ferramentas como HandBrake.

Carregar SRT/VTT no YouTube e Vimeo

YouTube

Acede ao YouTube Studio > Conteúdo > seleciona o teu vídeo
Separador Legendas na barra da esquerda
Adicionar idioma > escolhe o idioma do ficheiro
Clica em Adicionar em "Legendas" > Carregar ficheiro
Seleciona "Com tempos" e carrega o .srt ou .vtt
O YouTube ativa-os de imediato; o botão CC do leitor mostra-os

O YouTube gera também legendas automáticas no seu próprio sistema, mas a qualidade em português é de 75-85%. Carregar o teu próprio SRT gerado pelo VOCAP dá uma precisão acima de 95% e melhora a indexação do vídeo no motor de busca.

Vimeo

Abre o vídeo no Vimeo e clica em Definições
Separador Distribuição > secção Legendas
Clica em + Adicionar ficheiro CC/Legendas
Carrega o .srt ou .vtt e seleciona o idioma
Ativa a caixa "Disponível" para que o espectador possa escolhê-las

Importar SRT no Premiere e Final Cut

Premiere Pro

Desde 2022, o Premiere importa ficheiros .srt diretamente:

Janela > Texto > Legendas > Importar de SRT
Seleciona o ficheiro .srt gerado pelo VOCAP
Aparece uma nova faixa de legendas na timeline
Cada cue pode ser editado individualmente; arrasta as margens para ajustar tempos
Para exportar o vídeo com legendas queimadas, no painel Exportar ativa "Queimar legendas no vídeo"
Para exportar como faixa de legendas separada (sidecar), escolhe "Criar ficheiro de legendas"

Final Cut Pro

O Final Cut prefere o formato iTT (iTunes Timed Text) mas aceita SRT com um atalho:

Ficheiro > Importar > Legendas
Seleciona o .srt; o FCP converte-o automaticamente para iTT internamente
A faixa aparece na timeline com cues editáveis
Para exportar faixa CEA-608 ou iTT, usa Partilhar > Ficheiro principal > Funções

DaVinci Resolve e CapCut

O DaVinci Resolve importa SRT desde a versão 18 (Edit > Importar > Legendas). O CapCut Desktop e Web também suportam SRT desde 2024 (timeline > Legendas > Importar ficheiro). No CapCut móvel a importação é um pouco mais limitada e convém gerar as legendas pela própria app a partir do áudio.

Traduzir legendas para outros idiomas

O fluxo clássico de tradução de legendas consistia em passar o SRT por um tradutor humano ou pelo DeepL colando manualmente cue a cue. Com IA, o processo reduz-se a um único passo porque o VOCAP traduz mantendo os timestamps.

Transcreve o áudio no seu idioma original

Por exemplo, um podcast em português. O VOCAP gera o SRT/VTT em português com timestamps.

Ativa a tradução para os idiomas que precisares

Inglês, francês, alemão, italiano, espanhol ou qualquer um dos 90 idiomas suportados. Cada idioma gera um ficheiro SRT/VTT independente com os mesmos timestamps.

Carrega as faixas alternativas no YouTube ou no teu leitor

O YouTube permite adicionar tantos idiomas quantos quiseres em Legendas > Adicionar idioma. Em HTML5, basta adicionar um <track> por idioma com o atributo srclang correspondente.

Porque importa a tradução de legendas: um vídeo com legendas em 3 idiomas multiplica o alcance potencial por 3-5x. O YouTube indexa por idioma das legendas, por isso um podcast em português com legendas em inglês e espanhol vai aparecer em pesquisas dos três mercados. O custo marginal com IA é de cêntimos por idioma; o custo com um tradutor humano seria de 50-100 EUR.

Melhores práticas: comprimento, tempos, leitura

As diretrizes CSA (França), BBC (UK), Netflix Style Guide e CPL (Captioned Media Program dos EUA) coincidem em quase tudo.

Regra	Valor recomendado	Porquê
Caracteres por linha	Máx. 42	Cabe em ecrãs 16:9 sem saturar
Linhas por cue	Máx. 2	Mais bloqueia a imagem
Duração por cue	1-6 segundos	Tempo de leitura confortável
Velocidade de leitura	< 17 caracteres/segundo	Padrão BBC e Netflix
Intervalo entre cues	≥ 80 ms	Evita piscar entre legendas
Quebra de linha	Em pontuação natural	Não cortar sintagmas
Identificação de falantes	Só se houver confusão	Usa "- " ou `<v>` em VTT

Legendas feitas à mão

3-5 horas por cada hora de vídeo
Erros frequentes de sincronização
Inconsistência entre cues
Traduzir multiplica o custo por idioma
Tédio garantido

Legendas com VOCAP + IA

3-5 minutos por cada hora de vídeo
Sincronização perfeita ao nível da frase
Regras CSA/BBC aplicadas por defeito
Tradução para 90 idiomas no mesmo passo
Tempo livre para edição criativa

Casos de uso reais

Podcasters com vídeo

Convertem episódios do YouTube e Spotify Video em conteúdo acessível e mais bem indexado.

SRT para carregar no YouTube
VTT para web própria do podcast
Traduções para inglês e espanhol
Melhora SEO do vídeo

Cursos online e formadores

Geram legendas acessíveis para as suas academias em Moodle, Teachable ou site próprio.

VTT para leitor HTML5
Capítulos em VTT separado
Conformidade WCAG 2.2
Alunos em idiomas diferentes

Criadores de Reels e Shorts

Legendas queimadas ou sidecar para Instagram, TikTok e YouTube Shorts.

SRT como fonte
Queima via ffmpeg ou CapCut
Estilos por plataforma
Melhora retenção em 80%

Empresas e vídeo corporativo

Onboarding, formação interna, vídeos de produto multilingues.

SRT para Premiere
Tradução para inglês/francês
Acessibilidade em intranet
Aproveitamento internacional

Jornalistas e documentários

Entrevistas gravadas com legendas exatas para emissão.

SRT compatível com editores broadcast
Marcações de falantes em VTT
Citações com timestamp exato
Versionamento em vários idiomas

Streamers e editores de gaming

VODs de Twitch e YouTube Gaming com legendas automáticas.

SRT a partir do VOD longo
Tradução para audiência global
Melhor SEO no YouTube
Acessibilidade da comunidade

Gera as tuas legendas SRT e VTT em minutos

Experimenta o VOCAP grátis: 30 minutos de transcrição com exportação SRT e VTT incluídas. Sem cartão. Funciona em Mac, Windows, Linux, iPhone e Android a partir de Safari ou Chrome.

Começar grátis

Perguntas frequentes

Começa a criar legendas profissionais hoje

30 minutos de transcrição grátis com exportação SRT e VTT. Sem cartão de crédito.