Inicio Precos Blog

Como Criar Legendas SRT e VTT com IA em 2026

22 de maio de 2026 Por VOCAP 12 min de leitura

Publicar um vídeo sem legendas em 2026 é deixar de fora 85% dos espectadores que veem conteúdo em silêncio no metro, no escritório ou na cama. E criar legendas à mão continua a ser uma das tarefas mais entediantes do fluxo de edição: marcar tempos, dividir frases, ajustar quebras de linha, traduzir para outros idiomas. A IA muda a equação: um ficheiro SRT ou VTT bem feito a partir de um vídeo de 20 minutos é agora gerado em menos de cinco.

Este guia explica como criar ficheiros SRT e VTT com IA a partir de qualquer áudio ou vídeo: diferenças técnicas entre os dois formatos, exemplos de código, ferramentas, como controlar a sincronização e as quebras de linha, como traduzir as legendas para vários idiomas mantendo os timestamps e como carregá-los no YouTube, Vimeo, Premiere e leitores HTML5.

85% dos vídeos nas redes são vistos sem som
12%+ de retenção extra com legendas
3-5 min para gerar SRT/VTT de 20 min de vídeo

SRT vs VTT: diferenças técnicas

Ambos são ficheiros de texto simples que associam frases a marcas de tempo, mas pertencem a gerações diferentes. SRT (SubRip Text) nasceu em 2000 como formato de saída do programa SubRip para extração de legendas de DVD. VTT (WebVTT) é o padrão moderno do W3C, concebido para leitores HTML5 e a web semântica.

Característica SRT VTT
Ano do padrão 2000 (de facto) 2010 (W3C)
Extensão .srt .vtt
Cabeçalho obrigatório Não Sim (WEBVTT)
Separador decimal Vírgula (,) Ponto (.)
HTML5 nativo (<track>) Só com conversão Sim, oficial
Estilos CSS Não Sim, via ::cue
Posicionamento do cue Não Sim (line, position, align)
Comentários NOTE Não Sim
Capítulos / regiões Não Sim
Suporte YouTube Sim Sim
Suporte Premiere / Final Cut Sim, nativo Conversão recomendada
Suporte Netflix / Disney+ Via conversão para IMSC/TTML Via conversão para IMSC/TTML

Quando usar cada formato

Regra prática: se o destino for um leitor HTML5 num site próprio ou numa plataforma moderna, exporta VTT. Se o destino for um editor de vídeo (Premiere, Final Cut, DaVinci, CapCut), uma plataforma social (YouTube, Vimeo, Facebook) ou um leitor de desktop (VLC, MX Player), exporta SRT. Em caso de dúvida, exporta SRT: tem mais compatibilidade histórica e quase todas as ferramentas sabem convertê-lo.

Quando escolher SRT

Quando escolher VTT

Estrutura interna de um SRT e de um VTT

Ver o ficheiro por dentro ajuda a perceber como a IA constrói o resultado e como o arranjar se algo se desorganizar.

Exemplo de ficheiro .srt

1
00:00:00,000 --> 00:00:03,200
Bem-vindos ao podcast de hoje.

2
00:00:03,500 --> 00:00:07,800
Vamos falar sobre como criar
legendas com inteligência artificial.

3
00:00:08,000 --> 00:00:11,400
Em cinco minutos vais ter
um ficheiro SRT pronto a usar.

Cada cue tem três partes: um número de ordem, um intervalo temporal com a seta --> e separador decimal com vírgula, e o texto da legenda (uma ou duas linhas no máximo). Uma linha em branco separa os cues.

Exemplo de ficheiro .vtt

WEBVTT

NOTE Legendas geradas por VOCAP

1
00:00:00.000 --> 00:00:03.200
Bem-vindos ao podcast de hoje.

2
00:00:03.500 --> 00:00:07.800 line:90% align:center
Vamos falar sobre como criar
legendas com inteligência artificial.

3
00:00:08.000 --> 00:00:11.400
<v Speaker1>Em cinco minutos vais ter um ficheiro VTT pronto a usar.</v>

O VTT exige o cabeçalho WEBVTT como primeira linha, usa ponto como separador decimal e permite extras: comentários com NOTE, posicionamento do cue (line, align, position) e etiquetas inline como <v Speaker> para diarização de falantes.

Dica: nunca uses Word ou Pages para editar um .srt ou .vtt: introduzem codificação rica que parte os leitores. Usa sempre um editor de texto simples (VS Code, Sublime Text, Notepad++, BBEdit) e grava em UTF-8 sem BOM.

Criar SRT e VTT com VOCAP

O VOCAP gera ambos os formatos no mesmo processo de transcrição, com marcas de tempo ao nível da frase e respeitando os comprimentos recomendados.

1

Carrega o áudio ou vídeo

Acede a vocap.io/pt/transcribe e arrasta o ficheiro. O VOCAP aceita MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC e OPUS, até 150 MB. Se o teu vídeo pesar mais, extrai o áudio com ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) e carrega apenas o áudio.

2

Espera pela transcrição com timestamps

O VOCAP usa Whisper da OpenAI para transcrever e devolver marcas de tempo ao nível da frase. Para 20 minutos de vídeo, a transcrição demora entre 3 e 5 minutos.

3

Exporta como SRT ou VTT

No painel de resultados, clica em Exportar e escolhe o formato. A segmentação ajusta-se automaticamente: máximo 42 caracteres por linha, máximo 6 segundos por cue, cortes em pontuação natural.

4

Revê num editor de texto

Abre o .srt ou .vtt no VS Code ou Sublime Text. Confirma que os timestamps estão sincronizados com o áudio (podes colar o ficheiro num leitor que carregue legendas para verificar) e corrige qualquer nome próprio que a IA tenha transcrito mal.

5

Carrega o ficheiro na tua plataforma

Passa para a secção correspondente: YouTube, Vimeo, Premiere ou HTML5. Cada um tem um fluxo de carregamento diferente, descrito nas secções seguintes.

Cria o teu primeiro SRT/VTT grátis

30 minutos de transcrição com exportação SRT e VTT incluídas. Sem cartão de crédito.

Experimentar VOCAP grátis

Carregar VTT em HTML5 com <track>

O leitor HTML5 nativo suporta legendas de forma padrão graças ao elemento <track>. Só aceita VTT.

<video controls width="720">
  <source src="podcast.mp4" type="video/mp4">

  <track
    label="Português"
    kind="subtitles"
    srclang="pt"
    src="podcast-pt.vtt"
    default>

  <track
    label="English"
    kind="subtitles"
    srclang="en"
    src="podcast-en.vtt">

  <track
    label="Capítulos"
    kind="chapters"
    srclang="pt"
    src="podcast-chapters.vtt">
</video>

O atributo default marca a faixa que se ativa ao carregar o vídeo. Se servires o HTML a partir de um domínio e o VTT a partir de outro (por exemplo CDN), lembra-te de configurar crossorigin="anonymous" no <video> e os headers Access-Control-Allow-Origin no servidor do VTT.

Erro comum: servir o .vtt com o MIME type errado. Configura o teu servidor para devolver text/vtt; se devolver text/plain ou application/octet-stream, o Chrome e o Firefox ignoram o ficheiro silenciosamente. No Nginx: types { text/vtt vtt; }. No Apache: AddType text/vtt .vtt. No Vercel ou Netlify configura-se a partir do painel.

Estilizar as legendas VTT com CSS

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffeb3b;
  font-family: "Inter", sans-serif;
  font-size: 1.1em;
  text-shadow: 0 1px 2px #000;
}

video::cue(b) {
  color: #ff5252;
}

Só o VTT suporta este nível de controlo. Se exportares SRT e precisares de estilos, terás de os queimar no vídeo com ffmpeg ou ferramentas como HandBrake.

Carregar SRT/VTT no YouTube e Vimeo

YouTube

  1. Acede ao YouTube Studio > Conteúdo > seleciona o teu vídeo
  2. Separador Legendas na barra da esquerda
  3. Adicionar idioma > escolhe o idioma do ficheiro
  4. Clica em Adicionar em "Legendas" > Carregar ficheiro
  5. Seleciona "Com tempos" e carrega o .srt ou .vtt
  6. O YouTube ativa-os de imediato; o botão CC do leitor mostra-os

O YouTube gera também legendas automáticas no seu próprio sistema, mas a qualidade em português é de 75-85%. Carregar o teu próprio SRT gerado pelo VOCAP dá uma precisão acima de 95% e melhora a indexação do vídeo no motor de busca.

Vimeo

  1. Abre o vídeo no Vimeo e clica em Definições
  2. Separador Distribuição > secção Legendas
  3. Clica em + Adicionar ficheiro CC/Legendas
  4. Carrega o .srt ou .vtt e seleciona o idioma
  5. Ativa a caixa "Disponível" para que o espectador possa escolhê-las

Importar SRT no Premiere e Final Cut

Premiere Pro

Desde 2022, o Premiere importa ficheiros .srt diretamente:

  1. Janela > Texto > Legendas > Importar de SRT
  2. Seleciona o ficheiro .srt gerado pelo VOCAP
  3. Aparece uma nova faixa de legendas na timeline
  4. Cada cue pode ser editado individualmente; arrasta as margens para ajustar tempos
  5. Para exportar o vídeo com legendas queimadas, no painel Exportar ativa "Queimar legendas no vídeo"
  6. Para exportar como faixa de legendas separada (sidecar), escolhe "Criar ficheiro de legendas"

Final Cut Pro

O Final Cut prefere o formato iTT (iTunes Timed Text) mas aceita SRT com um atalho:

  1. Ficheiro > Importar > Legendas
  2. Seleciona o .srt; o FCP converte-o automaticamente para iTT internamente
  3. A faixa aparece na timeline com cues editáveis
  4. Para exportar faixa CEA-608 ou iTT, usa Partilhar > Ficheiro principal > Funções

DaVinci Resolve e CapCut

O DaVinci Resolve importa SRT desde a versão 18 (Edit > Importar > Legendas). O CapCut Desktop e Web também suportam SRT desde 2024 (timeline > Legendas > Importar ficheiro). No CapCut móvel a importação é um pouco mais limitada e convém gerar as legendas pela própria app a partir do áudio.

Traduzir legendas para outros idiomas

O fluxo clássico de tradução de legendas consistia em passar o SRT por um tradutor humano ou pelo DeepL colando manualmente cue a cue. Com IA, o processo reduz-se a um único passo porque o VOCAP traduz mantendo os timestamps.

1

Transcreve o áudio no seu idioma original

Por exemplo, um podcast em português. O VOCAP gera o SRT/VTT em português com timestamps.

2

Ativa a tradução para os idiomas que precisares

Inglês, francês, alemão, italiano, espanhol ou qualquer um dos 90 idiomas suportados. Cada idioma gera um ficheiro SRT/VTT independente com os mesmos timestamps.

3

Carrega as faixas alternativas no YouTube ou no teu leitor

O YouTube permite adicionar tantos idiomas quantos quiseres em Legendas > Adicionar idioma. Em HTML5, basta adicionar um <track> por idioma com o atributo srclang correspondente.

Porque importa a tradução de legendas: um vídeo com legendas em 3 idiomas multiplica o alcance potencial por 3-5x. O YouTube indexa por idioma das legendas, por isso um podcast em português com legendas em inglês e espanhol vai aparecer em pesquisas dos três mercados. O custo marginal com IA é de cêntimos por idioma; o custo com um tradutor humano seria de 50-100 EUR.

Melhores práticas: comprimento, tempos, leitura

As diretrizes CSA (França), BBC (UK), Netflix Style Guide e CPL (Captioned Media Program dos EUA) coincidem em quase tudo.

Regra Valor recomendado Porquê
Caracteres por linha Máx. 42 Cabe em ecrãs 16:9 sem saturar
Linhas por cue Máx. 2 Mais bloqueia a imagem
Duração por cue 1-6 segundos Tempo de leitura confortável
Velocidade de leitura < 17 caracteres/segundo Padrão BBC e Netflix
Intervalo entre cues ≥ 80 ms Evita piscar entre legendas
Quebra de linha Em pontuação natural Não cortar sintagmas
Identificação de falantes Só se houver confusão Usa "- " ou <v> em VTT

Legendas feitas à mão

  • 3-5 horas por cada hora de vídeo
  • Erros frequentes de sincronização
  • Inconsistência entre cues
  • Traduzir multiplica o custo por idioma
  • Tédio garantido

Legendas com VOCAP + IA

  • 3-5 minutos por cada hora de vídeo
  • Sincronização perfeita ao nível da frase
  • Regras CSA/BBC aplicadas por defeito
  • Tradução para 90 idiomas no mesmo passo
  • Tempo livre para edição criativa

Casos de uso reais

Podcasters com vídeo

Convertem episódios do YouTube e Spotify Video em conteúdo acessível e mais bem indexado.

  • SRT para carregar no YouTube
  • VTT para web própria do podcast
  • Traduções para inglês e espanhol
  • Melhora SEO do vídeo

Cursos online e formadores

Geram legendas acessíveis para as suas academias em Moodle, Teachable ou site próprio.

  • VTT para leitor HTML5
  • Capítulos em VTT separado
  • Conformidade WCAG 2.2
  • Alunos em idiomas diferentes

Criadores de Reels e Shorts

Legendas queimadas ou sidecar para Instagram, TikTok e YouTube Shorts.

  • SRT como fonte
  • Queima via ffmpeg ou CapCut
  • Estilos por plataforma
  • Melhora retenção em 80%

Empresas e vídeo corporativo

Onboarding, formação interna, vídeos de produto multilingues.

  • SRT para Premiere
  • Tradução para inglês/francês
  • Acessibilidade em intranet
  • Aproveitamento internacional

Jornalistas e documentários

Entrevistas gravadas com legendas exatas para emissão.

  • SRT compatível com editores broadcast
  • Marcações de falantes em VTT
  • Citações com timestamp exato
  • Versionamento em vários idiomas

Streamers e editores de gaming

VODs de Twitch e YouTube Gaming com legendas automáticas.

  • SRT a partir do VOD longo
  • Tradução para audiência global
  • Melhor SEO no YouTube
  • Acessibilidade da comunidade

Gera as tuas legendas SRT e VTT em minutos

Experimenta o VOCAP grátis: 30 minutos de transcrição com exportação SRT e VTT incluídas. Sem cartão. Funciona em Mac, Windows, Linux, iPhone e Android a partir de Safari ou Chrome.

Começar grátis

Perguntas frequentes

Qual é a diferença entre SRT e VTT?

SRT (SubRip Text) é o formato mais antigo e compatível: é suportado pelo YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix e praticamente qualquer leitor. Usa marcas de tempo com vírgula como separador decimal. VTT (WebVTT) é o padrão moderno da web: é utilizado pelos leitores HTML5 através do elemento <track>, suporta estilos CSS, posicionamento de texto no ecrã e comentários. Usa ponto como separador decimal. Para web moderna usa VTT; para vídeo editado ou carregado em plataformas, usa SRT.

Posso criar um SRT diretamente a partir de um áudio sem vídeo?

Sim. SRT e VTT são apenas texto com marcas de tempo, não contêm vídeo. O VOCAP gera o ficheiro a partir de qualquer MP3, WAV, M4A ou OGG. O áudio é transcrito com Whisper, segmentado automaticamente em frases de 3-6 segundos e exportado como .srt ou .vtt pronto a sincronizar com o vídeo que criares depois ou para usar como base para legendas de um podcast.

Como se faz a tradução automática de um SRT para outro idioma?

O VOCAP transcreve o áudio no seu idioma original e, no mesmo processo, pode traduzir o resultado para inglês, francês, alemão, italiano, espanhol ou outros 90 idiomas mantendo as marcas de tempo. A tradução é feita por Claude após a transcrição, frase a frase, para que cada cue mantenha a sua posição temporal. O resultado são dois ficheiros SRT/VTT: original e traduzido.

Qual deve ser a duração de cada linha de legenda?

As diretrizes do CSA, BBC e Netflix coincidem: máximo 42 caracteres por linha, máximo 2 linhas por cue, duração entre 1 e 6 segundos e uma velocidade de leitura abaixo de 17 caracteres por segundo. O VOCAP segmenta automaticamente respeitando estes limites.

Porque é que o YouTube aceita SRT e VTT mas os mostra de forma diferente?

O YouTube ingere ambos os formatos mas internamente converte-os no seu próprio formato JSON3. O resultado visual é idêntico para o espectador. A diferença prática é que VTT permite incluir metadados (NOTE), cue settings (posição, alinhamento) e formatação (itálico, negrito) que SRT não suporta de forma padrão.

Começa a criar legendas profissionais hoje

30 minutos de transcrição grátis com exportação SRT e VTT. Sem cartão de crédito.

Experimentar VOCAP grátis
Experimente VOCAP gratis 15 min de transcricao
Comecar gratis →