Publicar um vídeo sem legendas em 2026 é deixar de fora 85% dos espectadores que veem conteúdo em silêncio no metro, no escritório ou na cama. E criar legendas à mão continua a ser uma das tarefas mais entediantes do fluxo de edição: marcar tempos, dividir frases, ajustar quebras de linha, traduzir para outros idiomas. A IA muda a equação: um ficheiro SRT ou VTT bem feito a partir de um vídeo de 20 minutos é agora gerado em menos de cinco.
Este guia explica como criar ficheiros SRT e VTT com IA a partir de qualquer áudio ou vídeo: diferenças técnicas entre os dois formatos, exemplos de código, ferramentas, como controlar a sincronização e as quebras de linha, como traduzir as legendas para vários idiomas mantendo os timestamps e como carregá-los no YouTube, Vimeo, Premiere e leitores HTML5.
Conteúdos do artigo
- SRT vs VTT: diferenças técnicas
- Quando usar cada formato
- Estrutura interna de um SRT e de um VTT
- Criar SRT e VTT com VOCAP
- Carregar VTT em HTML5 com <track>
- Carregar SRT/VTT no YouTube e Vimeo
- Importar SRT no Premiere e Final Cut
- Traduzir legendas para outros idiomas
- Melhores práticas: comprimento, tempos, leitura
- Perguntas frequentes
SRT vs VTT: diferenças técnicas
Ambos são ficheiros de texto simples que associam frases a marcas de tempo, mas pertencem a gerações diferentes. SRT (SubRip Text) nasceu em 2000 como formato de saída do programa SubRip para extração de legendas de DVD. VTT (WebVTT) é o padrão moderno do W3C, concebido para leitores HTML5 e a web semântica.
| Característica | SRT | VTT |
|---|---|---|
| Ano do padrão | 2000 (de facto) | 2010 (W3C) |
| Extensão | .srt | .vtt |
| Cabeçalho obrigatório | Não | Sim (WEBVTT) |
| Separador decimal | Vírgula (,) | Ponto (.) |
| HTML5 nativo (<track>) | Só com conversão | Sim, oficial |
| Estilos CSS | Não | Sim, via ::cue |
| Posicionamento do cue | Não | Sim (line, position, align) |
| Comentários NOTE | Não | Sim |
| Capítulos / regiões | Não | Sim |
| Suporte YouTube | Sim | Sim |
| Suporte Premiere / Final Cut | Sim, nativo | Conversão recomendada |
| Suporte Netflix / Disney+ | Via conversão para IMSC/TTML | Via conversão para IMSC/TTML |
Quando usar cada formato
Regra prática: se o destino for um leitor HTML5 num site próprio ou numa plataforma moderna, exporta VTT. Se o destino for um editor de vídeo (Premiere, Final Cut, DaVinci, CapCut), uma plataforma social (YouTube, Vimeo, Facebook) ou um leitor de desktop (VLC, MX Player), exporta SRT. Em caso de dúvida, exporta SRT: tem mais compatibilidade histórica e quase todas as ferramentas sabem convertê-lo.
Quando escolher SRT
- Edição de vídeo: Premiere Pro e DaVinci Resolve importam-no para a timeline como faixa de legendas editável
- Leitores de desktop: VLC, MPC-HC, MX Player reconhecem-no automaticamente se partilhar o nome com o .mp4
- Carregar no YouTube e Vimeo: ambos o aceitam sem conversão
- Distribuição a clientes: é o formato que quase toda a gente sabe abrir
Quando escolher VTT
- Leitor HTML5 próprio: o elemento <track> do <video> só aceita VTT oficialmente
- Cursos e plataformas LMS: Moodle, Canvas, Coursera ou o teu próprio leitor de vídeo preferem VTT
- Legendas com estilo: se precisares de cores, posicionamento ou itálico sem queimar texto no vídeo
- Faixas de capítulos: VTT suporta <track kind="chapters"> para navegação por marcadores
- Aplicações web modernas: React, Vue ou qualquer framework que use o leitor nativo do browser
Estrutura interna de um SRT e de um VTT
Ver o ficheiro por dentro ajuda a perceber como a IA constrói o resultado e como o arranjar se algo se desorganizar.
Exemplo de ficheiro .srt
1 00:00:00,000 --> 00:00:03,200 Bem-vindos ao podcast de hoje. 2 00:00:03,500 --> 00:00:07,800 Vamos falar sobre como criar legendas com inteligência artificial. 3 00:00:08,000 --> 00:00:11,400 Em cinco minutos vais ter um ficheiro SRT pronto a usar.
Cada cue tem três partes: um número de ordem, um intervalo temporal com a seta --> e separador decimal com vírgula, e o texto da legenda (uma ou duas linhas no máximo). Uma linha em branco separa os cues.
Exemplo de ficheiro .vtt
WEBVTT NOTE Legendas geradas por VOCAP 1 00:00:00.000 --> 00:00:03.200 Bem-vindos ao podcast de hoje. 2 00:00:03.500 --> 00:00:07.800 line:90% align:center Vamos falar sobre como criar legendas com inteligência artificial. 3 00:00:08.000 --> 00:00:11.400 <v Speaker1>Em cinco minutos vais ter um ficheiro VTT pronto a usar.</v>
O VTT exige o cabeçalho WEBVTT como primeira linha, usa ponto como separador decimal e permite extras: comentários com NOTE, posicionamento do cue (line, align, position) e etiquetas inline como <v Speaker> para diarização de falantes.
Dica: nunca uses Word ou Pages para editar um .srt ou .vtt: introduzem codificação rica que parte os leitores. Usa sempre um editor de texto simples (VS Code, Sublime Text, Notepad++, BBEdit) e grava em UTF-8 sem BOM.
Criar SRT e VTT com VOCAP
O VOCAP gera ambos os formatos no mesmo processo de transcrição, com marcas de tempo ao nível da frase e respeitando os comprimentos recomendados.
Carrega o áudio ou vídeo
Acede a vocap.io/pt/transcribe e arrasta o ficheiro. O VOCAP aceita MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC e OPUS, até 150 MB. Se o teu vídeo pesar mais, extrai o áudio com ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) e carrega apenas o áudio.
Espera pela transcrição com timestamps
O VOCAP usa Whisper da OpenAI para transcrever e devolver marcas de tempo ao nível da frase. Para 20 minutos de vídeo, a transcrição demora entre 3 e 5 minutos.
Exporta como SRT ou VTT
No painel de resultados, clica em Exportar e escolhe o formato. A segmentação ajusta-se automaticamente: máximo 42 caracteres por linha, máximo 6 segundos por cue, cortes em pontuação natural.
Revê num editor de texto
Abre o .srt ou .vtt no VS Code ou Sublime Text. Confirma que os timestamps estão sincronizados com o áudio (podes colar o ficheiro num leitor que carregue legendas para verificar) e corrige qualquer nome próprio que a IA tenha transcrito mal.
Carrega o ficheiro na tua plataforma
Passa para a secção correspondente: YouTube, Vimeo, Premiere ou HTML5. Cada um tem um fluxo de carregamento diferente, descrito nas secções seguintes.
Cria o teu primeiro SRT/VTT grátis
30 minutos de transcrição com exportação SRT e VTT incluídas. Sem cartão de crédito.
Experimentar VOCAP grátisCarregar VTT em HTML5 com <track>
O leitor HTML5 nativo suporta legendas de forma padrão graças ao elemento <track>. Só aceita VTT.
<video controls width="720">
<source src="podcast.mp4" type="video/mp4">
<track
label="Português"
kind="subtitles"
srclang="pt"
src="podcast-pt.vtt"
default>
<track
label="English"
kind="subtitles"
srclang="en"
src="podcast-en.vtt">
<track
label="Capítulos"
kind="chapters"
srclang="pt"
src="podcast-chapters.vtt">
</video>
O atributo default marca a faixa que se ativa ao carregar o vídeo. Se servires o HTML a partir de um domínio e o VTT a partir de outro (por exemplo CDN), lembra-te de configurar crossorigin="anonymous" no <video> e os headers Access-Control-Allow-Origin no servidor do VTT.
Erro comum: servir o .vtt com o MIME type errado. Configura o teu servidor para devolver text/vtt; se devolver text/plain ou application/octet-stream, o Chrome e o Firefox ignoram o ficheiro silenciosamente. No Nginx: types { text/vtt vtt; }. No Apache: AddType text/vtt .vtt. No Vercel ou Netlify configura-se a partir do painel.
Estilizar as legendas VTT com CSS
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffeb3b;
font-family: "Inter", sans-serif;
font-size: 1.1em;
text-shadow: 0 1px 2px #000;
}
video::cue(b) {
color: #ff5252;
}
Só o VTT suporta este nível de controlo. Se exportares SRT e precisares de estilos, terás de os queimar no vídeo com ffmpeg ou ferramentas como HandBrake.
Carregar SRT/VTT no YouTube e Vimeo
YouTube
- Acede ao YouTube Studio > Conteúdo > seleciona o teu vídeo
- Separador Legendas na barra da esquerda
- Adicionar idioma > escolhe o idioma do ficheiro
- Clica em Adicionar em "Legendas" > Carregar ficheiro
- Seleciona "Com tempos" e carrega o .srt ou .vtt
- O YouTube ativa-os de imediato; o botão CC do leitor mostra-os
O YouTube gera também legendas automáticas no seu próprio sistema, mas a qualidade em português é de 75-85%. Carregar o teu próprio SRT gerado pelo VOCAP dá uma precisão acima de 95% e melhora a indexação do vídeo no motor de busca.
Vimeo
- Abre o vídeo no Vimeo e clica em Definições
- Separador Distribuição > secção Legendas
- Clica em + Adicionar ficheiro CC/Legendas
- Carrega o .srt ou .vtt e seleciona o idioma
- Ativa a caixa "Disponível" para que o espectador possa escolhê-las
Importar SRT no Premiere e Final Cut
Premiere Pro
Desde 2022, o Premiere importa ficheiros .srt diretamente:
- Janela > Texto > Legendas > Importar de SRT
- Seleciona o ficheiro .srt gerado pelo VOCAP
- Aparece uma nova faixa de legendas na timeline
- Cada cue pode ser editado individualmente; arrasta as margens para ajustar tempos
- Para exportar o vídeo com legendas queimadas, no painel Exportar ativa "Queimar legendas no vídeo"
- Para exportar como faixa de legendas separada (sidecar), escolhe "Criar ficheiro de legendas"
Final Cut Pro
O Final Cut prefere o formato iTT (iTunes Timed Text) mas aceita SRT com um atalho:
- Ficheiro > Importar > Legendas
- Seleciona o .srt; o FCP converte-o automaticamente para iTT internamente
- A faixa aparece na timeline com cues editáveis
- Para exportar faixa CEA-608 ou iTT, usa Partilhar > Ficheiro principal > Funções
DaVinci Resolve e CapCut
O DaVinci Resolve importa SRT desde a versão 18 (Edit > Importar > Legendas). O CapCut Desktop e Web também suportam SRT desde 2024 (timeline > Legendas > Importar ficheiro). No CapCut móvel a importação é um pouco mais limitada e convém gerar as legendas pela própria app a partir do áudio.
Traduzir legendas para outros idiomas
O fluxo clássico de tradução de legendas consistia em passar o SRT por um tradutor humano ou pelo DeepL colando manualmente cue a cue. Com IA, o processo reduz-se a um único passo porque o VOCAP traduz mantendo os timestamps.
Transcreve o áudio no seu idioma original
Por exemplo, um podcast em português. O VOCAP gera o SRT/VTT em português com timestamps.
Ativa a tradução para os idiomas que precisares
Inglês, francês, alemão, italiano, espanhol ou qualquer um dos 90 idiomas suportados. Cada idioma gera um ficheiro SRT/VTT independente com os mesmos timestamps.
Carrega as faixas alternativas no YouTube ou no teu leitor
O YouTube permite adicionar tantos idiomas quantos quiseres em Legendas > Adicionar idioma. Em HTML5, basta adicionar um <track> por idioma com o atributo srclang correspondente.
Porque importa a tradução de legendas: um vídeo com legendas em 3 idiomas multiplica o alcance potencial por 3-5x. O YouTube indexa por idioma das legendas, por isso um podcast em português com legendas em inglês e espanhol vai aparecer em pesquisas dos três mercados. O custo marginal com IA é de cêntimos por idioma; o custo com um tradutor humano seria de 50-100 EUR.
Melhores práticas: comprimento, tempos, leitura
As diretrizes CSA (França), BBC (UK), Netflix Style Guide e CPL (Captioned Media Program dos EUA) coincidem em quase tudo.
| Regra | Valor recomendado | Porquê |
|---|---|---|
| Caracteres por linha | Máx. 42 | Cabe em ecrãs 16:9 sem saturar |
| Linhas por cue | Máx. 2 | Mais bloqueia a imagem |
| Duração por cue | 1-6 segundos | Tempo de leitura confortável |
| Velocidade de leitura | < 17 caracteres/segundo | Padrão BBC e Netflix |
| Intervalo entre cues | ≥ 80 ms | Evita piscar entre legendas |
| Quebra de linha | Em pontuação natural | Não cortar sintagmas |
| Identificação de falantes | Só se houver confusão | Usa "- " ou <v> em VTT |
Legendas feitas à mão
- 3-5 horas por cada hora de vídeo
- Erros frequentes de sincronização
- Inconsistência entre cues
- Traduzir multiplica o custo por idioma
- Tédio garantido
Legendas com VOCAP + IA
- 3-5 minutos por cada hora de vídeo
- Sincronização perfeita ao nível da frase
- Regras CSA/BBC aplicadas por defeito
- Tradução para 90 idiomas no mesmo passo
- Tempo livre para edição criativa
Casos de uso reais
Podcasters com vídeo
Convertem episódios do YouTube e Spotify Video em conteúdo acessível e mais bem indexado.
- SRT para carregar no YouTube
- VTT para web própria do podcast
- Traduções para inglês e espanhol
- Melhora SEO do vídeo
Cursos online e formadores
Geram legendas acessíveis para as suas academias em Moodle, Teachable ou site próprio.
- VTT para leitor HTML5
- Capítulos em VTT separado
- Conformidade WCAG 2.2
- Alunos em idiomas diferentes
Criadores de Reels e Shorts
Legendas queimadas ou sidecar para Instagram, TikTok e YouTube Shorts.
- SRT como fonte
- Queima via ffmpeg ou CapCut
- Estilos por plataforma
- Melhora retenção em 80%
Empresas e vídeo corporativo
Onboarding, formação interna, vídeos de produto multilingues.
- SRT para Premiere
- Tradução para inglês/francês
- Acessibilidade em intranet
- Aproveitamento internacional
Jornalistas e documentários
Entrevistas gravadas com legendas exatas para emissão.
- SRT compatível com editores broadcast
- Marcações de falantes em VTT
- Citações com timestamp exato
- Versionamento em vários idiomas
Streamers e editores de gaming
VODs de Twitch e YouTube Gaming com legendas automáticas.
- SRT a partir do VOD longo
- Tradução para audiência global
- Melhor SEO no YouTube
- Acessibilidade da comunidade
Gera as tuas legendas SRT e VTT em minutos
Experimenta o VOCAP grátis: 30 minutos de transcrição com exportação SRT e VTT incluídas. Sem cartão. Funciona em Mac, Windows, Linux, iPhone e Android a partir de Safari ou Chrome.
Começar grátisPerguntas frequentes
Qual é a diferença entre SRT e VTT?
SRT (SubRip Text) é o formato mais antigo e compatível: é suportado pelo YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix e praticamente qualquer leitor. Usa marcas de tempo com vírgula como separador decimal. VTT (WebVTT) é o padrão moderno da web: é utilizado pelos leitores HTML5 através do elemento <track>, suporta estilos CSS, posicionamento de texto no ecrã e comentários. Usa ponto como separador decimal. Para web moderna usa VTT; para vídeo editado ou carregado em plataformas, usa SRT.
Posso criar um SRT diretamente a partir de um áudio sem vídeo?
Sim. SRT e VTT são apenas texto com marcas de tempo, não contêm vídeo. O VOCAP gera o ficheiro a partir de qualquer MP3, WAV, M4A ou OGG. O áudio é transcrito com Whisper, segmentado automaticamente em frases de 3-6 segundos e exportado como .srt ou .vtt pronto a sincronizar com o vídeo que criares depois ou para usar como base para legendas de um podcast.
Como se faz a tradução automática de um SRT para outro idioma?
O VOCAP transcreve o áudio no seu idioma original e, no mesmo processo, pode traduzir o resultado para inglês, francês, alemão, italiano, espanhol ou outros 90 idiomas mantendo as marcas de tempo. A tradução é feita por Claude após a transcrição, frase a frase, para que cada cue mantenha a sua posição temporal. O resultado são dois ficheiros SRT/VTT: original e traduzido.
Qual deve ser a duração de cada linha de legenda?
As diretrizes do CSA, BBC e Netflix coincidem: máximo 42 caracteres por linha, máximo 2 linhas por cue, duração entre 1 e 6 segundos e uma velocidade de leitura abaixo de 17 caracteres por segundo. O VOCAP segmenta automaticamente respeitando estes limites.
Porque é que o YouTube aceita SRT e VTT mas os mostra de forma diferente?
O YouTube ingere ambos os formatos mas internamente converte-os no seu próprio formato JSON3. O resultado visual é idêntico para o espectador. A diferença prática é que VTT permite incluir metadados (NOTE), cue settings (posição, alinhamento) e formatação (itálico, negrito) que SRT não suporta de forma padrão.
Começa a criar legendas profissionais hoje
30 minutos de transcrição grátis com exportação SRT e VTT. Sem cartão de crédito.
Experimentar VOCAP grátis